人工智能学习：NLP文本处理的基本方法

技术文档

一、分词

1、分词介绍

概念
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符。分词过程就是找到这样分界符的过程。

例如：

Python
```
传智教育是一家上市公司，旗下有黑马程序员品牌。我是在黑马这里学习人工智能[\'传智\', \'教育\', \'是\', \'一家\', \'上市公司\', \'，\', \'旗下\', \'有\', \'黑马\', \'程序员\', \'品牌\', \'。\', \'我\', \'是\', \'在\', \'黑马\', \'这里\', \'学习\', \'人工智能\']
```
作用
- 预处理：分词是文本处理的第一步，能够将文本分解成有意义的单元，为后续的分析提供基础。
- 理解结构：分词有助于理解句子的基本构成和含义，尤其是在做文本分类、情感分析等任务时，分词是不可缺少的一步。
常用的中文分词工具包括Jieba、THULAC、HanLP等。

2、Jieba分词工具

Jieba（”结巴”）是一个开源的Python中文分词组件，它支持精确模式、全模式和搜索引擎模式三种分词模式。

Jieba的主要特点：

支持多种分词模式：精确模式、全模式和搜索引擎模式，满足不同场景的需求。
支持自定义词典：用户可以添加自定义的词语，提高分词准确率。
支持词性标注：可以为每个词语标注词性，例如名词、动词等。
支持关键词提取：可以提取文本中的关键词。
支持并行分词：可以利用多核处理器加速分词。
简单易用：API 简单明了，易于上手。
开源免费：任何人都可以免费使用。

Jieba的安装:

Bash

pip install jieba -i https://pypi.mirrors.ustc.edu.cn/simple/

Jieba的基本使用：

精确模式分词：试图将句子最精确地切分开，适合文本分析。

Python

import jiebacontent = \"传智教育是一家上市公司，旗下有黑马程序员品牌。我是在黑马这里学习人工智能\"# 精确模型：试图将句子最精确地切开，适合文本分析。也属于默认模式jieba.cut(sentence=content, cut_all=False) # cut_all默认为False# 将返回一个生成器对象# 若需直接返回列表内容, 使用jieba.lcut即可jieba.lcut(sentence=content, cut_all=False)[\'传智\', \'教育\', \'是\', \'一家\', \'上市公司\', \'，\', \'旗下\', \'有\', \'黑马\', \'程序员\', \'品牌\', \'。\', \'我\', \'是\', \'在\', \'黑马\', \'这里\', \'学习\', \'人工智能\']

全模式分词:

人工智能学习：NLP文本处理的基本方法

一、分词

1、分词介绍

2、Jieba分词工具

Jieba的主要特点：

Jieba的安装:

Jieba的基本使用：

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

人工智能学习：NLP文本处理的基本方法

一、分词

1、分词介绍

2、Jieba分词工具

Jieba的主要特点：

Jieba的安装:

Jieba的基本使用：

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签