人工智能学习:NLP文本处理的基本方法
一、分词
1、分词介绍
-
概念
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。分词过程就是找到这样分界符的过程。例如:
Python
传智教育是一家上市公司,旗下有黑马程序员品牌。我是在黑马这里学习人工智能[\'传智\', \'教育\', \'是\', \'一家\', \'上市公司\', \',\', \'旗下\', \'有\', \'黑马\', \'程序员\', \'品牌\', \'。\', \'我\', \'是\', \'在\', \'黑马\', \'这里\', \'学习\', \'人工智能\']
-
作用
- 预处理:分词是文本处理的第一步,能够将文本分解成有意义的单元,为后续的分析提供基础。
- 理解结构:分词有助于理解句子的基本构成和含义,尤其是在做文本分类、情感分析等任务时,分词是不可缺少的一步。
-
常用的中文分词工具包括Jieba、THULAC、HanLP等。
2、Jieba分词工具
Jieba(”结巴”)是一个开源的Python中文分词组件,它支持精确模式、全模式和搜索引擎模式三种分词模式。
Jieba的主要特点:
- 支持多种分词模式:精确模式、全模式和搜索引擎模式,满足不同场景的需求。
- 支持自定义词典:用户可以添加自定义的词语,提高分词准确率。
- 支持词性标注:可以为每个词语标注词性,例如名词、动词等。
- 支持关键词提取:可以提取文本中的关键词。
- 支持并行分词:可以利用多核处理器加速分词。
- 简单易用:API 简单明了,易于上手。
- 开源免费:任何人都可以免费使用。
Jieba的安装:
Bash
pip install jieba -i https://pypi.mirrors.ustc.edu.cn/simple/
Jieba的基本使用:
-
精确模式分词:试图将句子最精确地切分开,适合文本分析。
Python
import jiebacontent = \"传智教育是一家上市公司,旗下有黑马程序员品牌。我是在黑马这里学习人工智能\"# 精确模型:试图将句子最精确地切开,适合文本分析。也属于默认模式jieba.cut(sentence=content, cut_all=False) # cut_all默认为False# 将返回一个生成器对象# 若需直接返回列表内容, 使用jieba.lcut即可jieba.lcut(sentence=content, cut_all=False)[\'传智\', \'教育\', \'是\', \'一家\', \'上市公司\', \',\', \'旗下\', \'有\', \'黑马\', \'程序员\', \'品牌\', \'。\', \'我\', \'是\', \'在\', \'黑马\', \'这里\', \'学习\', \'人工智能\']
-
全模式分词: