> 技术文档 > 人工智能学习:NLP文本处理的基本方法

人工智能学习:NLP文本处理的基本方法

一、分词

1、分词介绍

  • 概念
    分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。分词过程就是找到这样分界符的过程。

    例如:

    Python

    传智教育是一家上市公司,旗下有黑马程序员品牌。我是在黑马这里学习人工智能[\'传智\', \'教育\', \'是\', \'一家\', \'上市公司\', \',\', \'旗下\', \'有\', \'黑马\', \'程序员\', \'品牌\', \'。\', \'我\', \'是\', \'在\', \'黑马\', \'这里\', \'学习\', \'人工智能\']
  • 作用

    • 预处理:分词是文本处理的第一步,能够将文本分解成有意义的单元,为后续的分析提供基础。
    • 理解结构:分词有助于理解句子的基本构成和含义,尤其是在做文本分类、情感分析等任务时,分词是不可缺少的一步。
  • 常用的中文分词工具包括JiebaTHULACHanLP等。

2、Jieba分词工具

Jieba(”结巴”)是一个开源的Python中文分词组件,它支持精确模式全模式搜索引擎模式三种分词模式。

Jieba的主要特点:

  • 支持多种分词模式:精确模式、全模式和搜索引擎模式,满足不同场景的需求。
  • 支持自定义词典:用户可以添加自定义的词语,提高分词准确率。
  • 支持词性标注:可以为每个词语标注词性,例如名词、动词等。
  • 支持关键词提取:可以提取文本中的关键词。
  • 支持并行分词:可以利用多核处理器加速分词。
  • 简单易用:API 简单明了,易于上手。
  • 开源免费:任何人都可以免费使用。

Jieba的安装:

Bash

pip install jieba -i https://pypi.mirrors.ustc.edu.cn/simple/

Jieba的基本使用:

  • 精确模式分词:试图将句子最精确地切分开,适合文本分析。

    Python

    import jiebacontent = \"传智教育是一家上市公司,旗下有黑马程序员品牌。我是在黑马这里学习人工智能\"# 精确模型:试图将句子最精确地切开,适合文本分析。也属于默认模式jieba.cut(sentence=content, cut_all=False) # cut_all默认为False# 将返回一个生成器对象# 若需直接返回列表内容, 使用jieba.lcut即可jieba.lcut(sentence=content, cut_all=False)[\'传智\', \'教育\', \'是\', \'一家\', \'上市公司\', \',\', \'旗下\', \'有\', \'黑马\', \'程序员\', \'品牌\', \'。\', \'我\', \'是\', \'在\', \'黑马\', \'这里\', \'学习\', \'人工智能\']
  • 全模式分词: