Transformer实战(9)——Transformer分词算法详解_分词器训练
Transformer实战(9)——Transformer分词算法详解
-
- 0. 前言
- 1. 子词分词算法
- 2. 加载预训练分词器
- 3. 常见字词分词算法
-
- 3.1 字节对编码
- 3.2 WordPiece
- 3.3 SentencePiece
- 4. 使用 tokenizers 库训练分词器
-
- 4.1 训练 BPE
- 4.2 训练 WordPiece
- 4.3 空分词管道
- 小结
- 系列链接
0. 前言
在自然语言处理领域,高效准确的分词算法是构建强大语言模型的基础。随着 Transformer
架构的广泛应用,子词分词算法已成为处理多语言文本和稀有词汇的关键技术。本文将从理论到实践,全面解析现代自然语言处理 (Natural Language Processing
, NLP
) 中最主流的三种分词方法:BPE
、WordPiece
和 SentencePiece
,探讨这些算法的核心原理和适用场景,并介绍使用 tokenizers
库训练分词器的完整流程。
1. 子词分词算法
在 BERT 语言模型一节中,我们使用 BertWordPieceTokenizer
分词器 (tokenizer
) 训练了 BERT
模型。在本节中,我们将详细讨论分词过程。分词是将文本输入拆分为词元 (token
),并为每个词元分配一个标识符,然后将其输入到神经网络架构中的过程。最直观的方法是根据空格将序列拆分成较小的块,但这种方法并不适用于所有语言,例如中文、韩语等,并且可能导致词汇表过大的问题。绝大部分 Transformer
模型都采用子词分词,不仅有助于降低维度