> 技术文档 > PyTorch生成式人工智能(24)——使用PyTorch构建Transformer模型_使用 pytorch 建简单 transformer 模型

PyTorch生成式人工智能(24)——使用PyTorch构建Transformer模型_使用 pytorch 建简单 transformer 模型


PyTorch生成式人工智能(24)——使用PyTorch构建Transformer模型

    • 0. 前言
    • 1. 注意力机制 和 Transformer
      • 1.1 注意力机制
      • 1.2 Transformer 架构
      • 1.3 不同类型的 Transformer
    • 2. 构建编码器
      • 2.1 注意力机制
      • 2.2 创建编码器
    • 3. 构建编码器-解码器 Transformer
      • 3.1 创建解码器层
      • 3.2 创建编码器-解码器 Transformer
    • 4. 基于 Transformer 构建机器翻译模型
      • 4.1 定义生成器
      • 4.2 创建翻译模型
    • 小结
    • 系列链接

0. 前言

相较于传统模型,如循环神经网络 (Recurrent Neural Network, RNN) 和卷积神经网络 (Convolutional Neural Network, CNN),Transformer 的优势在于能够有效地理解输入和输出序列中元素之间的关系,尤其是在长距离依赖的情况下,例如文本中相距较远的两个单词之间的关系。与 RNN 不同,Transformer 能够并行训练,显著减少训练时间,并且能够处理大规模数据集。这种创新性的架构在大语言模型 (Large Language Model, LLM) 如 ChatGPTBERTDeepSeek 的发展中起到了关键作用,标志着人工智能领域发展的一个重要里程碑。
Transformer 模型之前,自然语言处理 (Natuarl Language Processing, NLP) 及类似任务主要依赖 RNN ,其中包括

西安分类信息