> 技术文档 > 【生成式AI導論 2024】第6講:大型語言模型修練史 — 第3个 階段 学习记录

【生成式AI導論 2024】第6講:大型語言模型修練史 — 第3个 階段 学习记录


第一階段: 自我學習,累積實力

学习(SFT)

  1. 数据清洗
  • 过滤有害信息
  • 清除项目符号
  • 采用GPT-3/PaLM质量分类器进行数据筛选
  • 高质量内容在训练集中会被多次复用
  • 剔除低质量数据
  • 去除重复内容(如广告)

语言模型根据网络资料学了很多东西,却不知道使用方法
就好像有上乘内功,却不知道使用的方法

第二階段: 名師指點,發揮潛力

关键:初始参数

Adapter 和 LoRA

可以举一反三的能力

【生成式AI導論 2024】第6講:大型語言模型修練史 — 第3个 階段 学习记录
【生成式AI導論 2024】第6講:大型語言模型修練史 — 第3个 階段 学习记录

【生成式AI導論 2024】第6講:大型語言模型修練史 — 第3个 階段 学习记录
instruct GPT
LLaMA2
fine-tuning 是画龙点睛

对chatgpt做逆向工程
self-instruct
Self-Instruct: Aligning Language Models with Self-Generated Instructions

The False Promise of Imitating Proprietary LLMs

【生成式AI導論 2024】第6講:大型語言模型修練史 — 第3个 階段 学习记录
【生成式AI導論 2024】第6講:大型語言模型修練史 — 第3个 階段 学习记录

【生成式AI導論 2024】第6講:大型語言模型修練史 — 第3个 階段 学习记录

第三階段: 參與實戰,打磨技巧

Reinforcement Learning from Human Feedback, (RLHF)

强化学习
-ppo
-GPO

【生成式AI導論 2024】第6講:大型語言模型修練史 — 第3个 階段 学习记录

【生成式AI導論 2024】第6講:大型語言模型修練史 — 第3个 階段 学习记录

instruction Fine-tuning:只问过程,不问结果
RLHF: 只问结果,不问过程

如何更有效利用人类的回馈??

回馈模型(reward model)

通过分数来评价
40f293946345afa4bec365e2090a78.png)
【生成式AI導論 2024】第6講:大型語言模型修練史 — 第3个 階段 学习记录
其他的方法
【生成式AI導論 2024】第6講:大型語言模型修練史 — 第3个 階段 学习记录

【生成式AI導論 2024】第6講:大型語言模型修練史 — 第3个 階段 学习记录