> 技术文档 > “7大主流大型语言模型架构全解析:BERT、GPT、LLaMA、PaLM、Gemini、Mistral与DeepSeek”_burt大语言

“7大主流大型语言模型架构全解析:BERT、GPT、LLaMA、PaLM、Gemini、Mistral与DeepSeek”_burt大语言

我们在日常工作中频繁使用大型语言模型。这些模型基于数十亿份在线文档和多样化的数据集进行训练,具备理解、领会与以类人方式作出回应的能力。然而,并不是所有的大型语言模型(LLMs)都是以同样的方式打造的。虽然核心理念类似,但它们在底层架构上的差异显著影响了各自的能力。例如,正如各种基准测试所显示,DeepSeek在推理任务上表现突出,Claude在编程方面表现优异,而ChatGPT则在创意写作领域独树一帜。

本文将带你快速了解7种主流的大型语言模型架构,帮助你在短短几分钟内掌握它们的整体脉络。让我们开始吧!


1. BERT

论文链接:https://arxiv.org/pdf/1810.04805
由谷歌于2018年开发,BERT通过在语言建模中引入深度双向注意力机制,带来了自然语言理解领域的重大变革。不同于以往仅能从左到右或从右到左读取文本的模型,BERT采用Transformer编码器,同时关注文本的双向信息。其训练方式包括两大任务:掩码语言建模(预测随机被掩码的词语)和下一句预测(判断一句话是否自然衔接在另一句话之后)。在架构上,BERT有两种尺寸:BERT Base(12层,1.1亿参数)和BERT Large(24层,3.4亿参数)。其结构完全基于编码器堆叠,并引入了特殊标记如[CLS](用于表示整句含义)和[SEP](用于分隔两句话)。BERT可通过微调,应用于情感分析、问答(如SQuAD)等多种任务。它是首个真正意义上能够理解完整句子含义的模型。


2. GPT

论文链接(GPT-4):https://arxiv.org/pdf/2303.08774
GPT(生成式预训练变换器)系列由OpenAI推出。自2018年的GPT-1问世以来,历经多次迭代,于2023年发展到GPT-4,最新版本GPT-4o于2024年5月发布,实现了多模态能力,既可处理文本,也可处理图像。这类模型在极大规模文本语料上进行预训练,采用标准的下一个词预测目标:每一步都根据前文预测下一个词。完成无监督预训练后,该模型可以针对具体任务微调,或以零样本/少样本方式直接应用,几乎无需额外参数。GPT采用仅解码器结构,与BERT的双向编码器不同,只关注前序标记。GPT的一大创新是“预训练+提示/微调”范式,并随着模型规模的扩大(如GPT-2、GPT-3),展现出极为流畅的文本生成和强大的少样本学习能力。不过,GPT系列为专有模型,通常通过API访问,尤其是最新版本,其完整架构并未全部公开。


3. LLaMA

LLaMA 4博客链接:https://ai.meta.com/blog/llama-4-multimodal-intelligence/
论文链接(LLaMA 3):[2407.21783] The Llama 3 Herd of Models
LLaMA由Meta AI开发,首次发布于2023年2月,是一系列开源的仅解码器Transformer模型。其参数规模从70亿到700亿不等,最新版本Llama 4于2025年4月发布。与GPT类似,LLaMA采用自回归Transformer解码器结构,但在架构细节上有一些创新。例如,最初的LLaMA模型采用SwiGLU激活函数(替代GeLU)、旋转位置编码(RoPE,替代固定位置编码)以及RMSNorm(替代层归一化)。LLaMA家族按参数规模分为多个版本,从7B到65B(LLaMA1),LLaMA3更进一步扩大了模型规模,使大型模型更易获取。值得一提的是,尽管参数数量相对适中,这些模型在性能上却能与更大规模的同类模型竞争:Meta报告称,LLaMA 13B模型在许多基准测试中超越了OpenAI的175B GPT-3,65B模型也能媲美谷歌PaLM和DeepMind的Chinchilla。LLaMA开放(但有限制)发布,促进了社区广泛应用。其最大创新点在于高效的大规模训练与更开放的模型权重获取方式的结合。


4. PaLM

PaLM 2技术报告:[2305.10403] PaLM 2 Technical Report
论文链接(PaLM):https://arxiv.org/pdf/2204.02311
PaLM(Pathways Language Model)是谷歌研究院开发的大型语言模型系列。最初的PaLM(2022年发布)为5400亿参数,仅解码器Transformer模型,归属于谷歌Pathways系统。它在高质量的7800亿标记语料上训练,利用数千个TPU v4芯片并行处理,实现了极高的硬件利用率。模型还采用多查询注意力机制,减少推理时的内存带宽需求。PaLM以其少样本学习能力闻名,凭借庞大且多样化的训练数据(涵盖网页、图书、维基百科、新闻、GitHub代码、社交媒体对话等),在新任务上仅需很少示例即可表现出色。PaLM 2于2023年5月发布,进一步提升了多语言、推理和编程能力,为Google Bard及Workspace AI等应用提供支持。


5. Gemini

Gemini 2.5博客:Gemini 2.5: Our newest Gemini model with thinking
论文链接(Gemini 1.5):[2403.05530] Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context
论文链接(Gemini):[2312.11805] Gemini: A Family of Highly Capable Multimodal Models
Gemini是谷歌(DeepMind与Google Research)于2023年底推出的新一代大型语言模型家族。Gemini模型自设计之初即为原生多模态,能够同时处理文本、图像、音频、视频甚至代码。与PaLM和GPT一样,Gemini基于Transformer架构,但其主要创新包括超大规模、对超长上下文的支持,以及(在Gemini 1.5中)高效的专家混合(MoE)架构。例如,Gemini 1.5“Pro”使用稀疏激活的专家层(每层数百个专家子网络,每次仅激活少数),在不成比例增加计算成本的前提下提升模型容量。Gemini 2.5系列(2025年3月发布)在此基础上进一步提升了“深度思考”能力。2025年6月,谷歌发布Gemini 2.5 Flash和Pro稳定版,并预览了Flash-Lite,这是迄今为止最具性价比、速度最快的版本,适合高吞吐量任务,同时支持百万标记上下文窗口及搜索、代码执行等工具集成。Gemini家族涵盖Ultra、Pro、Nano等多种尺寸,既可在云端运行,也能部署到移动设备。多模态预训练与MoE扩展能力的结合,使Gemini成为高度灵活、功能强大的基础模型。


6. Mistral

论文链接(Mistral 7B):[2310.06825] Mistral 7B
Mistral是一家法国AI初创公司,于2023年发布了首批大型语言模型。其旗舰产品Mistral 7B(2023年9月发布)是一款73亿参数的基于Transformer的解码器模型。Mistral 7B在架构上类似于GPT风格,但对推理做了优化:采用分组查询注意力(GQA)以加快自注意力计算,以及滑动窗口注意力以更高效处理长文本。在实际表现上,Mistral 7B超越了Meta的Llama 2 13B,甚至在一些任务上与34B模型不相上下,尽管参数更小。Mistral AI以Apache 2.0协议开源发布该模型,便于自由使用。其后续主要产品Mixtral 8×7B为稀疏专家混合(MoE)模型,每层包含八个7B参数的专家网络。该设计使Mixtral在数学、编程、多语言等任务上媲美或超越了GPT-3.5和LLaMA 2 70B。2025年5月,Mistral推出面向企业的中型专有模型Mistral Medium 3,在标准基准上以远低于Claude 3.7 Sonnet的成本(每万标记约0.40美元,Sonnet为3美元),获得90%以上的得分,支持多模态任务(文本+图片)、专业推理,并可通过API或本地部署(最低仅需4块GPU)。但与早期开源策略不同,Medium 3为闭源,部分社区对此表示批评。2025年6月,Mistral推出首款专注显式推理的Magistral模型。Magistral小型版以Apache 2.0协议开源,Magistral Medium仅对企业用户开放。Magistral Medium在AIME2024数学竞赛中得分73.6%,小型版得分70.7%,展现出多语言数学与逻辑能力。


7. DeepSeek

论文链接(DeepSeek-R1):[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
DeepSeek是一家中国AI公司(高飞智能孵化,成立于2023年),专注于大规模语言模型开发。其最新模型(如DeepSeek v3和DeepSeek-R1)采用高度稀疏激活的专家混合(MoE)Transformer架构。在DeepSeek v3/R1中,每一层包含数百个专家子网络,但每个标记仅激活少数(例如257个专家中仅激活9个)。这意味着模型总参数可达6700亿,但每次推理仅用约370亿参数,显著提升速度和降低成本。与其他现代语言模型类似,DeepSeek采用SwiGLU激活、旋转位置编码(RoPE)及先进优化技术(如训练时实验性FP8精度),整体更为高效。这种激进的MoE设计使DeepSeek在计算成本较低的情况下,获得与更大规模稠密模型相当甚至更高的能力。DeepSeek的模型以开源协议发布,因其在多语言生成与推理方面可与GPT-4等主流模型竞争,并大幅节省训练和推理资源而受到关注。


(完)

最新电视剧在线观看