一文讲清楚市面上的开源大模型,小白都能看懂!_国内开源大模型
你是不是经常被大模型的型号搞的晕头转向,今天Qwen3发布,明天谷歌Gemma发布,后天LLaMa发布。作为一名刚接触AI的新手小白。看到这些新闻的时候根本搞不清楚他们都是啥?有什么区别?
今天这篇文章把市面90%开源大模型汇总起来,一次性讲清楚,很适合想了解AI的新手小白。
看完你就能懂哪些模型都是谁家的,以后最起码能看懂大模型更新的新闻讲的是啥。
简单来说,大语言模型是一个用海量文本“喂大”的预测机器,它能像人一样理解和生成语言,但不懂它自己在说什么。它像一个全能助手一样,帮人写、说、问、答、编程、总结、翻译、创作、分析、自动化各种文本相关的工作。
我们经常能从新闻里听到某某开源模型发布,所谓的开源大模型就是“你可以免费看源码、改代码、用模型,而且大部分都是免费使用的。
那有的人会问,既然不赚钱,为什么有些公司要做开源大模型呢?
表面上好像是“亏了”,实际上背后有一套商业策略。
首先,开源意味着占领生态位,像Qwen和LLaMa,被无数创业者、开发者拿来部署、微调。
一方面为模型免费宣传,让模型的影响力越来越大。
另一方面全球的开发者免费为模型的改进做贡献。像阿里开源了Qwen后,很多人微调成“医疗、法律、编程”等垂类领域大模型。
当模型的影响力越来越大,和它相关的服务要收费了。例如云部署平台算力的租用、企业定制微调等等配套服务。就像是打印机免费,墨盒收费一样。
除此之外,很多开源大模型背后的公司另有主营业务。
像阿里研发模型可以服务于阿里系所有的产品,这些产品的营收暂时可以供养大模型的研发,研发的成果可以反哺所有产品,这是稳赚不赔的买卖。
最早研发Deepseek的公司是幻方量化,后来独立出来了深度求索,所以营收这块压力不在于大模型,它们可以专心搞研究。
讲完了开源的原因,马上进入开源大模型大盘点。
1、阿里:Qwen
模型下载链接:https://huggingface.co/Qwen
研发机构介绍:阿里云研发的开源大模型,强大且更新的非常及时,匹配的不同参数量很全,从大模型到小模型一应俱全。而且同步也在更新多模态模型。
我们先来梳理一下Qwen模型发布历程。
阿里旗下的开源大模型,命名规则是:
Qwen3-235B-A22B:3是指第3代模型,这里的235B(Billion)是指总参数量2350亿,A22B则是实际激活参数量220亿,也就是在实际推理过程中,模型仅激活其中一部分专家网络,即每次计算仅使用 220亿 (22B)参数。
那么为什么Qwen要给这么多不同参数的版本?
因为不同参数量的模型,适合不同的使用场景和硬件设备。
-
小模型(1B -6B):可以在笔记本、树莓派、甚至手机上运行,适合开发者学习、轻量应用部署。
-
中型模型(7B 左右):可以跑在一张 A100 GPU 或消费级显卡(如 RTX 3090)上,有的也可以在ipad小型设备跑起来,适合中小企业、创业团队本地部署。
-
大模型(70B+):能力最强,但需要多个高端GPU甚至分布式部署,适合大企业做科研或商业服务。
总之,提供多个版本,可以让所有人根据场景按需选择,不被硬件卡住。
2、Meta:LLaMA
模型下载:https://www.llama.com/
研发机构介绍:Fackbook以及instagram背后的公司Meta研发的开源大模型,至今很多大模型都是基于Llama的模型微调或者蒸馏后的结果。是国外顶尖的开源大模型。
从2023年2月至今,Meta共发布4个系列的开源模型。
3、深度求索:Deepseek
V3模型下载链接:https://github.com/deepseek-ai/DeepSeek-V3
研发机构介绍:深度求索是Deepseek背后的公司。最早是一家叫“幻方量化”的公司做量化基金,所以需要购买大量的显卡去训练做计算,后来延伸出来的深度求索。我们能看到产品化的前台是Deepseek,C端用户能体验到的模型是DeepseekV3和R1
模型介绍:DeepSeek 在 Hugging Face 上一共开放了 68 个模型以及一个数据集。DeepSeek-R1、DeepSeek-R1-Zero 模型的代码和模型权重都采用的是 MIT 许可证。其余的模型采用的是 DeepSeek 许可证,但代码采用的是 MIT 许可证。
许可证:其实不管你用哪家的模型,都需要查看一下开源模型背后的许可证类型,要查看详细的条款,包括有没有应用的领域限制。表格里自定义协议,就是开源大模型自己出的许可证,相对另外两种通用的限制多一些。
关于DeepseekV3的技术说明看这篇文章。
4、智谱:GLM系列模型
官网链接:https://open.bigmodel.cn/?utm_campaign=open&_channel_track_key=OWTVNma9
研发机构介绍:智谱的背后是一家叫“北京智谱华章科技有限公司”,2019年成立。由国内知识图谱和大模型领域权威专家、清华大学计算机系教授、知识工程实验室负责人唐杰带队,致力于打造新一代认知智能大模型。智谱成立6年间,开发的开源模型,堪称中文领域效果最好的开源底座模型之一。
系列型介绍:中文领域效果最好的开源底座模型之一,针对中文问答和对话进行了优化。经过中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持。
5、面壁智能:MiniCPM
官网链接:https://modelbest.cn/en
机构介绍:面壁智能成立于 2022 年 8 月,其创始团队从 2021 年就主力参与北京智源人工智能研究院的大模型项目“悟道”,训练出多个百亿、千亿参数规模的大模型,并成立大模型开源社区OpenBMB,是国内最早提出“平民版大模型”、最早促进大模型开源事业的团队之一。
看了对面壁智能CEO李大海的采访,**发现面壁智能的模型更侧重于直接在终端实现,而市面上主流的大语言模型在云端计算。**两者各有好处,云端更适合庞大计算量的大参数量模型,而终端更适合在小设备上运行,更贴近用户,而且哪怕不联网也能跑。
所以面壁职能目前的客户主要是车企、智能手机、笔记本、智能穿戴设备、机器人,这些终端设备上需要用到模型的场景。
MiniCPM系列开源模型
模型下载:
https://huggingface.co/collections/openbmb/minicpm-65d48bf958302b9fd25b698f
6、智源研究院:Aquila
研发机构简介:2018年12月,北京智源人工智能研究院在科技部和北京市委市政府的指导和支持下正式成立。诞生至今已经7年。推出了悟道系列的3个版的大模型。其中悟道2.0是中国团队首次在100%国产的超级计算机上训练出来的深度神经网络模型。
模型介绍:由智源研究院发布,Aquila语言大模型在技术上继承了GPT-3、LLaMA等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的tokenizer,升级了BMTrain并行训练方法,是在中英文高质量语料基础上从0开始训练的,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。也是首个支持中英双语知识、支持商用许可协议、符合国内数据合规需要的大规模开源语言模型。
悟道·天鹰(Aquila) 是智源研究院研发的首个具备中英双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。Aquila系列模型在中英文高质量语料基础上从 0 开始训练,中文语料约占 40%,保证模型在预训练阶段就开始积累原生的中文世界知识,这些语料是原生的中文而不是从英文翻译而来的知识。
Aquila下载链接:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
Aquila2下载链接:https://github.com/FlagAI-Open/Aquila2
7、深圳元象:XVERSE
研发机构简介:这家公司2021年成立,初创成员基本都来自腾讯。公司主营业务AI+3D。用AI生成高清VR(3D)内容。落地场景包括VR沉浸式互动影院、大模型数字直播、地方文旅数字展陈合作、虚拟导览。
地址:https://github.com/xverse-ai
模型介绍:由深圳元象科技自主研发的支持多语言的大语言模型,多样化的数据对模型进行充分训练,支持中、英、俄、西等 40 多种语言。可以协助进行文献总结、报告分析等任务。并包含GGUF、GPTQ量化版本的模型,支持在llama.cpp、vLLM在MacOS/Linux/Windows系统上推理。
下方的XVERSE是元象自主研发的开源大模型。
8、 vivo AI 全球研究院:BlueLM
研发机构简介:早在2018年,vivo便成立AI全球研究院,自研蓝心大模型(BlueLM)和“蓝心小V”智能助手,为进一步推进AI手机的发展。
地址:https://github.com/vivo-ai-lab/BlueLM
模型簡介:包含 7B 基础 (base) 模型和 7B 对话 (chat) 模型,同时我们开源了支持 32K 的长文本基础 (base) 模型和对话 (chat) 模型。
9、浪潮信息:Yuan-2.0
研发机构介绍:浪潮是中国领先的云计算、大数据服务商,已经形成涵盖IaaS、PaaS、SaaS三个层面的整体解决方案服务能力,凭借浪潮高端服务器、海量存储、云操作系统、信息安全技术为客户打造领先的云计算基础架构平台,基于浪潮政务、企业、行业信息化软件、终端产品和解决方案,全面支撑智慧政府、企业云、垂直行业云建设。
地址:https://github.com/IEIT-Yuan/Yuan-2.0
简介:该项目开源了由浪潮信息发布的新一代基础语言大模型,具体开源了全部的3个模型源2.0-102B,源2.0-51B和源2.0-2B。并且提供了预训练,微调,推理服务的相关脚本。源2.0是在源1.0的基础上,利用更多样的高质量预训练数据和指令微调数据集,令模型在语义、数学、推理、代码、知识等不同方面具备更强的理解能力。
10、中科闻歌;YaYi/YaYi2
研发机构介绍:中科闻歌主要业务是提供大数据分析引擎和技术解决方案,主要客户为政府、媒体和企业,产品面向舆情、媒体、警务和信息服务等大数据领域,已有公安部、工信部、网信办、外交部、海关总署、新华社、中国日报社、中央电视台等200余家大型政企客户。主要有“闻海”新媒体大数据平台、“闻歌”中央厨房、“闻思”决策服务平台三大产品体系,以及“闻海”新媒体数据服务平台、“云迹”传播监测与评估系统、“云涌”融媒体可视化分析系统、“雅意”文本语义分析组件、四大旗舰产品。
地址:https://github.com/wenge-research
模型简介:雅意大模型在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域,上百种自然语言指令任务。雅意大模型从预训练初始化权重到领域模型的迭代过程中,我们逐步增强了它的中文基础能力和领域分析能力,并增加了多轮对话和部分插件能力。同时,经过数百名用户内测过程中持续不断的人工反馈优化,进一步提升了模型性能和安全性。已开源基于 LLaMA 2 的中文优化模型版本,探索适用于中文多领域任务的最新实践。
11、哈工大自然语言处理研究所:huozi
研发机构介绍:
地址:https://github.com/HIT-SCIR/huozi
简介:由哈工大自然语言处理研究所多位老师和学生参与开发的一个开源可商用的大规模预训练语言模型。 该模型基于 Bloom 结构的70 亿参数模型,支持中英双语,上下文窗口长度为 2048,同时还开源了基于RLHF训练的模型以及全人工标注的16.9K中文偏好数据集。
12、猎户星空:Orion/OrionStar-Yi-34B-Chat
研发机构介绍:猎户星空是一家专门做智能服务机器人的公司,成立于 2016 年,是猎豹移动投资的。他们的目标是让机器人能帮人干活,把人从重复、无聊、辛苦的工作中解放出来。他们的核心理念是,机器人 = AI + 软件 + 硬件 + 服务。他们已经推出了很多种场景的机器人,包括:接待型机器人(前台引导、问候)送东西的机器人(比如在餐厅送餐)消毒机器人(用于防疫、医疗)零售机器人(智能售货、导购)
地址:https://github.com/OrionStarAI/OrionStar-Yi-34B-Chat
簡介:OrionStar-Yi-34B-Chat 是猎户星空基于零一万物开源的Yi-34B模型,使用 15W+ 的高质量语料训练而来微调大模型,旨在为大模型社区用户提供卓越的交互体验。
13、百川智能
研发机构介绍:百川智能是一家中国的新AI公司,它成立于 2023 年 4 月,由搜狗创始人王小川和前搜狗COO茹立云一起创办的,专注于开发通用人工智能,他们的核心团队来自:搜狗、百度、微软、华为、腾讯、字节跳动等大厂。百川智能现已与北京大学和清华大学两所顶尖大学展开合作,两所大学率先使用 百川大模型推进相关研究工作。但我查了一下他们近期很少有新闻出来,目前正面临高管离职,资金流也面临着困境。
地址:https://github.com/baichuan-inc
由百川智能开发的一个开源可商用的大规模预训练语言模型。基于Transformer结构,支持中英双语。在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。
14、中国人民大学GSAI研究人员:YuLan-Chat
研发机构简介:研发团队来自来自高瓴人工智能学院是中国人民大学下属学院,承担学校人工智能学科的规划与建设,开展本学科和相关交叉学科领域的本、硕、博人才培养和科学研究工作。学院由高瓴资本创始人、耶鲁大学校董、中国人民大学校友张磊先生捐资支持建设。
地址:https://github.com/RUC-GSAI/YuLan-Chat
简介:YuLan-Chat是中国人民大学GSAI研究人员开发的基于聊天的大语言模型。它是在LLaMA的基础上微调开发的,具有高质量的英文和中文指令。 YuLan-Chat可以与用户聊天,很好地遵循英文或中文指令,并且可以在量化后部署在GPU(A800-80G或RTX3090)上。
15、中国科学院计算技术研究所自然语言处理团队:BayLing
中国科学院计算技术研究所自然语言处理研究组隶属于中国科学院智能信息处理重点实验室,主要从事自然语言处理相关的研究工作,主要研究方向包括机器翻译、人机对话等。
地址:https://github.com/ictnlp/BayLing
简介:一个具有增强的跨语言对齐的通用大模型,由中国科学院计算技术研究所自然语言处理团队开发。百聆(BayLing)以LLaMA为基座模型,探索了以交互式翻译任务为核心进行指令微调的方法,旨在同时完成语言间对齐以及与人类意图对齐,将LLaMA的生成能力和指令跟随能力从英语迁移到其他语言(中文)。在多语言翻译、交互翻译、通用任务、标准化考试的测评中,百聆在中文/英语中均展现出更好的表现。百聆提供了在线的内测版demo,以供大家体验。
16、艾写科技:Anima
研究机构:创始人是目前在加州的华人Gavin Li,目前他们公司的产品是一款情感陪伴的AI app,叫Anima。
地址:https://github.com/lyogavin/Anima
模型简介:开源的基于QLoRA的33B中文大语言模型,该模型基于QLoRA的Guanaco 33B模型使用Chinese-Vicuna项目开放的训练数据集guanaco_belle_merge_v1.0进行finetune训练了10000个step,基于Elo rating tournament评估效果较好。
17、IDEA研究院:Fengshenbang-LM(封神榜大模型)
研发机构简介:粤港澳大湾区数字经济研究院(International Digital Economy Academy,简称“IDEA研究院”)位于河套深港科技创新合作区深方园区内,致力于人工智能和数字经济领域的前沿研究与产业落地,是一家国际化创新型研究机构。
地址:https://github.com/IDEA-CCNL/Fengshenbang-LM
简介:Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,该项目开源了姜子牙通用大模型V1,是基于LLaMa的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。除姜子牙系列模型之外,该项目还开源了太乙、二郎神系列等模型。
18、香港科技大学LMFlow团队:Robin
地址:https://github.com/OptimalScale/LMFlow
简介:Robin (罗宾)是香港科技大学LMFlow团队开发的中英双语大语言模型。仅使用180K条数据微调得到的Robin第二代模型,在Huggingface榜单上达到了第一名的成绩。LMFlow支持用户快速训练个性化模型,仅需单张3090和5个小时即可微调70亿参数定制化模型。
19、InternLM/InternLM2
地址:https://github.com/InternLM/InternLM
模型介绍:商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。从InternLM到InternLM2再到InternLM3.开源了80亿参数,面向通用使用与高阶推理的指令模型(InternLM3-8B-Instruct)。模型具备以下特点:
更低的代价取得更高的性能: 在推理、知识类任务上取得同量级最优性能,超过Llama3.1-8B和Qwen2.5-7B。值得关注的是InternLM3只用了4万亿词元进行训练,对比同级别模型训练成本节省75%以上。深度思考能力: InternLM3支持通过长思维链求解复杂推理任务的深度思考模式,同时还兼顾了用户体验更流畅的通用回复模式。
20、谷歌:Gemma
模型介绍:Gemma 3是一个高性能、可移植的轻量级 AI 模型,适用于单 GPU 或 TPU 部署,支持多语言和复杂任务。 主要特点总结如下:
- 支持 140+ 语言
- 增强文本和视觉能力,可理解文本、图片、短视频
- 128K上下文窗口
- 支持函数调用,支持AI 代理开发,自动执行任务。
- 四种尺寸,分别为 1B、4B、12B 和 27B
- 可在手机、电脑上跑
地址:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d
模型家族概览:
21、元语智能:ChatYuan
机构简介:2022年成立,杭州元语智能科技有限公司训练了一个叫做元语AI(ChatYuan)的模型,它可以通过对话形式进行交互。模型可以用于回答问题、可以结合上下文做对话、做各种生成任务,包括创意性写作,也能回答法律、新冠等地方类问题。它基于PromptCLUE-large结合数亿条功能问答和多轮对话数据进一步训练得到。
地址:https://github.com/clue-ai/ChatYuan
简介:元语智能发布的一系列支持中英双语的功能型对话语言大模型,在微调数据、人类反馈强化学习、思维链等方面进行了优化。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。