> 技术文档 > OpenAI深夜官宣,一夜之间开源两大巨头:gpt-oss-120b与20b!

OpenAI深夜官宣,一夜之间开源两大巨头:gpt-oss-120b与20b!

2025 年 8 月 6 日,OpenAI 回归初心,宣布并发布了两款全新的、开源的前沿大语言模型:gpt-oss-120b 和 gpt-oss-20b。

图片

这些模型在灵活的 Apache 2.0 许可证下提供。

gpt-oss-120b:性能强大,可在单张英伟达 GPU 上运行。

gpt-oss-20b:轻量级版本,适用于配备 16GB 内存的消费级笔记本电脑。

这标志着 OpenAI 自 5 年前发布 GPT-2 以来首次推出“开放”的语言模型。

模型采用了与 O4-mini 类似的训练流程进行后训练,包括监督式微调阶段和高计算量强化学习阶段。

与 OpenAI o 系列推理模型在 API 中的实现类似,这两个开放模型支持三种推理强度——低、中、高——它们在延迟与性能之间进行权衡。

对 gpt-oss-120b 和 gpt-oss-20b 在标准学术基准测试中进行了评估,以衡量其在编程、竞赛数学、医疗和智能体工具使用方面的能力,并与其他 OpenAI 推理模型(包括 o3、o3‑mini 和 o4-mini)进行了比较。

Gpt-oss-120b 在竞赛编程 (Codeforces)、通用问题解决 (MMLU 和 HLE) 以及工具调用 (TauBench) 方面表现优于 OpenAI o3‑mini,并与 OpenAI o4-mini 持平或超越其性能。

据 OpenAI 称,gpt-oss-120b 在推理和工具使用的基准测试中达到或超过其自有模型 o4-mini 的水平,包括竞赛数学(AIME 2024 与 2025)、通用问题解决(MMLU 和 HLE)、智能体评估(TauBench)以及健康领域专用评估(HealthBench)。

更小的 gpt-oss-20b 模型与 o3-mini 相当,甚至在部分基准测试中超过后者。

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

Gpt-oss-120b 和 gpt-oss-20b 的权重均可在 Hugging Face 上免费下载,且已原生量化为 MXFP4 格式。这使得 gpt-oss-120b 模型可在 80 GB 内存中运行,而 gpt-oss-20b 仅需 16GB 内存。

这些模型支持多种语言,并在多种非英语语言中表现良好,不过 OpenAI 拒绝透露具体支持哪些语言以及多少种。

但最重要的特点在于这两款模型的授权许可条款:Apache 2.0 —— 与过去几周发布的一批中国开源模型采用相同协议,也比 Meta 更复杂、更模糊的“准开源”Llama 授权协议更友好于企业。后者要求,若用户运营的服务月活超过 7 亿,则必须获得付费许可,方可继续使用其系列 LLM 模型。

相比之下,OpenAI 新推出的 gpt-oss 系列模型则没有任何这类限制。

这是六年多以来 OpenAI 首次发布开源语言模型。

马斯克以及许多批评者在过去几年间一直指责 OpenAI 背弃了其使命、创立原则和名字的含义——放弃开源,转而开发仅供 API 客户或付费 ChatGPT 用户使用的专有模型(尽管 ChatGPT 存在免费使用层)。

为什么 OpenAI 要发布一套完全免费的开源模型,无法从中直接获利?

毕竟,OpenAI 的付费业务目前看起来蒸蒸日上。

随着 ChatGPT 用户数量迅速扩张,OpenAI 的营收也水涨船高,目前每周活跃用户已达 7 亿。

截至 2025 年 8 月,OpenAI 报告称其年化经常性收入为 130 亿美元,高于 6 月时的 100 亿美元。增长的动力来自于付费企业客户的激增——两个月内从 300 万增长至 500 万——以及每日使用量的剧增,每天发送的用户消息超过 30 亿条。

这一财务增长紧随一轮 83 亿美元的融资,OpenAI 估值达到 3000 亿美元,为其积极扩展基础设施和全球布局提供了基础。

相比之下,竞争对手 Anthropic 报告的年经常性收入为 50 亿美元,但有趣的是,据《The Information》称,Anthropic 从 API 获得的收入为 31 亿美元,高于 OpenAI 的 29 亿美元。

图片

图片

因此,考虑到 OpenAI 的付费 AI 业务发展良好,此时推出开源模型的商业逻辑并不明确 —— 尤其是因为新的 gpt-oss 模型很可能会侵蚀 OpenAI 原有付费模型的部分(甚至大量)使用量。既然付费业务资金不断涌入,为何还要回到“分文不赚”的开源模式?

答案很简单:因为从 2025 年 1 月中国 AI 团队 DeepSeek 发布高效的 DeepSeek R1 模型开始,开源竞争对手纷纷推出性能接近付费模型的产品,而且对企业与终端用户几乎零限制。越来越多的企业开始在生产环境中采用这些开源模型。

OpenAI 多位高管昨晚在保密视频通话中透露,使用 OpenAI API 的客户中,大多数正在同时使用 OpenAI 付费模型与来自其他提供商的开源模型。

至少在此之前是如此。OpenAI 显然希望通过推出 gpt-oss 系列,吸引这部分用户放弃使用竞争对手的开源模型,转而重回 OpenAI 生态,即使 OpenAI 无法从这些使用中获得直接收入或数据。

gpt-oss 的设计直接参考了开发者反馈。OpenAI 表示,开发者最主要的诉求就是“宽松的许可协议”,这也是两个模型都采用 Apache 2.0 协议的原因。

两款模型都使用了专家混合(Mixture-of-Experts, MoE)架构,并以 Transformer 为基础。

gpt-oss-120b 在每个 token 上激活 51 亿个参数(总共 1170 亿);gpt-oss-20b 在每个 token 上激活 3.6 亿个参数(总共 210 亿)。

两者都支持最多 128,000 个 token 的上下文长度 —— 相当于一次性输入一本小说约 300 至 400 页的文字量。

AI大模型学习路线

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

扫描下方csdn官方合作二维码获取哦!

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

请添加图片描述
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述