> 技术文档 > 一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4


一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1

猫头虎 发现,7月10日,xAI正式发布了Grok 4,这款被马斯克称为\"世界上最智能AI\"的新一代模型,瞬间将AI领域的天花板捅破了一个新的高度。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

碾压式的Benchmark成绩和跨级别的卓越表现令人振奋。与此前模型发布时分数胶着、进步有限的局面相比,Grok 4彻底打破了这个僵局。

马斯克自信地表示:

“在所有学术领域的问题上,Grok 4都比博士水平更强,无一例外。”

xAI已率先迈入下一代AI时代。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

碾压式登场:Benchmark全面屠榜

我们先来看一下数据,再聊具体的感受。

关于Grok 4的Benchmark表现,用两个字形容就是:超越
一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

尤其引人注目的是以下两个测试:

  • HLE(人类最后考试): Grok 4以45%的成绩遥遥领先,此前排名第一的Gemini 2.5 Pro仅为21%,Grok 4实现了直接翻倍的成绩提升。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

HLE由2500道各个领域最困难的问题组成,马斯克对此表示:“人类在这个考试中最好也只能拿到5%左右的成绩。”

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

  • ARC AGI v2(推理能力试金石): 在这一极难的测试中,Grok 4以15.8%的得分创造历史记录,是第二名Claude 4 Opus的两倍。在过去的三个月里,只有Grok 4突破了10%的大关。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

此外,Grok 4还在其他顶级Benchmark中完成“屠榜”:

  • GBQA(博士级问题集): 表现接近完美
  • AMC 25(美国数学邀请赛): Grok 4 Heavy满分
  • Live Coding Benchmark: 编程能力远超同类模型
  • HMMT(哈佛-MIT数学竞赛): 大幅领先第二名
  • USAMO(美国数学奥林匹克): 实现霸榜

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

除了学术类考试外,xAI还强调了Grok 4在实际任务中的能力,顺应了“大模型进入下半场”的趋势。

在模拟真实商业环境的Vending Benchmark中,Grok 4不仅创造了最高的净资产(超过4700美元),还展现了远超普通人的商业决策能力。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

此前Anthropic也进行过类似实验,让Claude4管理自动售货机。Grok 4同样负责选品、联系供应商和调整销售策略,成为实打实的“数字员工”。马斯克半开玩笑地表示:“只要有一百万台这样的售货机,每年就能轻松赚取47亿美元。”

在生物医学领域,Grok 4的表现同样惊艳。帕洛阿尔托的ARC研究所使用Grok 4自动化CRISPR研究流程,仅需几秒钟就能从数百万个实验日志中筛选出最佳假设,并且在胸部X光评估中获得最佳评分。

在游戏设计方面,一个合作游戏设计师仅用4小时就利用Grok 4打造出一款完整的FPS游戏,Grok 4不仅负责游戏逻辑,还自动整合了所有素材、纹理和音效。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

虽然效果尚属初级,但却已成为基础模型处理复杂任务的标杆。

马斯克甚至预测:“第一个真正出色的AI视频游戏将于明年面世,今年我们就能看到首部AI创作的电视节目,而明年则有望出现第一部AI电影。”

从这些数据和案例背后的意义来看,Grok 4已然定义了ChatGPT 5、Gemini 3.0这一代模型的标准线。

AI竞争已进入全新阶段,不再只是你追我赶的小幅提升,而是实现了跨代差异的飞跃式进步。当其他竞争对手还在“憋大招”的时候,马斯克已经先声夺人,后发先至。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

测试表现惊艳,通才属性全面显现

前面展示了理论数据,接下来我们聚焦现场实战表现。

此次发布会的演示均为实时(Live)演示,没有任何提前录制内容。

数学推理:范畴论的艺术

现场的第一个挑战来自数学领域:一道关于“范畴论中自然变换”的题目,即便数学博士也需花费大量时间才能解决。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

Grok 4在推理过程中清晰地展现出对问题结构的分析,并逐步推导出正确的解决方案。整个推理过程有理有据,堪称数学天才级的表现。
一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

有机化学:电环化反应机制

第二个问题更加挑战极限——涉及有机化学中的电环化反应机制,即使是化学博士也未必能迅速给出答案。

Grok 4不仅快速得出正确答案,更细致地解释了反应机制,包括轨道对称性分析。

语言学:希伯来语音韵学

Grok 4不仅理科突出,文科也表现卓越。这次考验的是从希伯来语源文本中区分开音节和闭音节。

这需要深刻理解希伯来语的语音系统。Grok 4成功给出正确答案,并详尽解释了希伯来语音韵规则的历史演变。

实时搜索:寻找最奇怪的员工头像

现场有趣的测试环节中,有人要求Grok 4“找出XAI员工中头像最奇怪的人”。

Grok 4立即在X平台展开搜索,识别XAI员工,分析各自头像的风格特征,最终选出了研究员Greg Yang,因为他的头像最为搞怪。这也体现了Grok 4强大的热点追踪能力。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

这一看似娱乐的演示,却透露出Grok 4对于“奇怪”这种主观概念的准确理解,意味着它已经具备了审美判断和文化理解能力,这甚至可能比客观推理更加困难。

预测市场:MLB世界大赛胜率分析

最令人紧张的是MLB世界大赛胜率预测环节。

演示使用的是更强版本的Grok 4 Heavy,它花费了整整4.5分钟浏览大量网站、建立复杂的概率模型、与市场进行对比分析后,最终预测出道奇队的胜率为21.6%。

现场愿意花4.5分钟等待AI结果,本身就体现了xAI对产品的强大信心。

物理模拟:黑洞碰撞可视化

最具视觉冲击力的是黑洞碰撞模拟环节。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

Grok 4不仅实时生成了逼真的引力波可视化动画,更详细解释了使用的物理近似、波幅放大的原因,以及如何处理广义相对论效应。

更值得一提的是,它甚至引用了相关的引力波教材作为参考。这种严谨的科学态度已接近专业研究员的水准。

全新的语音交互能力

发布会上还展示了Grok 4新增的语音功能,尤其是带有优雅英国口音的新声音Eve,最关键的是它具备情感表达能力。

主持人表示紧张时,Eve温柔地回应道:

“深呼吸,你能行的,就像我们坐在约克郡酒吧的角落里安静聊天一样……”

情感智能的展示甚至可能比逻辑推理更加重要,AI变得不仅自然,还拥有了“个性”。

现场演示中,Eve不仅能自然对话,还即兴创作了一首关于可乐的歌剧:

“哦,可乐,你这神圣的甘露,气泡在银罐中舞蹈闪烁……”

在响应速度测试环节,Grok 4与ChatGPT进行了实时对比。虽然ChatGPT的语音更自然丰富,但每次回复都要等待一秒多,而Grok 4几乎是瞬间回答。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

这种直接的现场PK方式,充满了马斯克风格:实力说话,毫不妥协。

此次演示,也补齐了此前Grok在多模态能力上的短板,尤其在语音交互方面实现了突破性进展。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

大力出奇迹:10倍强化学习的疯狂实验

如此强大的模型背后到底有怎样的秘密?

发布会上,xAI团队展示了一张清晰的模型演进路线图,阐述了Grok 4是如何脱胎于Grok 3,并实现巨大性能飞跃的。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

从图中我们可以明确看出,Grok 4的基础仍然是Grok 3的预训练模型。但与其他公司如Anthropic和谷歌不同的是,他们在强化学习(RL)上仅使用了10%-20%的算力,而xAI团队则选择了全力以赴,直接将RL算力提升了10倍。

强化学习效果好,那就干脆直接加量到极致。

整个训练过程使用了xAI的Colossus超算集群,这是全球规模最大的AI训练农场,集结了高达20万个GPU同时运行。

然而,强化学习并不是简单算力堆积就能奏效的。如此庞大的算力规模,想真正实现有效训练,需要跨越两个重要难关:奖励模型的有效性与RL数据的大规模扩展。

对此,xAI团队解释道:

“我们研发了很多新技术,使模型能够有效地发现大量具有挑战性的强化学习任务。这些任务既要充满挑战性,又必须提供可靠的反馈信号。”

虽然这些关键技术尚未开源,但xAI显然已经将后训练技术推到了业内顶尖水准。

此外,xAI还在Grok 4的训练中尤其强调了原生的工具使用能力。

团队表示:

“不同于Grok 3只是依靠泛化能力使用工具,Grok 4将工具的使用直接内置到了训练过程中。这种训练方式显著提高了模型操作工具的熟练程度和可靠性。”

这一结论来自于xAI在Deep Search中的实践经验。与OpenAI的Deep Research端到端训练全新模型不同,Deep Search使用的是未经特定训练的Grok 3推理模型,结果显示工具使用能力远远不足。

这种训练方式的优势非常明显:在HLE测试中,具备工具使用能力的Grok 4相较于纯文本版本能力提高了超过50%,且完全符合Scaling Law。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

看到这些效果后,马斯克表示未来还将继续加大工具训练的力度。他特别提到:

“目前Grok 4使用的工具相对原始,未来我们将引入特斯拉公司使用的有限元分析和计算流体力学工具,这些都会在今年晚些时候推出。”

事实上,当前AI领域的前沿公司都在向这一方向努力,如Anthropic在Claude 4发布会上也特别强调过工具训练的重要性。Grok 4的策略正是紧跟行业前沿趋势。

因此,从整体训练方法看,xAI采取的策略就是:选择最成熟有效的方向,用最大规模的GPU,执行最极限的训练,走的是一条“大力出奇迹”的路线。

难怪团队在谈及训练策略时自豪地表示:

“这正是我们打造Colossus的原因——拥有全球最多的100,000个H100 GPU的超级计算机。”

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

基础模型也玩多智能体

Grok 4 Heavy是此次发布会另一项极具创新性的产品,代表着首个明确以基础模型为核心开发的多智能体系统。

Grok 4 Heavy的工作机制非常巧妙:系统同时激活多个AI智能体,每个智能体独立思考同一问题。随后,这些智能体之间相互分享思考过程与解决方案,经过深入的思想碰撞,最终共同推导出最优答案。

值得强调的是,这种协作并非简单的投票机制,而是思维的深度融合与交互。通常情况下,某个智能体首先找到关键突破点,然后将这个关键点分享给其他智能体,整个智能团队的表现会因此大幅提升。

例如在HLE测试中,单个Grok 4模型能解决约40%的问题,而通过多智能体协作后的Grok 4 Heavy,则能够解决超过50%的问题。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

xAI此次发布会非常明确地向行业展示了未来AI发展的新方向:基础模型必将逐步演进为更为复杂的多智能体系统。

AI从业者们,现在是时候规划下一步发展路径了。


一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

定价对标OpenAI,分层明确

Grok 4展现出卓越的性能,而相应的定价也同样具有竞争力。

xAI对Grok 4的定价策略采取了明确的分层方式:

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

  • Super Grok(30美元/月): 可解锁标准版Grok 4的全部能力。
  • Super Grok Heavy(300美元/月): 可同时使用标准版Grok 4和多智能体版本Grok 4 Heavy,官方将此版本形容为“一群小型研究助手的任务主管”。

尽管这个价格较目前主流前沿模型定价略高,但考虑到Grok 4显著的性能提升,这一价格策略并不算过高。

API方面,Grok 4支持高达256k的上下文长度,目前已向开发者开放访问权限。企业级用户则可通过大型云服务提供商进行接入。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

技术路线图:未来更炸裂

在成功发布Grok 4后,马斯克进一步透露了xAI后续的发展计划,令人兴奋且充满野心。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

  • 8月: 推出专门针对编程任务优化的AI模型
  • 9月: 推出先进的多模态智能体
  • 10月: 发布视频生成模型

这个技术路线图节奏非常紧凑,“油门踩到底”,难怪最近xAI的员工都在公司里搭帐篷办公。

马斯克的雄心不止于此。他直接表示:“Anthropic擅长编程,我们8月就开始做;谷歌在多模态和Veo3上领先,我们9月、10月就要赶超。”

尤其是在多模态领域,马斯克坦承:“Grok 4目前最大的弱点就是图像理解和生成能力需要大幅提升。”正因如此,xAI将在接下来几周内,用超过100,000个GB 200s的规模进行视频模型训练,预计视频理解和生成能力将迎来巨大突破。

尽管目前尚未开始训练,但10月便计划上线,这也足见马斯克追求速度与极致的决心。

回顾Grok的发展历史,18个月四代产品,这种迭代速度在AI圈绝无仅有。正如马斯克所言:“12个月前Grok 2还只是一个概念,现在我们已经拥有Grok 4。”相比之下,苹果AI的发展进程则显得异常缓慢。

一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

AI新时代:马斯克的“朝闻道”精神

马斯克在发布会上说道:“我们正处于智能大爆炸时代,这是人类历史上最有趣的时刻。”这并非夸张之语。

Grok 4在本次发布会上展现的不仅仅是一款新型AI模型的实力,更标志着人工智能发展正式进入了一个全新的阶段。

更复杂的长期任务、更强大的工具使用能力、更具智能体特性的基础模型,以及更加贴近实际应用的能力测试,Grok 4所代表的AI形态已经完全踏入下一个时代。

这场发布会明确传递了一个信号:过去xAI一直活在谷歌和OpenAI的阴影之下,而如今,它已经站到了聚光灯下。尽管没有OpenAI范式式的创新,也没有谷歌大一统模型的理想主义,但xAI通过极致的工程实践和大规模算力实现了超越。

马斯克自信地宣布:“我们会成为发展最快的AI公司。”根据Grok 4的表现,这并非夸口而是事实。他预计:“今年年底,Grok可能会发现新技术;明年或许将揭示新的物理学原理。在未来两年内,我几乎可以确定AI领域将出现重大发现。”

他进一步畅想道:“我们目前可能只处于卡尔达肖夫一级的1%-2%,但我们很快就会达到80%-90%,随后迈向卡尔达肖夫二级文明。到那时,人类经济的发展将使今天的经济模式看起来像穴居人往火堆里扔木棍一样原始。”

面对如此迅猛的AI发展速度,我们究竟应该如何保障AI的安全性?

也许对于马斯克而言,更重要的是亲眼见证这一切的发生。他在发布会最后留下了一句颇为耐人寻味的话:

“即使AI最终对人类并非好事,我至少想活着看到这一切的到来。”

参考资料:

  • 腾讯科技:https://mp.weixin.qq.com/s/tWyTi5IqFKRVFqGYzWt3dQ
  • https://www.axios.com/2025/07/10/grok4-grok-xai-elon-musk
  • https://cincodias.elpais.com/smartlife/lifestyle/2025-07-08/ia-grok-4-elon-musk-fecha-llegada.html

总结

综观整场发布会,Grok 4无疑代表了AI领域又一次跨越式的突破。从压倒性的Benchmark成绩到实时现场的多领域演示,从极限强化学习训练方法到多智能体技术的创新应用,Grok 4不仅展示了技术的高度,更预示了AI发展从简单的能力比拼,转变为真正通用、智能且实用的方向。
一文读懂Grok 4发布会:四大天王Claude、OpenAI、Gemini和Grok轮流发布,争夺全球TOP1_grok4和claude4

xAI不仅通过强大的算力和工程技术实现了技术层面的领先,还通过清晰的定价策略和极富野心的路线图,为行业设定了新的竞争基准。

更重要的是,马斯克所代表的“朝闻道”精神,或许正是推动AI技术加速进化、实现未来新突破的核心驱动力。这种对于极限速度和创新的追求,既带来了对未来无限的可能性,也激发了我们对于技术安全与伦理问题更深刻的思考。

Grok 4的发布,不仅重新定义了AI竞赛的规则,更清晰描绘了人工智能下一阶段发展的全新图景。