最强编码模型Claude 4!7小时不间断写代码,连玩24小时宝可梦,GitHub已选为Copilot底层模型_copilot哪个模型写代码最好
AI圈子好热闹。今天凌晨,Claude终于迎来了它的重大版本升级——
Claude 4来了!
此次主要发布的有两个模型:Claude Opus 4和Claude Sonnet 4。
一经面世,就在编码、高级推理和AI Agent重新定义了新的标准,直接实现SOTA。
GitHub已经宣布,将使用Claude Sonnet 4作为 GitHub Copilot新编码Agent的基础模型。
而两个模型里最为人所津津乐道的是旗舰模型Claude Opus 4,它最引人注目的就是持续的干活,一身用不完的牛劲。
比如,它可以在连续24小时畅玩宝可梦,而之前版本Claude 3.7 Sonnet只能连续玩 45 分钟。
其客户之一,日本乐天集团*(Rakuten)*使用Claude Opus 4进行了一个高强度的开源代码重构任务。
谁也没想到,Opus 4直接吭哧吭哧独立运行并持续编写代码长达7小时,而且性能极、其、稳、定。
单这一个例子,就能看出它非常强的持久工作能力,以及上下文理解能力。
看遍评论区,发现使用过Claude 4几乎都给予了它高度评价,尤其是对Opus 4*(不愧是旗舰模型哇)*。
有人说,“Opus 4是我用上的第一个不用自己动手改,就生成高质量内容的第一个大模型”。
此外,有位最近一直用Opus搞编程的网友表示,Benchmark上的成绩完全不能代表Claude 4的成就:
它在保持进度、编写可维护的代码以及按照我的意愿和期望进行工作方面,带来了彻底的变革。
这不是简单的极客行为。团队做得非常出色!
已经有网友开始直接用Claude 4来做了个俄罗斯方块,一次性就完成的那种。
值得关注的一点,今天起,所有付费用户都可以开始使用Claude 4系列模型了。
免费用户也不要慌,Anthropic给大家准备了Claude Sonnet 4。
值得一提的是,伴随Claude 4的问世,为了让开发者们能构建更强大的AI Agent,Anthropic在自家API方面上新了3个新功能,分别是:代码执行工具、MCP连接器、文件API,以及长达一小时的缓存提示能力。
至于API的定价也没变,和之前系列的Opus和Sonnet一样:
- Claude Opus 4:每百万Token,输入为15美元,输出为75美元
- Claude Sonnet 4:每百万Token,输入为3美元,输出为5美元
全球最强编码模型Claude 4:可独立运行7小时
此次发布两个模型Opus 4和Sonnet 4,升级的重点各有侧重。
Opus 4针对编码和长期运行的Agent工作流进行了优化。
Sonnet 4与Opus 4类似,但针对推理进行了优化,并在效率方面进行了平,这意味着它的运行成本更低。作为Sonnet 3.7的重大升级,它能精准地响应你的指令。
他们俩都是混合模型,提供两种操作模式:一种用于快速响应,另一种用于“更深层次的推理”。
旗舰模型Opus 4,在SWE-bench(72.5%)和 Terminal-bench(43.2%)上均实现领先。它在需要专注投入和数千个步骤的长时间运行任务中表现出色,能够连续工作数小时,其性能远超所有 Sonnet 模型,并显著扩展了 AI Agent的功能。
Claude Sonnet 4其实也不差,它在SWE-bench 上实现了 72.7% 的得分。
两个模型在编码、推理、多模态能力和Agent任务方面均表现出色。
那新模型到底怎么强?以旗舰模型为例,看看各种前沿Agent产品咋说——
Cursor称其为编码领域的最新技术,并在复杂代码库理解方面实现了飞跃。
Block称其为第一个在其Agent*(代号 goose)*中在编辑和调试过程中提高代码质量,同时保持完整性能和可靠性的模型。
Rakuten通过独立运行 7 小时且性能稳定的高要求开源重构验证了其功能。
除了模型本身强大,他们还提供了一些新的功能和改进:
工具使用、并行工具执行和内存改进,以及思维摘要功能,内存能力的提升。
工具使用 (Beta版):两种模型都可以在扩展思考过程中使用工具*(例如网络搜索)*,这样Claude一边思考推理一边使用工具交替进行。
并行工具使用,这样一来,模型可以更精确地遵循指令,并且在开发人员允许访问本地文件时,能显著提高记忆能力,提取并保存关键事实,以保持连续性并随着时间的推移建立隐性知识。
他们还引入思维摘要功能,使用较小的模型来浓缩冗长的思考过程。不过只有大约 5%的情况下需要这种总结,大多数思维过程都很短,足以完整显示。
内存能力方面,Claude Opus 4显著超越之前所有的模型。当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 能够熟练地创建和维护“内存文件”来存储关键信息,以帮助改进游戏体验。
这能够提升代理在长期任务中的感知能力、连贯性和执行性能——例如,Opus 4在玩宝可梦时能够创建“导航指南”。
几个月前,Anthropic推出了一场名为“Claude Plays Pokémon”的直播,以展示Claude 3.7 Sonnet 在《宝可梦红版》中的能力。
该演示旨在秀肌肉,比如在极少量的人类干预下,Claude如何分析游戏,并逐步做出决策。
Anthropic技术团队的成员表示,选择《宝可梦红版》来搞事情,是因为这个游戏“是一个简单的游乐场”,回合制,且不需要及时反映。终极目标则为了研究如何让Claude像Agent一样,独立地为用户执行复杂任务。
Claude 3.7 Sonnet玩这款游戏时遇到了不少的困难,比如在一个城市中困了几十个小时,并且难以识别非玩家角色,这极大地阻碍了它在游戏中的进展。
但Opus 4就不一样了,它在长期记忆和规划能力上有所提高。与此同时,当Opus 4意识到需要某种特定的能力才能继续前进后,它花了两天时间提升它的技能,然后继续玩游戏。
此外,他们还显著减少了模型使用捷径或漏洞完成任务的行为。在处理一些容易受到捷径和漏洞影响的Agent任务中,这两个模型出现此类行为的可能性都比 Sonnet 3.7 低 65%。
智能代码助手Claude Code正式全面开放
除此之外,Anthropic还正式发布了Claude Code。
这是一个智能代码助手工具,旨在帮助开发者通过自然语言命令理解、浏览和修改整个代码库,让你能够将修复bug、实现新功能、代码重构、编写测试、跨文件修改等大量工程任务交给AI完成。
今年2月时,Anthropic曾在首届“Code with Claude”开发者大会上宣布推出Claude Code。
现在,它正式上线,
并且已经集成进更多开发工作流程中:终端,IDE,或者使用Claude Code SDK在后台运行。
我们详细来看——
首先是Claude Code集成到IDE。
此次,Anthropic推出了新的VS Code和 JetBrains Beta扩展。
这一举措直接把Claude Code集成到了IDE里,也就是说,它已经和开发者们熟悉的代码编辑器无缝结对。
至此,大家对着Claude提出的修改内容会被直接嵌入到文件里,从而简化了代码审查和跟踪过程。
其次,Anthropic还发布了一个可扩展的Claude Code SDK。
利用Claude Code SDK,朋友们可以用和Claude Code相同的核心Agent来构建自己的Agent和应用程序啥的。
目前,Claude Code在GitHub上放出了Beta版本。
在GitHub上Pull Request的时候,只需要「@Claude Code」,就可以回应评审人员的反馈、修复持续集成错误或修改代码。
如果想安装它的话,大家记得运行“/install-github-app”,就可以安装Beta版的插件了。
Anthropic产品负责人Scott White表示,Claude Code不仅适合公司——它们希望旗下的软件工程师们使用AI来提高自身专业技能,也适合个人——包括那些不懂编程的人。
如果一位产品经理想出了一个新点子,就不用费劲地用文字来解释概念了。
直接找Claude Code,就能创造关于这个新点子的雏形。
“去年年底就停止了对聊天机器人的投资”
之所以能在编程能力上如此惊艳,与Anthropic战略转向有关。
Anthropic首席科学官Jared Kaplan接受采访时表示,该公司于去年年底停止对聊天机器人的投资。
现在的重点很明确——
专注于提高Claude执行复杂任务的能力,例如研究和编程,甚至编写整个代码库。
去年起,Anthropic就开始训练Claude 4系列,“训练过程中,内部确实存在一些困难。因为我们在训练这些模型时使用的一些新基础设施,使得团队在启动所有系统方面非常紧张。”
Jared Kaplan承认,任务越复杂,模型脱轨的风险就越大。
因此他们真正致力于解决这个问题,以便人们可以一次性将大量工作委托给给Claude。
不过,首席产品官Mike Krieger此前也表示过,Anthropic没有仅仅针对编程来进行迭代。
他的原话是这样说的:
我们在两个方面都在不断开拓创新。
一方面涉及到编程部分以及整体的自主行为,这为许多编程初创企业提供了强大的动力。
另一方面,我们也在探索这些模型如何能够真正从经验中学习,并且能够成为非常有用的写作伙伴。
Mike Krieger表示,Claude 4之前,他仅仅是把大模型作为一个思考伙伴,大部分写作还是他自己亲自上手的。
但现在,Claude 4出现后,他几乎已经把写东西这个事完全委托给Claude Opus 4了,并且“难以辨认是我写的还是AI写的”。
华尔街等方面应该是对Anthropic的选择表示了满意与支持——
上周,Anthropic获得了一笔25亿美元、为期五年的循环信贷额度,用来增强AI竞争的底气,毕竟研究和训练真的非常花钱。
同样也是上周,Anthropic公开了营收额:
其第一季度年化营收达到20亿美元,较上一季度的10亿美元增长了一倍多。
而Anthropic年度消费超过10万美元的客户数量,较去年同期增长了八倍。
Opus 4最喜欢
模型刚发布,人类就发现了它有一些特殊的「爱好」,比如熟练地使用一些表情符号。
在 Anthropic技术报告中,他们研究了Opus 4 在“开放式自我互动”中的表现——也就是与自己对话,结果发现,一对Opus 4 模型进行了 200 次、每次 30 轮的互动,模型使用了数千个表情符号。
根据报告,Opus 4 使用“头晕”()表情符号最多(占 29.5%),其次是“闪亮的星星”(
)和“双手合十”(
)。
不过,模型还是对“旋风”()表情符号很感兴趣。一份记录显示,它们输入了2725次。
在几乎每一次开放式的自我互动中,Opus 4最终都会开始进行“意识的哲学探索”以及“抽象而愉悦的精神或冥想表达”。
而“旋风”表情符号最能捕捉到,它想要表达的意思。(Doge)
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
(👆👆👆安全链接,放心点击)
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型实战项目&项目源码👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
为什么分享这些资料?
只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
(👆👆👆安全链接,放心点击)