一周内,微软、英伟达、亚马逊等科技巨头先后接入,DeepSeek 成全球 AI “新宠”_亚马逊aws,微软azure,英伟达等海外巨头主动接入,承认其技术优势
日,DeepSeek 热度持续席卷全球,短短一周内,微软 Azure、英伟达等海外科技巨头,以及国内阿里云、华为云、腾讯云、百度云等云厂商均宣布上线 DeepSeek 大模型,并以 “零代码”“超低价” 等优惠吸引更多用户。
2025 年以来,DeepSeek 陆续开源大语言模型 V3、推理模型 R1 和多模态模型 Janus Pro,因其高性能、低成本等优势,率先受到海外市场关注。作为 OpenAI 的 “金主” 之一,微软 CEO 纳德拉在 1 月 29 日大赞 DeepSeek 的创新之处,同时也为微软自身拉了一波广告:DeepSeek-R1 模型可通过微软的 AI 平台 Azure AI Foundry 和 GitHub 获取,并承诺未来将在搭载 Copilot + 的电脑上运行。
1 月 30 日,英伟达也紧随其后,宣布英伟达的开发者网站已将 DeepSeek-R1 模型纳入 “最受欢迎的模型” 栏目,可在 NVIDIA NIM 微服务预览版上使用。NVIDIA NIM 是 NVIDIA AI 企业版服务的一部分,为跨云、数据中心和工作站的自托管 GPU 加速推理微服务提供容器,用于预训练和自定义 AI 模型。
很快,国内各大互联网云服务商开始争相接入 DeepSeek 系列模型,并拿出 “真金白银” 相互竞争。2 月 3 日,阿里云宣布,阿里云 PAI Model Gallery 支持云上一键部署 DeepSeek-V3 和 R1 模型。在该平台上,用户可以零代码实现从训练到部署再到推理的全过程,简化模型开发流程,为开发者和企业用户带来了更快、更高效、更便捷的 AI 开发和应用体验。
同一天内,百度智能云千帆平台也正式上架 DeepSeek-R1 和 V3 模型,推出了超低价格方案,还可享受限时免费服务,登录百度智能云千帆 ModelBuilder 即可快速体验。同时,百度还融入自身大模型技术,比如将 DeepSeek 模型融合千帆推理链路,集成百度独家内容安全算子,实现模型安全增强保障。
据了解,包括华为云、腾讯云、360 数字安全、云轴科技 ZStack 等多家国内 AI 公司已接入 DeepSeek 模型,相当于 DeepSeek 模型几乎成了主流 AI 云平台服务的标配。
DeepSeek 系列模型之所以能在短时间内受到全球科技巨头和云服务商的青睐,主要得益于其卓越的性能和较低的成本。以 DeepSeek-V3 为例,这个参数量高达 671b 的大模型,在预训练阶段仅使用 2048 块 GPU 训练了 2 个月,且只花费 557.6 万美元,其训练费用相比 GPT-4 等大模型要少得多。在性能方面,DeepSeek-V3 在知识类任务(MMLU、MMLU-pro、GPQA、SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 anthropic 公司于 10 月发布的 Claude-3.5-Sonnet-1022 。在美国数学竞赛(AIME2024,Math)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3 大幅超过了其他所有开源闭源模型。另外,在生成速度上,DeepSeek-V3 的生成吐字速度从 20tps(transactions per second 每秒完成的事务数量)大幅提高至 60tps,相比 V2.5 模型实现了 3 倍的提升,能够带来更加流畅的使用体验。
而推理模型 R1 也有着出色的表现,英伟达官网发布文章指出,DeepSeek-R1 是具备最先进推理能力的开放模型,比起直接提供响应,像 DeepSeek-R1 这样的推理模型,会对查询进行多次推理处理,使用连锁思维、共识和搜寻方法来生成最佳答案。
随着越来越多的科技巨头和云服务商接入 DeepSeek 大模型,其在全球 AI 领域的影响力也将不断扩大。未来,DeepSeek 有望在智能对话、文本生成、语义理解、计算推理、代码生成补全等多个应用场景中得到更广泛的应用,为用户提供更加高效、智能的服务。同时,DeepSeek 的成功也将激励更多的 AI 企业加大研发投入,推动全球 AI 技术的不断进步和创新。