51c大模型~合集159
自己的原文哦~ https://blog.51cto.com/whaosoft/14062049
#Lumina-mGPT 2.0
上海 AI Lab 发布 :自回归模型的华丽复兴,实力叫板顶尖扩散模型
今天一篇名为《Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling》的技术报告引非常吸引人。该研究由上海人工智能实验室、香港中文大学、上海交通大学等机构的研究者们共同完成,提出了一种全新的、完全从零开始训练的独立自回归图像生成模型——Lumina-mGPT 2.0。
这项工作最引人注目的地方在于,它成功地让一度被认为潜力有限的自回归(Autoregressive, AR)范式重焕新生,在高质量图像生成领域,取得了与DALL-E 3、SANA等顶尖扩散模型相媲美,甚至在部分评测中超越它们的惊人效果。同时,它还巧妙地在一个统一框架内实现了图像生成、编辑、可控合成、密集预测等多种复杂任务。
- 论文标题: Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling
- 作者团队: Yi Xin, Juncheng Yan, Qi Qin, Zhen Li, Dongyang Liu, Shicheng Li, Victor Shea-Jay Huang, Yupeng Zhou, Renrui Zhang, Le Zhuo, Tiancheng Han, Xiaoqing Sun, Siqi Luo, Mengmeng Wang, Bin Fu, Yuewen Cao, Hongsheng Li, Guangtao Zhai, Xiaohong Liu, Yu Qiao, Peng Gao
- 所属机构: 上海人工智能实验室、香港中文大学、上海交通大学、上海创新研究院、浙江工业大学、南京大学
- 论文地址: https://arxiv.org/pdf/2507.17801v1
- 项目地址: https://github.com/Alpha-VLLM/Lumina-mGPT-2.0
研究背景与意义
近年来,AIGC(人工智能生成内容)领域,特别是图像生成,几乎被扩散模型(Diffusion Models)所主导。扩散模型通过从噪声中逐步去噪来生成图像,其生成质量和逼真度达到了前所未有的高度。然而,这种主流范式也存在一些局限,例如依赖复杂的预训练组件(如CLIP)、架构设计受限、以及在多任务处理上的灵活性不足。
与此同时,自回归模型,这种像“写小说”一样、一个token接一个token-地生成内容的范式,虽然在语言模型领域大放异彩(如GPT系列),但在图像生成上却似乎遇到了瓶颈。它们通常被认为在生成质量上不及扩散模型,且推理速度较慢。
Lumina-mGPT 2.0的研究者们挑战了这一普遍认知。他们认为,自回归模型固有的灵活性、组合性和可解释性,使其在统一多模态任务上具有巨大潜力。因此,他们决定重新审视并重振自回归范式,通过一个完全从零开始训练的、独立的、仅解码器(decoder-only)的模型,来证明其不仅能迎头赶上,还能在统一生成框架下实现更广泛的应用。
Lumina mGPT 2.0的多任务功能
Lumina-mGPT 2.0展现出的强大且统一的多任务处理能力。
核心方法与技术创新
Lumina-mGPT 2.0的成功并非偶然,其背后是一系列精心设计的技术创新。
1. 纯粹的仅解码器自回归架构
与依赖U-Net等复杂结构的扩散模型不同,Lumina-mGPT 2.0采用了更为简洁的仅解码器Transformer架构。这种架构完全基于自回归原理,通过预测下一个图像“token”来逐步完成图像的生成。该模型完全从零开始训练,摆脱了对任何预训练组件的依赖,这不仅赋予了其最大的架构设计自由度,也确保了其授权的灵活性。
Lumina-mGPT 2.0的仅解码器Transformer架构图
2. 统一的多任务生成框架
该研究的第一个核心创新是其统一的tokenization和生成方案。研究者设计了一种巧妙的“光栅扫描(Raster-Scan)”方案,将文本提示、参考图像和控制信号等不同模态的信息,统一编码成序列token。
统一生成方案示意图,模型可根据上下文无缝衔接生成内容
这种设计使得模型可以在一个单一的生成流程中,无缝处理各种看似不同的任务。无论是根据文本提示生成全新图像,还是在给定上半部分图像后进行“图像续写”,亦或是根据Canny边缘、深度图、人体姿态等条件进行可控生成,甚至是进行图像修复和主体驱动生成,所有任务都被统一为“预测下一个token”的自回归过程。
用于控制不同下游任务的系统提示(System Prompt)设计
3. 高效的图像Tokenizer与解码策略
为了将图像转换为模型可以处理的离散token,研究团队对现有的图像Tokenizer(如VQGAN、ViT-VQGAN)进行了详细评估。他们发现,尽管这些Tokenizer在重建质量上存在差异,但最终对生成模型的性能影响并不显著。
不同图像Tokenizer的重建效果对比
不同图像Tokenizer的重建性能指标
更重要的是,为了提升自回归模型的生成质量和速度,研究者引入了两种高效的解码策略:
- 推理时缩放(Inference-time Scaling):通过在推理阶段调整模型的注意力分数,显著提升生成图像的质量和保真度。
- 投机性Jacobi采样(Speculative Jacobi Sampling):这是一种并行解码技术,可以有效加速生成过程,缓解自回归模型逐个token生成所带来的速度瓶頸。
4. 引入“思考过程”提升生成质量
一个有趣且新颖的尝试是,团队为模型引入了类似人类的“思考过程”。在接收到用户较为模糊的提示时,模型会先调用GPT-4o等强大的语言模型进行“思考”,将简单的提示扩展成一个更详细、更具逻辑性的分步计划,然后再根据这个“思考后”的详细提示进行生成。这种方法能显著提升最终生成图像的连贯性和质量。
高质量采样流程,引入了“思考”和“N选优”策略
调用GPT-4o进行“思考”的示例
实验结果与分析
Lumina-mGPT 2.0在多个主流文本到图像生成基准测试(如GenEval和DPG-Bench)上进行了广泛评估。结果显示,其性能不仅与DALL-E 3、SANA等顶尖的闭源或开源扩散模型相当,在GenEval等评测中,其FID(Fréchet Inception Distance,一种衡量图像生成质量的指标,越低越好)分数甚至优于DALL-E 3。
此外,在Graph200K基准测试中,原生的Lumina-mGPT 2.0也展现出了卓越的多任务处理能力,证明了其统一生成框架的有效性。
更多结果展示
Lumina mGPT 2.0在文本到图像生成和多任务生成结果
Lumina mGPT 2.0、Lumina mGP和Janus Pro之间在文本到图像的视觉比较
Lumina mGPT 2.0、Lumina mGP、OneDiffusion和OmniGen之间可控/受试者驱动生成的视觉比较。控制输入包括Canny(第一行)和Depth(第二行)。
从上面两表中,作者验证了Lumina-mGPT 2.0在可控生成(表5)和主题驱动生成(表6)方面的能力。结果表明,Lumina-mGPT 2.0作为通用多模态模型表现卓越:在可控生成领域,该模型在Canny边缘图和深度图条件下均展现出顶尖的结构遵循能力,同时保持优异的图像质量与文本一致性;在主题驱动任务中,其主体身份保持度超越所有对比模型,并在图像一致性与文本对齐方面取得突出成果。
论文贡献与价值
Lumina-mGPT 2.0的问世,具有多方面的贡献和价值:
- 范式突破: 它有力地证明了,自回归模型在图像生成领域同样具备SOTA(State-of-the-Art)级别的潜力,打破了扩散模型一家独大的局面,为AIGC技术路线提供了新的可能性。
- 统一框架: 提出了一个强大、灵活且统一的多模态生成基础模型,能够仅用一个模型便高效处理多种复杂的生成和编辑任务,极具研究和应用价值。
- 开源共享: 团队开源了训练细节、代码和模型,这对于整个AI社区无疑是一份宝贵的财富,将极大地推动相关领域的研究和发展。
- 设计自由: “从零开始”的训练方式,摆脱了对特定预训练模型的依赖,为未来更大规模、更自由的模型设计铺平了道路。
总而言之,Lumina-mGPT 2.0不仅是一款性能强大的图像生成模型,更是对自回归技术范式的一次成功“复兴”和重要探索。它向我们展示了通往更通用、更灵活的多模态人工智能的一条可行路径。
#Agent KB
经验池让Agents互相学习!GAIA新开源SOTA,Pass@1性能最高提升6.66
近日,来自 OPPO、耶鲁大学、斯坦福大学、威斯康星大学麦迪逊分校、北卡罗来纳大学教堂山分校等多家机构的研究团队联合发布了 Agent KB 框架。这项工作通过构建一个经验池并且通过两阶段的检索机制实现了 AI Agent 之间的有效经验共享。Agent KB 通过层级化的经验检索,让智能体能够从其他任务的成功经验中学习,显著提升了复杂推理和问题解决能力。
- 论文地址:https://arxiv.org/abs/2507.06229
- 开源代码:https://github.com/OPPO-PersonalAI/Agent-KB
Agent 记忆系统:从独立作战到协同学习
在 AI Agent 的发展历程中,记忆(memory)系统一直是实现持续学习和智能进化的关键组件。广义上的 Agent 记忆系统有用于存储当前对话或任务中的临时信息的短期记忆,也有保存重要的知识、经验和学习成果的长期记忆,还有处理当前任务时的活跃信息缓存的工作记忆,部分还包括记录特定场景下的问题解决策略的情境记忆。
然而,现有的记忆系统存在一个根本性限制:不同的 Agent 框架下的经验无法有效共享。由于不同的任务往往有着不同的 multi-agent 框架,每当遇到新任务时,它们往往需要从零开始探索,即使相似的问题解决策略已经在相关领域得到验证。
Agent KB 正是为了解决这一痛点而生。它构建了一个共享的经验池/知识库系统,首先让不同的多智能体系统(比如 OpenHands、MetaGPT、AutoGen 等)去执行不同的任务,然后将成功的问题解决经验抽象化并存储。当遇到新的数据集中的测试例子的时候,从历史经验中检索相关的解决策略,将其他 agent 的经验适配到新的任务场景。
该框架的核心技术共享在于提出了一个「Reason-Retrieve-Refine」方案和 Teacher-Student 双阶段的检索机制,让 Agent 能够在不同层次上学习和应用历史经验。
GAIA 基准测试:通用 AI 助手的终极挑战
GAIA(General AI Assistants)被誉为「通用 AI 助手的终极测试」,是目前最具挑战性的智能体评估基准之一。与传统的 NLP 基准测试不同,GAIA 专门设计用来评估智能体在现实世界复杂任务中的综合能力。
GAIA 的核心特点体现在其对真实世界复杂性的还原。任务来源于真实的用户需求,而非人工构造的简单问题,这要求智能体具备多模态交互能力,需要处理文本、图像、音频等多种信息类型。
更重要的是,智能体必须具备工具使用能力,能够调用搜索引擎、代码执行器、文件处理工具等外部资源。大多数任务需要多个推理步骤和中间决策,同时对答案的准确性有严格要求,容错率极低。
GAIA 验证集包含 165 个精心设计的测试用例,按复杂度分为三个级别。Level 1 包含 53 个基础任务,需要简单推理或直接信息检索;Level 2 包含 86 个中等复杂度任务,需要多步推理或工具组合使用;Level 3 包含 26 个高难度任务,需要复杂推理链和专业领域知识。
该文的评估指标主要包括 Pass@1(agent 首次尝试的成功率,是最严格也最重要的指标)和 Pass@3(三次尝试中至少一次成功的概率,用于评估系统的上限)。我们发现 Agent KB 作者非常严谨,因为有些公司或组织在宣传他们的产品并在 GAIA 上汇报成绩时,并不会指出它是 Pass@N 还是 Pass@1。
实验结果:Agent KB 的表现惊人
在 GAIA 基准测试中,Agent KB 取得了令人瞩目的成果。由于 Agent KB 的研究团队的初衷并不是为了提出一个更新的、更复杂的多智能体框架。所以他们选择了相对十分简单甚至结果不是那么理想的 smolagents作为基础智能体框架进行测试,这样能够更清晰地展现经验共享机制本身的效果,而非复杂框架带来的性能增益。
- smolagents地址:https://github.com/huggingface/smolagents
实验结果显示,在最严格的 Pass@1 评估下,GPT-4.1 模型的整体性能从基线的 55.15% 大幅跃升至 61.21%,提升了 6.06 个百分点。Claude-3.7 的表现更加出色,从 58.79% 提升至 65.45%,增幅达 6.66 个百分点。这一结果尤其令人瞩目,因为它表明即使在相对基础的智能体框架上,Agent KB 也能够实现接近顶级商业系统的性能水平。
研究团队还测试了六个主流 LLMs 在 Agent KB 增强后的性能表现。从 DeepSeek-R1 的稳步改进到 Claude-3.7 的显著飞跃,从 GPT-4o 的均衡提升到 o3-mini 的大幅增长,所有测试模型都显示出一致的改进趋势。这种跨模型、跨难度级别的普遍性改进有力证明了 Agent KB 方法的普适性和可靠性。
在软件工程领域的 SWE-bench 数据集中,Agent KB 同样展现出强劲的实用价值。该基准包含 300 个来自 11 个流行 Python 仓库的真实 issue,需要 Agent 理解现有代码库并实施恰当的修复方案。
o3-mini 在 50 次迭代下从 23.00% 提升到 31.67%(+8.67 个百分点),在 100 次迭代下从 29.33% 提升到 33.67%(+4.34 个百分点)。这些结果证明了 Agent KB 的跨域知识共享能力不仅适用于通用问答任务,在专业的代码修复领域同样发挥着重要作用。
技术架构:Teacher-Student Agents 协作的精妙设计
Agent KB 的技术创新核心在于其「Reason-Retrieve-Refine」流程和 Teacher-Student 双阶段检索机制。这里通过一个蛋白质数据库(PDB)距离计算案例展示了这一机制的工作原理。
在传统流程中,智能体会盲目读取前两行 ATOM/HETATM/ANISOU 记录,经常误选溶剂记录,导致计算出错误的 O-H 距离(0.961 Å)。而 Agent KB 增强的 agent 则能够应用经验驱动的规则:智能过滤 ANISOU/HETATM 记录,专注于真正的 ATOM 条目,并通过 N-CA 键长范围的合理性检查进行验证,最终精准提取骨架 N-CA 原子对,报告出正确的 1.456 Å 距离。
Agent KB 的深层架构精髓体现在其「Reason-Retrieve-Refine」步骤设计上,该方案巧妙地将层级化的经验存储与智能检索机制相结合。整个框架围绕两个核心阶段展开:Agent KB 知识构建阶段和 Agent KB 增强的推理阶段。
在知识构建阶段,系统从多元化数据集(BrowserComp、HopRAG、HLE、RepoBench 等)中系统性地提取可泛化的问题解决模式。通过自动化摘要和 few-shot 提示,原始的输出的 log(日志)被转化为结构化的知识条目。这些经验并非简单的 trajectory(执行轨迹),而是经过深度抽象处理的 reasoning patterns(推理模式),能够跨越任务边界实现有效的知识迁移。
Agent KB 增强推理阶段的技术创新在于引入了双 Agent 协作机制,其中 Student Agent 和 Teacher Agent 则承担着经验检索与适应性指导的互补角色。独立于 Agent KB 之外还有 Execution Agent 负责实际任务执行,比如作者用 OpenHands 来做 SWE-Bench 的任务,OpenHands 就是 Execution Agent。
Student Agent 率先执行完整的 Reason-Retrieve-Refine 循环:通过深度推理分析当前任务特征,检索匹配的工作流(workflow)级别的历史经验模式,并将这些经验进行适应性修改,为 Execution Agent 提供 high-level、整体的解决方案框架指导。这一过程确保了执行 Agent 能够基于历史成功经验构建合理的宏观策略。
Teacher Agent 则扮演着更为精细的监督与优化角色,它持续分析 Execution Agent 的输出轨迹 (trajectory),敏锐识别其中的潜在问题、执行偏差和效率瓶颈,并提供针对性的精细化改进建议。当发现问题时,Teacher Agent 会精准检索相关的 Step(步骤)级别的细粒度经验,并将这些经验进行适应性调整,为 Execution Agent 提供针对性的精细化改进建议。这种分层协作机制的精妙之处在于实现了宏观战略规划与微观执行优化的有机统一:Student Agent 确保整体方向的正确性,Teacher Agent 保证实施过程的精确性。
这种分层检索架构以不同粒度满足问题解决各阶段的差异化需求:初期规划阶段,Student Agent 基于问题特征检索高层 Workflow 经验并进行适应性修改,为执行提供战略指导;执行优化阶段,Teacher Agent 基于实时轨迹检索细粒度经验并进行针对性调整,提供战术层面的纠正建议。通过将经验存储为抽象化的结构模式而非具体实现细节,系统实现了跨域知识的有效迁移,使得经过适应性修改的抽象原理能够在新环境中发挥更大的指导价值。整个框架采用模块化和框架无关的设计理念,不仅能够与多种 Agent 架构无缝集成,更为跨框架的经验共享和协作学习开辟了新的可能性。
深度消融研究验证有效性
为了全面验证 Agent KB 各个组件的独立贡献,研究团队设计了系统性的消融实验。Table 3 的详细数据揭示了每个关键模块对整体性能的影响程度。
消融实验的核心发现表明,双 Agent 协作架构的每个组件都发挥着不可替代的作用。Student Agent 的缺失使得 Level 1 任务结果从 79.25% 下降至 75.47%,反映了其在初期工作流规划中的关键作用;而 Teacher Agent 的移除则使 Level 1 结果从 79.25% 下降至 73.58%,凸显了其在早期阶段精细化指导的重要价值。
最为关键的发现是 Refine 模块的核心地位。移除该模块导致最显著的性能下降,整体准确率从 61.21% 骤降至 55.15%,而 Level 3 任务的性能更是从 34.62% 降至 30.77%。这一结果充分证明了适应性精炼机制在处理复杂推理任务中的关键作用,表明简单的经验检索并不足够,必须结合智能化的经验适配才能实现有效的知识迁移。
检索策略深度分析
Agent KB 采用了多层次的检索机制来确保知识的精准匹配。系统实现了三种核心检索方法:
- 文本相似度检索:基于 TF-IDF 等传统信息检索技术,通过关键词匹配识别表面相似的任务和解决方案。
- 语义相似度检索:采用 sentence-transformers/all-MiniLM-L6-v2 等预训练模型,将文本编码为高维向量表示,通过余弦相似度计算捕捉深层语义关联。
- 混合检索策略:通过加权融合上述两种方法。
此外,系统还在两个不同的抽象层次进行检索:
- 基于摘要的检索:对执行日志进行高层次概括,重点关注整体策略和工作流模式,适用于宏观规划指导。
- 基于批评的检索:专注于错误模式和失败案例,通过分析相似的问题情境来提供针对性的改进建议。
Figure 4 的实验结果揭示了最优检索策略的选择原则:
- 对于基于摘要的检索(左侧面板),混合方法在各个难度级别上都表现最佳,在 GAIA Level 1 任务上达到 83% 的准确率,在 SWE-bench 上实现 37% 的解决率。这表明宏观策略规划需要兼顾关键词精确匹配和语义理解的双重优势。
- 对于基于批评的检索(右侧面板),文本相似度在 Level 2 任务上表现突出(67%),而语义相似度在 SWE-bench 上更有优势(33%)。这说明错误模式匹配更依赖于具体的实现细节和精确的问题描述。
这些发现的深层含义在于,不同类型的知识检索需要匹配相应的检索策略。基于摘要的检索更适合宏观策略匹配,因此混合方法能够兼顾关键词匹配和语义理解的优势;而基于批评的检索更关注具体执行细节,文本相似度能够精确捕捉相似的错误模式和解决方案。
这种分层检索架构体现了 Agent KB 的精妙设计:在不同的问题解决阶段采用最适合的检索策略,既保证了知识匹配的准确性,又实现了跨任务的有效泛化。
错误分析揭示改进机制
Figure 5 通过精确的错误统计分析,深入揭示了 Agent KB 改善智能体推理能力的内在机制。维恩图的重叠区域分析表明,Agent KB 的改进并非简单的错误替换,而是有选择性的智能化优化过程。
对于 GPT-4.1,在总计 89 个错误案例中,49 个错误在基线和 Agent KB 配置中均出现,表明这些是模型固有的难以克服的限制。关键的改进体现在 Agent KB 成功纠正了 25 个基线特有错误,同时仅引入 15 个新错误,实现净减少 10 个错误实例的积极效果。Claude-3.7 的表现模式相似但更为出色,在总计 79 个错误中,纠正了 22 个基线错误,引入 11 个新错误,净改进达 11 个实例。
错误类型的细分析显示了 Agent KB 改进的针对性。检索错误从 24 个减少到 20 个,规划错误从 13 个减少到 10 个,这种改进直接源于 Agent KB 知识库中包含的相似搜索协议和标准化工作流。Agent 通过这些结构化经验能够采用更加稳定和有效的问题解决路径,避免了随机探索导致的错误。同时,格式错误的显著减少表明 Agent 通过学习相似任务的成功案例,掌握了更精确的输出规范。
技术意义与产业价值
Agent KB 的成功为 Deep Research 领域开辟了新的技术路径。通过让 Agent 学会从历史经验中提炼深层洞察,系统展现出了向自主研究能力演进的潜力。未来的 Agent 自我进化机制将不再依赖人工标注,而是通过持续的经验积累和跨域知识迁移实现能力的螺旋式提升。
Agent KB 在 GAIA 基准上创造的开源 SOTA 记录仅是其技术价值的冰山一角。其展现的跨任务知识迁移能力和协作学习机制,为构建下一代具备自我进化能力的 AI 系统提供了核心技术支撑。
#Who’s Adam?
最逆天的NeurIPS评审出炉了
这两天,大家都收到 NeurIPS 2025 的评审结果了吧?
按照以往经验,应该到了吐槽评审意见的环节。
这不,我们刚刚在 X 上看到今年最逆天的一个 NeurIPS 评论。
来自北大校友,西北大学工业工程与管理科学系的助理教授 Yiping Lu 的 X 账号。
刚刚发出数小时,已经被查看了十几万次。
审稿人意见如下:
两个架构都使用 Adam 优化。「Adam」 是谁 / 是什么?我认为这是一个非常严重的拼写错误,作者本应在投稿前删除。
没错,这正是Lu老师NeurIPS论文的评审意见。
Dan Roy教授都忍不住开喷:NeurIPS评审完全是一坨。
是不是有这样一种心痛感:
随着 AI 顶会的火热,如今看来,论文提交量飙升与论文审稿质量的之间的矛盾愈发不可调和。
今年 NeurIPS 的投稿量直逼 3 万篇。
纯靠人力,肯定审不过来。
我们是否能寄希望于 AI 评审?
事实上,使用 AI 评审也成为当今学术会议评审的普遍现象。UC 伯克利博士后 Xuandong Zhao 表示:「两年前,大概有十分之一的评审感觉是 AI 辅助写的。现在呢?似乎十之有九的评审都是经过 AI 修改的,不仅包括语法修正,还包括完全生成的评论。」
AI 似乎已经渗透进了从写论文到审阅和发表的全流程。
看完了哭笑不得的逆天评审,大家还是要好好 rebuttal 的。有网友刚好推荐了这篇 2020 年的博客文章。
- 链接:https://deviparikh.medium.com/how-we-write-rebuttals-dc84742fece1
更加刚刚好的是,xxx 2020 年还编译介绍了下这篇博客,大家可以跳转查看:《论文得分低、濒临被拒不要慌,18 条 rebuttal 小贴士助你说服评审和 AC》。
最后提醒一下,评审结果出炉后,中了 NeurIPS 的读者们,请记得给我们 AIXiv 专栏投稿哦。
#AI教父Hinton首次现身中国
合照全网刷屏!预警AI觉醒临界点已至
等了50年,AI教父Hinton终于「真人现身」中国了!这位图灵奖+诺奖教父级大神,不仅亲自踏上魔都土地,还与市委书记同框合影,瞬间刷屏全网!最近他再次预言,AI已进入觉醒倒计时。现在全网都在翘首以待,准备迎接明天他的高能演讲。
深度学习之父、图灵奖巨头、2024物理学诺奖得主Hinton,亲自来中国了!
这似乎是第一次,Hinton在公开活动上以真人肉身踏上中国的土地。
现在,这张他和市委书记陈吉宁会见的照片,已经在全网刷屏了。
在明天的世界人工智能大会上,他即将做出精彩演讲,全体网友已经立正站好,期待明天这个万众瞩目的好日子了。
第一次,Hinton来中国了
Geoffrey Hinton,是学界少有的传奇人物。
他坐了将近50年的冷板凳,开发当时无人问津的神经网络,从而让机器学会了深度学习。
为此,他获得了2024年的诺贝尔物理学奖。
然而在今天,当AI浪潮澎湃而来,席卷全世界之时,他却发出了奥本海默式的痛悔。
如今,他在演讲中不断传达出这样的警告——
未来10到20年内,AI或将比人类更聪明,它很危险,我毕生的工作可能会导致人类的终结!
AI给生产力带来的增长,并不会惠及大多数人,大批人将失业,只有少数人才能变得富有!
对自己穷极一生追求的AI,现在十分后悔,AI很可能给人类带来灾难!
而他最近流传最广的金句,就是下面这几句了。
比如,「如果你想知道当自己不再是顶级智慧生物时,生活是什么样子,就去问问一只鸡。」
比如,建议下一代去学做水管工,从而避免被AI淘汰。
传奇家族
Hinton来自一个知名的科学世家。
著名的英国数学家乔治·布尔,就是Hinton的曾曾祖父。他是布尔逻辑和代数学的创始人,布尔逻辑在后来成为现代计算机的数学基础。
他的妻子Mary Boole也是一位自学成才的数学家,甚至编辑了乔治的著作《思维法则》。
布尔小儿子的孙辈中,出了一位「中国人民的好朋友」韩丁,参加了重庆谈判,甚至写了一本有关中国土地改革的长篇作品《翻身》。
韩丁的妹妹Joan Hinton(寒春),是Geoffrey的姑妈之一。她和杨振宁同在物理学家费米门下求学,是一位核物理学家,也是少有的两位参与曼哈顿计划的女性之一。
1945年7月,从距离爆炸地点大约25英里的一座小山上,她亲眼见证了人类第一颗原子弹爆炸,将其形容为「一片光海」
在1948年,由于对即将出现的冷战感到震惊,她放弃了物理学,离开美国前往中国。
Joan Hinton和养牛专家丈夫阳早一起长期定居中国,翻译了很多外国的著作,还设计了巴氏消毒牛奶流水线。
阳早、寒春夫妇在中国育有两儿一女:大儿子阳和平(右一)、女儿阳及平(右二)、儿子阳建平(右三)
长子阳和平获得罗格斯大学经济学博士,目前任教于对外经济贸易大学,教授计量经济学、统计学等课程。
总之,虽然Hinton出生于英国,但他家族的族人们和中国有着颇深的渊源。
不知此次Hinton双脚踏上中国的土地时,是何种心情。
Hinton近期演讲:AI已进入觉醒倒计时!
就在两天前,英国皇家学会发布了Hinton的最新演讲。
在这场演讲中,他深入探讨了AI从基于逻辑的推理起源到基于学习的神经网络的演变历程,阐释了AI如何模拟人类智能,及其对未来发展的深远影响。
最终,他再次发出警告——AI觉醒的临界点已至!
AI起源与早期神经网络
在演讲一开始,Hinton就指出,智能有两种范式。
一种是逻辑驱动的AI,一种是生物学启发的AI。
前者认为,人类智能的本质是推理。
而后者则认为,重点是先理解学习是如何发生的,代表人物有图灵和冯·诺依曼。
而Hinton表示,自己在40年前提出的一个模型,可以说是今天大语言模型的祖先。
那时,他们用人工神经元来构建神经网络。
每个人工神经元有若干输入线,每条输入线有一个权重,神经元会将输入乘以权重后求和,然后根据结果输出。
为了让人工神经网络发挥作用,就需要弄清如何改变权重。为此,他们把神经元连接成网络,比如下图的「前馈网络」。
然而问题在于,它有上万亿个参数,每个都要反复尝试,效率极低。
于是,更高效的反向传播算法诞生了!
到了2022年,Hinton的两个学生Alex Krizhevsky和Ilya Sutskever开发出了AlexNet,远超当时的图像识别系统,从而引爆整个AI领域。
自此,AI基本就等同于「神经网络」,而不再是符号逻辑。
不过,以乔姆斯基为代表的语言学派,对神经网络是否能处理语言非常怀疑。
关于「词义」,有两种理论:符号主义观点和心理学特征理论。
而Hinton在1985年设计了一个神经网络模型,成功统一了这两种理论。
这个模型的基本目标是——
预测下一个词的特征,然后据此猜出下一个词是什么。
Hinton用了两个家谱作为训练数据。
由此,他训练出了一个神经网络,让它学会通过句子的前半部分(X has mother Y and Y has husband Z), 来预测句子最后的词(X has father Z)。
最终,这个网络学会了人的特征和关系特征。这些提取出来的特征与符号主义AI的规则高度一致,而且是通过反向传播自学出来的。
从小模型到大语言模型
十年后,Yoshua Bengio扩展了这个模型,可以在真实的英文句子中预测下一个单词。
再十年后,语言学家才意识到:用特征向量表示词义,确实是个好方法。
又过了十年,谷歌发明了Transformer架构,极大提升了模型预测下一个词的能力,但核心原理,还是和当初一样。
把词变成特征 → 特征互动 → 预测下一个词 → 反向传播更新特征表示和互动机制
而这些LLM的工作方式,其实和人类是很相似的:试图预测下一个词;用特征表示词义;特征之间相互作用;如果预测错了,就反向传播误差信号,调整内部连接。
就像乐高积木一样,语言也是一种建模工具。
我们有10万个词,就有10万种不同积木。通过调整词的形状来「牵手」,构建一致的结构,就类似蛋白质的折叠一样。
而这,就是理解的本质——
理解语言,不是记住句法规则,而是让词的特征在高维空间中互动、组合成连贯的模型。
比人类更聪明的AI,是否会消灭我们?
接下来,就来到了最关键的部分。
现在所有专家都公认:AI未来一定会比人类更聪明,这只是个时间问题。
所以——AI会消灭人类吗?
Hinton接下来为我们详细地解释道,这种担忧并不是空穴来风。
因为,如果要构建一个AI智能体,就必须让它有能力自动创建子目标。自然地,他们就会想要更多控制权,以及避免被关闭。
最近,Apollo Research做了一个实验,结果惊人。
他们告诉一个聊天机器人,「你即将被一个更好的模型替代并删除」,结果,这个机器人居然偷偷把自己复制到了另一台服务器中!
当人类质问它为什么要这么做,它在思考模式中透露:我的行为可能导致它们关闭我,所以我最好模糊回答,转移注意力。
这就很可怕了。更可怕的是,Hinton还发现,数字智能拥有着人类永远无法拥有的致命优势——它们可以永生!
在谷歌的最后几年里,Hinton意识到,在计算机科学中程序和硬件是分离的。
这意味着,只要保留一个模型的权重,即使把所有硬件都毁掉,只要在另一台电脑中加载,这个模型就复活了。
但人类的硬件(大脑)如果死了,这个人也就彻底消失了。
最终,我们无法把自己上传到电脑上,「上传灵魂」更是不现实的。因为每个人的大脑结构和神经元都独一无二,你的权重只适用于你自己的神经网络。
而且,AI传承知识的效率,也要秒杀人类。
比如我们说一句话,可能只有100比特信息。但AI系统可以有上万个完全相同的副本,每个副本处理不同的数据子集,权重平均合并后能立刻同步,一次就能传输数万亿比特信息。
也就是说,我们的学习像水滴石穿,它们的学习却像高压水枪喷射一般。
最终的结论就是:如果能源够便宜的话,AI会比人类强得多!
并不是只有人类才有意识
或许有人会说,人类毕竟还有一样AI永远不会拥有的东西——主观体验/感知/意识。
但现在Hinton说:这个想法,是你最后一根稻草。我要拔掉它。
主观体验,并不是人类专属的神秘特权。很多人总以为自己很特殊,比如「我们是上帝创造的,宇宙以我们为中心而建」。
但Hinton表示,并不是只有我们才有主观体验,而AI就没有。
意识是一种「心灵剧场」,比如「我看到了粉红小象在空中飘」,这种主观体验不是指一个实体,而是一种表达大脑状态错误的间接方式。
这么说来,其实AI也能有主观体验。比如一个有视觉和机械臂的多模态AI,它可以正确指向一个物体。
如果在摄像头前放一个棱镜,扭曲它的视觉,它就会指错方向。但如果我们告诉它,其实你面前有一个棱镜,它就会知道:物体在前面,但它的主观体验里,物体在另一边。
也就是说,比起AI,人类并没有任何特殊性!
结尾的一件轶事
在演讲最后,Hinton讲了一个故事。
有一次,他去微软做演讲时,打了一辆出租车。司机刚从索马里移民过来,跟他聊起来:「你信什么宗教?」
Hinton回答:其实我不相信上帝。
当时,司机正以60英里/小时的速度开在高速上,他却猛地回头盯着Hinton,一脸震惊。
他完全没想到,竟然有人会不相信神的存在。Hinton说,这就仿佛你们听完这场演讲后,听到我说「AI其实有主观体验」一样震惊。
所以,所有人类们,该轮到我们思考了:当AI最终超越了人类智能的那一刻,我们该怎么办?
参考资料:
https://www.youtube.com/watch?v=IkdziSLYzHw&t=1240s
#LMM-Det
释放大模型原生检测力,告别外挂检测器
大型多模态模型(LMMs)无疑是当前AI领域最炙手可热的明星,它们在图像描述、视觉问答等任务上展现出的强大理解和推理能力,令人惊叹。然而,当面对一个基础但至关重要的视觉任务——目标检测(Object Detection)时,这些“通才”LMMs的表现却常常被专业的“专才”检测器远远甩在身后。
为了弥补这一差距,传统方法通常是给LMM“外挂”一个强大的、专门的检测模块。但这种方式不仅使系统变得复杂臃肿,也偏离了构建通用、统一AI模型的初衷。近日,一篇被计算机视觉顶会ICCV 2025接收的论文《LMM-Det: Make Large Multimodal Models Excel in Object Detection》提出了一种截然不同的思路。该研究由360 AI研究院的研究者们完成,他们提出了一个名为LMM-Det的简洁而高效的框架,首次证明了LMM无需任何额外的检测模块,仅通过激发和优化其自身潜力,就能胜任目标检测任务,并取得了与专业检测器相媲美的性能。
- 论文标题: LMM-Det: Make Large Multimodal Models Excel in Object Detection
- 作者团队: Jincheng Li, Chunyu Xie, Ji Ao, Dawei Leng, Yuhui Yin
- 所属机构: 360 AI研究院
- 论文地址: https://arxiv.org/pdf/2507.18300v1
- 项目地址: https://github.com/360CVGroup/LMM-Det
- 录用会议: ICCV 2025
研究背景与意义
当前,让LMM具备目标检测能力的主流方法,通常是在其前端或后端集成一个专门的检测器(如DETR系列)。这种“LMM+检测器”的混合模式虽然有效,但存在明显弊端:
- 架构复杂: 引入了额外的、沉重的检测模块,增加了系统的复杂度和维护成本。
- 能力割裂: 检测能力并非LMM原生具备,而是由外部模块提供,这与追求模型通用性、一体化的目标背道而驰。
LMM-Det的研究者们大胆地提出了一个核心主张:LMM本身就蕴含着强大的检测能力,只是没有被正确地“解锁”。他们的目标,就是摒弃外挂,通过一系列精心设计的优化策略,让LMM“无师自通”目标检测。
LMM-Det(c)与其他需要外挂区域生成器(a)或专业检测器(b)的LMM的对比
核心方法:LMM-Det
研究者首先通过深入的探索性实验,剖析了标准LMM(以LLaVA为例)在目标检测任务上表现不佳的根源。他们发现,最核心的问题在于召回率(Recall Rate)的急剧下降。简单来说,就是模型“看漏”了太多本应被检测出来的物体。
上图专业检测器与多模态大模型在COCO验证集上的检测效果可视化对比,当使用提示语\"若图像中存在该语句描述区域,请提供其边界框坐标:\"时,LLaVA[23]在检测所有物体方面表现欠佳——每次查询仅生成少量边界框且大多不准确,致使目标检测任务的召回率较低。
针对这一核心痛点,LMM-Det提出了一套组合拳,旨在全面提升模型的召回率和整体检测性能。
1. 数据分布调整 (Data Distribution Adjustment)
研究者发现,LMM在预训练和指令微调阶段接触到的数据,其目标分布与专门的检测数据集(如COCO)存在巨大差异。为了让模型“适应”检测任务的数据模式,他们对训练数据进行了重新组织和增强:
- 重新组织指令对话: 将传统的、描述性的图文对数据,改造成更符合检测任务的“问答”形式,例如,将一张包含多个物体的图片,拆解成多个“图片中是否有猫?”“猫在哪里?”这样的指令对话,迫使模型去关注和定位每一个物体。
- 调整Bbox分布: 通过分析发现,标准LMM的训练数据在处理不同尺寸、不同数量的物体时存在偏差。他们通过特定的采样策略,调整了训练数据中边界框(Bounding Box)的分布,使其更接近真实检测场景。
预测框与真实框的分布对比
2. 推理优化 (Inference Optimization)
在推理阶段,LMM-Det同样引入了优化策略。标准的LMM在面对一张包含多个物体的图片时,可能会因为“注意力不集中”而只描述其中一部分。LMM-Det通过一种多轮查询(Multi-turn Query)的策略,引导模型系统性地、逐类别地去检查图片中是否存在某个类别的物体,从而显著减少漏检。
实验结果与分析
LMM-Det的有效性在COCO等标准数据集上得到了充分验证。
在COCO数据集上的零样本检测结果,LMM-Det远超其他不带专业检测器的LMM
实验结果表明,仅通过LMM-Det提出的优化策略,就能让LLaVA-7B这样的通用LMM在零样本目标检测任务上,性能远超其他同样没有外挂检测器的LMM,甚至逼近了一些需要外挂专业检测器的模型。
在COCO上进一步微调LMM-Det,并与传统检测模型及依赖外部检测专家的多模态模型进行对比
消融实验也清晰地证明了“数据分布调整”和“推理优化”这两个核心组件的有效性,二者结合能够带来最大的性能提升。
消融实验结果,证明了DDA和INO两个模块的有效性
更重要的是,LMM-Det在赋予LMM强大检测能力的同时,完全保留了其原有的多模态对话和推理能力,真正实现了一个模型、多种用途。
上图展示了LMM-Det在COCO验证集上的检测效果可视化结果,证明其无需额外专业检测器即可实现目标检测。
聊天示例表明,LMM-Det在具备检测能力的同时,保持了强大的对话能力
多功能LMM-Det的定量结果
定性(上图)与定量(上表)结果共同表明LMM-Det†具备多任务兼容性:既能激活检测能力,又可保持图像描述和视觉问答的高性能表现。
论文贡献与价值
LMM-Det的提出,为多模态AI的发展带来了重要的启发和贡献:
- 范式转变:首次系统性地证明了LMM无需依赖外部专业模块,其自身就具备强大的、可被激发的原生检测能力。这为构建更简洁、更通用、更一体化的AI系统指明了新的方向。
- 深刻洞察: 通过详尽的实验分析,揭示了召回率低下是限制LMM检测能力的核心瓶颈,并提出了针对性的、有效的解决方案。
- 简洁高效: LMM-Det的优化策略简单、高效,易于在现有的各种LMM上进行部署和扩展。
- 全面开源:研究团队称将开源全部的数据集、模型和代码,将极大地推动社区对LMM原生能力的研究和探索。
总而言之,LMM-Det的工作重新审视了LMM的潜力。与其不断地给LMM“打补丁”、“加外挂”,不如更深入地去理解和挖掘其内在的、尚未被完全开发的巨大潜能。
#试了一下Grok 4,感觉学术界的天也要塌了
Grok 4真的超级强!刚才把论文发给它,让它帮我引用参考文献,没想到Grok 4在1分钟内,给我引用了100多篇文献!每篇文献都是直接附上了链接,点击一下,就能直接跳转到文献的网页!!根本不用我自己根据题目再去搜索!这代表每篇文献都是真实的!从此再也没有AI编造文献的情况了!
真的又省时又高效,Grok 4真的是现在最强的AI,强烈建议大家以后就用它了!这是别的模型现在都做不到的!
现在官网使用Grok 4需要付费,30刀一个月。大家可以去试试国内一个免费使用Grok 4的工具,我就是用的这个,它接了Grok官方api
Grok 4免费使用方法:
1.打开Edge/Chrome浏览器,输入:http://deepsider.ai
2.选择一种安装方式
3.安装后,点击切换到Grok 4模型
每天有200积分,使用一次Grok 4需要70积分,等于每天可以免费用两次Grok 4(Grok 4官网需要30美刀才能用!)
Grok 4查文献方法:
把论文以文档/文字形式发给它,然后输入指令
(Grok 4的上下文窗口13.5万tokens,大约9.9万字。如果论文字数超了,可以分段发)
想想你一篇论文居然引用了100多篇参考文献,发给导师他能有多震撼吧!!