> 技术文档 > 【AI大模型前沿】DeepEyes:小红书与西安交大联合打造的多模态深度思考模型

【AI大模型前沿】DeepEyes:小红书与西安交大联合打造的多模态深度思考模型


系列篇章💥

No. 文章 1 【AI大模型前沿】深度剖析瑞智病理大模型 RuiPath:如何革新癌症病理诊断技术 2 【AI大模型前沿】清华大学 CLAMP-3:多模态技术引领音乐检索新潮流 3 【AI大模型前沿】浙大携手阿里推出HealthGPT:医学视觉语言大模型助力智能医疗新突破 4 【AI大模型前沿】阿里 QwQ-32B:320 亿参数推理大模型,性能比肩 DeepSeek-R1,免费开源 5 【AI大模型前沿】TRELLIS:微软、清华、中科大联合推出的高质量3D生成模型 6 【AI大模型前沿】Migician:清华、北大、华科联手打造的多图像定位大模型,一键解决安防监控与自动驾驶难题 7 【AI大模型前沿】DeepSeek-V3-0324:AI 模型的全面升级与技术突破 8 【AI大模型前沿】BioMedGPT-R1:清华联合水木分子打造的多模态生物医药大模型,开启智能研发新纪元 9 【AI大模型前沿】DiffRhythm:西北工业大学打造的10秒铸就完整歌曲的AI歌曲生成模型 10 【AI大模型前沿】R1-Omni:阿里开源全模态情感识别与强化学习的创新结合 11 【AI大模型前沿】Qwen2.5-Omni:阿里巴巴的多模态大模型,实现看、听、说、写一体化 12 【AI大模型前沿】SmolDocling:256M参数的轻量级多模态文档处理利器,10分钟搞定百页PDF 13 【AI大模型前沿】Stable Virtual Camera:Stability AI 推出的2D图像转3D视频模型,一键生成沉浸式视频 14 【AI大模型前沿】阿里 Qwen3 震撼开源,模型新王诞生,开启全球大模型新纪元 15 【AI大模型前沿】InternVL:OpenGVLab开源多模态大模型,解锁视觉问答与多语言翻译的全能应用图鉴 16 【AI大模型前沿】Fin-R1:上海财经大学联合财跃星辰推出的金融推理大模型,凭7B参数拿下评测第二,离行业第一仅差3分 17 【AI大模型前沿】Med-R1:基于强化学习的医疗视觉语言模型,突破跨模态医学推理的普适性 18 【AI大模型前沿】Baichuan-M1-14B:百川智能推出专为医疗优化的开源大语言模型 19 【AI大模型前沿】一键生成宫崎骏动画风,EasyControl Ghibli 让照片秒变吉卜力艺术品 20 【AI大模型前沿】TxGemma:谷歌推出的高效药物研发大模型,临床试验预测准确率超90% 21 【AI大模型前沿】F5R-TTS:腾讯推出TTS领域的新王者,又快又准又自然,零样本语音克隆新高度 22 【AI大模型前沿】MiniMind-V:低成本打造超小多模态视觉语言模型(仅需1.3元人民币和1小时) 23 【AI大模型前沿】MoCha:端到端对话角色视频生成模型、电影级对话角色合成黑科技、重新定义动画创作 24 【AI大模型前沿】HuatuoGPT-o1-7B:中英文双语医学推理,打破语言障碍的AI大模型 25 【AI大模型前沿】MedReason:大规模医学推理数据集、借用知识图谱将大模型打造成“医术”专家 26 【AI大模型前沿】SkyReels-V2:昆仑万维开源的无限时长电影生成模型,开启视频生成新纪元 27 【AI大模型前沿】Dia:Nari Labs开源16亿参数TTS模型,只需文本输入,生成媲美真人对话的语音 28 【AI大模型前沿】阿里巴巴开源LHM:单图生成可动画3D人体模型,开启3D建模新纪元 29 【AI大模型前沿】TinyLLaVA-Video-R1:北航开源视频推理模型、小尺寸大智慧、参数少一半,性能翻一番 30 【AI大模型前沿】TTRL:测试时强化学习,开启无标签数据推理新篇章 31 【AI大模型前沿】Aero-1-Audio:Qwen2.5架构加持,轻量级音频模型天花板、吊打Whisper 32 【AI大模型前沿】DianJin-R1:阿里云通义点金联合苏大推出的金融推理增强大模型 33 【AI大模型前沿】VITA-Audio:腾讯开源的高效语音交互多模态大语言模型 34 【AI大模型前沿】Multiverse:全球首个AI多人游戏世界模型,低成本高效率新突破 35 【AI大模型前沿】Seed1.5-VL:多模态理解的效率革新者,以小博大,性能惊艳 36 【AI大模型前沿】ViLAMP:蚂蚁集团和人民大学联手打造的长视频理解利器,单卡处理3小时视频 37 【AI大模型前沿】Muyan-TTS:开源零样本语音合成模型、0.33秒极速生成播客级语音、小白也能玩转AI配音 38 【AI大模型前沿】Dolphin:字节跳动开源文档解析大模型,轻量级、高效、多格式,开启文档处理新时代 39 【AI大模型前沿】ChatTS:字节跳动联合清华大学开源、多模态时序大模型助力时序数据对话与推理 40 【AI大模型前沿】Index-AniSora:B站开源的动漫视频生成模型,助力高效创作 41 【AI大模型前沿】RelightVid:上海 AI Lab联合复旦等高校推出的视频重照明模型 42 【AI大模型前沿】BAGEL:字节跳动开源、多模态大模型的创新突破与实践指南 43 【AI大模型前沿】Matrix-Game:昆仑万维开源大模型,一键生成你的专属虚拟世界 44 【AI大模型前沿】Pixel Reasoner:滑铁卢联合港科大等高校推出的视觉语言模型,助力视觉推理新突破 45 【AI大模型前沿】CoGenAV:多模态语音表征新范式、通义联合深技大打造、噪声环境WER降低70%+ 46 【AI大模型前沿】Ming-Lite-Omni:蚂蚁集团开源的统一多模态大模型的创新实践 47 【AI大模型前沿】DeepEyes:小红书与西安交大联合打造的多模态深度思考模型

目录

  • 系列篇章💥
  • 前言
  • 一、项目概述
  • 二、技术原理
    • (一)端到端强化学习
    • (二)交错多模态思维链(iMCoT)
    • (三)工具使用导向的数据选择
    • (四)动态工具调用行为
  • 三、主要功能
    • (一)用图思考
    • (二)视觉搜索
    • (三)幻觉缓解
    • (四)多模态推理
    • (五)动态工具调用
  • 四、基准测试
    • (一)高分辨率基准测试
    • (二)视觉定位与幻觉缓解
    • (三)多模态推理任务
  • 五、应用场景
    • (一)教育辅导
    • (二)医疗影像
    • (三)智能交通
    • (四)安防监控
    • (五)工业制造
  • 六、快速使用
    • (一)环境搭建
    • (二)启动训练
    • (三)使用自定义工具
  • 七、结语
  • 八、项目地址

前言

在人工智能领域,多模态模型的发展正逐渐改变我们对智能系统的认知。小红书与西安交通大学联合推出的DeepEyes项目,正是这一领域的前沿探索成果。它通过强化学习实现了“用图思考”的能力,无需依赖监督微调,为视觉推理和多模态任务提供了新的解决方案。
【AI大模型前沿】DeepEyes:小红书与西安交大联合打造的多模态深度思考模型

一、项目概述

DeepEyes是一个基于端到端强化学习训练的多模态深度思考模型,由小红书团队和西安交通大学联合开发。它通过动态调用图像工具(如裁剪和缩放)增强对细节的感知与理解,实现了视觉与文本推理的无缝融合。该模型在高分辨率图像的视觉搜索任务中表现出色,准确率高达90.1%,并显著减少了幻觉现象,提升了模型的可靠性和泛化能力。
【AI大模型前沿】DeepEyes:小红书与西安交大联合打造的多模态深度思考模型

二、技术原理

(一)端到端强化学习

DeepEyes采用端到端强化学习(RL)进行训练,无需冷启动监督微调(SFT)。模型通过奖励信号直接优化行为,自主学习如何在推理过程中有效利用图像信息。奖励函数包括准确率奖励、格式奖励和条件工具奖励,确保模型在正确回答问题的同时高效使用图像工具。

(二)交错多模态思维链(iMCoT)

DeepEyes引入交错多模态思维链(Interleaved Multimodal Chain-of-Thought, iMCoT),支持模型在推理过程中动态交替使用视觉和文本信息。模型在每一步推理中决定是否需要进一步的视觉信息,基于生成边界框坐标裁剪图像中的关键区域,将区域重新输入模型,作为新的视觉证据。

(三)工具使用导向的数据选择

为激励模型的工具使用行为,项目采用工具使用导向的数据选择机制。训练数据经过精心筛选,确保样本有效促进模型的工具调用能力。数据集包括高分辨率图像、图表数据和推理数据,覆盖多种任务类型,提升模型的泛化能力。

(四)动态工具调用行为

在训练过程中,模型的工具调用行为经历三个阶段:初始探索、积极使用和高效利用。模型从最初的随机尝试逐渐发展到高效、准确地调用工具,最终实现与人类类似的视觉推理过程。

【AI大模型前沿】DeepEyes:小红书与西安交大联合打造的多模态深度思考模型

三、主要功能

(一)用图思考

DeepEyes能够直接将图像融入推理过程,不仅“看图”,还能“用图思考”。它在推理过程中动态调用图像信息,增强对细节的感知与理解。

(二)视觉搜索

在高分辨率图像中快速定位小物体或模糊区域,基于裁剪和缩放工具进行详细分析,显著提升搜索准确率。

(三)幻觉缓解

通过聚焦图像细节,减少模型在生成回答时可能出现的幻觉现象,提升回答的准确性和可靠性。

(四)多模态推理

在视觉和文本推理之间实现无缝融合,提升模型在复杂任务中的推理能力。

(五)动态工具调用

模型能自主决定何时调用图像工具,如裁剪、缩放等,无需外部工具支持,实现更高效、更准确的推理。

四、基准测试

(一)高分辨率基准测试

DeepEyes在高分辨率基准测试中表现出色。在V* Bench上,7B模型的准确率达到了90.1%,相比其他开源模型有显著提升。在HR-Bench-4K和HR-Bench-8K上,准确率分别提升了6.3%和7.3%。
【AI大模型前沿】DeepEyes:小红书与西安交大联合打造的多模态深度思考模型

(二)视觉定位与幻觉缓解

在视觉定位和幻觉缓解任务中,DeepEyes也展现了强大的能力。例如,在refCOCO、refCOCO+和refCOCOg等基准测试中,DeepEyes的准确率分别达到了89.8%、83.6%和86.7%,显著优于其他开源模型。

【AI大模型前沿】DeepEyes:小红书与西安交大联合打造的多模态深度思考模型

(三)多模态推理任务

在多模态推理任务中,DeepEyes在Math Vista、Math Verse、Math Vision等多个基准测试中均取得了优异的成绩,准确率分别达到了70.1%、47.3%和26.6%,显示出其强大的推理能力。
【AI大模型前沿】DeepEyes:小红书与西安交大联合打造的多模态深度思考模型

五、应用场景

(一)教育辅导

在教育领域,DeepEyes可以精准解析试卷中的图表和几何图形,将复杂的图形信息转化为详细的解题步骤,为学生们提供清晰、易懂的指导。学生们通过它的帮助,能够更高效地理解知识点,提升学习效率,让学习变得更加轻松愉快。

(二)医疗影像

对于医疗行业而言,DeepEyes能够对医学影像进行细致入微的分析,识别影像中的各种特征和病变信息,辅助医生做出更准确的诊断。在这个过程中,它大大提高了诊断的准确性和效率,为患者的健康保驾护航,节省了宝贵的医疗时间。

(三)智能交通

在智能交通系统中,DeepEyes可以实时分析路况图像,准确识别道路上的各种情况,如车辆行驶状态、交通标志等。基于这些信息,它能辅助自动驾驶系统做出更准确的决策,避免交通事故的发生,提升交通安全水平,让出行更加安全可靠。

(四)安防监控

安防监控工作中,DeepEyes可以分析监控视频,凭借强大的识别能力识别视频中的异常行为,如盗窃、暴力等。一旦发现异常,它会及时发出警报,增强公共安全和犯罪预防能力,让人们的生活环境更加安全稳定。

(五)工业制造

在工业制造的生产线上,DeepEyes可以对产品进行质量检测,精准识别产品中的缺陷和问题,同时还能对设备进行故障预测,提前发现潜在的故障隐患。通过这些功能,它提高了生产效率,降低了维护成本,为工业制造的高效运行提供了有力保障。

六、快速使用

(一)环境搭建

  1. 安装依赖:
 pip install -e .bash scripts/install_deepeyes.sh
  1. 准备数据集:可以从Hugging Face下载训练数据。

(二)启动训练

  1. 启动Qwen-2.5-72B-Instruct服务:
 vllm serve /path/to/your/local/filedir \\ --port 18901 \\ --gpu-memory-utilization 0.8 \\ --max-model-len 32768 \\ --tensor-parallel-size 8 \\ --served-model-name \"judge\" \\ --trust-remote-code \\ --disable-log-requests
  1. 配置训练环境:
 wandb login export LLM_AS_A_JUDGE_BASE=\"http://your.vllm.machine.ip:18901/v1\" export WORLD_SIZE=8
  1. 启动训练脚本:
 bash examples/agent/final_merged_v1v8_thinklite.sh

(三)使用自定义工具

  1. 创建自定义工具类,继承ToolBase,并实现executereset方法。
  2. verl/workers/agent/__init__.py中导入自定义工具。

七、结语

DeepEyes作为小红书与西安交通大学联合推出的多模态深度思考模型,通过强化学习实现了“用图思考”的能力,显著提升了视觉推理和多模态任务的性能。它不仅在高分辨率图像的视觉搜索任务中表现出色,还在幻觉缓解和多模态推理任务中展现了强大的能力。DeepEyes的开源为研究人员和开发者提供了一个强大的工具,可以应用于教育、医疗、交通等多个领域。

八、项目地址

  • 项目官网:https://visual-agent.github.io/
  • GitHub仓库:https://github.com/Visual-Agent/DeepEyes
  • HuggingFace模型库:https://huggingface.co/ChenShawn/DeepEyes
  • arXiv技术论文:https://arxiv.org/pdf/2505.14362

【AI大模型前沿】DeepEyes:小红书与西安交大联合打造的多模态深度思考模型

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南AI大模型探索之路(零基础入门)AI大模型预训练微调进阶AI大模型开源精选实践AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑

😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!