【AI大模型前沿】阿里开源Lingshu：一个模型搞定12种医学影像诊断

技术文档

系列篇章💥

No. 文章 1 【AI大模型前沿】深度剖析瑞智病理大模型 RuiPath：如何革新癌症病理诊断技术 2 【AI大模型前沿】清华大学 CLAMP-3：多模态技术引领音乐检索新潮流 3 【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破 4 【AI大模型前沿】阿里 QwQ-32B：320 亿参数推理大模型，性能比肩 DeepSeek-R1，免费开源 5 【AI大模型前沿】TRELLIS：微软、清华、中科大联合推出的高质量3D生成模型 6 【AI大模型前沿】Migician：清华、北大、华科联手打造的多图像定位大模型，一键解决安防监控与自动驾驶难题 7 【AI大模型前沿】DeepSeek-V3-0324：AI 模型的全面升级与技术突破 8 【AI大模型前沿】BioMedGPT-R1：清华联合水木分子打造的多模态生物医药大模型，开启智能研发新纪元 9 【AI大模型前沿】DiffRhythm：西北工业大学打造的10秒铸就完整歌曲的AI歌曲生成模型 10 【AI大模型前沿】R1-Omni：阿里开源全模态情感识别与强化学习的创新结合 11 【AI大模型前沿】Qwen2.5-Omni：阿里巴巴的多模态大模型，实现看、听、说、写一体化 12 【AI大模型前沿】SmolDocling：256M参数的轻量级多模态文档处理利器，10分钟搞定百页PDF 13 【AI大模型前沿】Stable Virtual Camera：Stability AI 推出的2D图像转3D视频模型，一键生成沉浸式视频 14 【AI大模型前沿】阿里 Qwen3 震撼开源，模型新王诞生，开启全球大模型新纪元 15 【AI大模型前沿】InternVL：OpenGVLab开源多模态大模型，解锁视觉问答与多语言翻译的全能应用图鉴 16 【AI大模型前沿】Fin-R1：上海财经大学联合财跃星辰推出的金融推理大模型，凭7B参数拿下评测第二，离行业第一仅差3分 17 【AI大模型前沿】Med-R1：基于强化学习的医疗视觉语言模型，突破跨模态医学推理的普适性 18 【AI大模型前沿】Baichuan-M1-14B：百川智能推出专为医疗优化的开源大语言模型 19 【AI大模型前沿】一键生成宫崎骏动画风，EasyControl Ghibli 让照片秒变吉卜力艺术品 20 【AI大模型前沿】TxGemma：谷歌推出的高效药物研发大模型，临床试验预测准确率超90% 21 【AI大模型前沿】F5R-TTS：腾讯推出TTS领域的新王者，又快又准又自然，零样本语音克隆新高度 22 【AI大模型前沿】MiniMind-V：低成本打造超小多模态视觉语言模型（仅需1.3元人民币和1小时） 23 【AI大模型前沿】MoCha：端到端对话角色视频生成模型、电影级对话角色合成黑科技、重新定义动画创作 24 【AI大模型前沿】HuatuoGPT-o1-7B：中英文双语医学推理，打破语言障碍的AI大模型 25 【AI大模型前沿】MedReason：大规模医学推理数据集、借用知识图谱将大模型打造成“医术”专家 26 【AI大模型前沿】SkyReels-V2：昆仑万维开源的无限时长电影生成模型，开启视频生成新纪元 27 【AI大模型前沿】Dia：Nari Labs开源16亿参数TTS模型，只需文本输入，生成媲美真人对话的语音 28 【AI大模型前沿】阿里巴巴开源LHM：单图生成可动画3D人体模型，开启3D建模新纪元 29 【AI大模型前沿】TinyLLaVA-Video-R1：北航开源视频推理模型、小尺寸大智慧、参数少一半，性能翻一番 30 【AI大模型前沿】TTRL：测试时强化学习，开启无标签数据推理新篇章 31 【AI大模型前沿】Aero-1-Audio：Qwen2.5架构加持，轻量级音频模型天花板、吊打Whisper 32 【AI大模型前沿】DianJin-R1：阿里云通义点金联合苏大推出的金融推理增强大模型 33 【AI大模型前沿】VITA-Audio：腾讯开源的高效语音交互多模态大语言模型 34 【AI大模型前沿】Multiverse：全球首个AI多人游戏世界模型，低成本高效率新突破 35 【AI大模型前沿】Seed1.5-VL：多模态理解的效率革新者，以小博大，性能惊艳 36 【AI大模型前沿】ViLAMP：蚂蚁集团和人民大学联手打造的长视频理解利器，单卡处理3小时视频 37 【AI大模型前沿】Muyan-TTS：开源零样本语音合成模型、0.33秒极速生成播客级语音、小白也能玩转AI配音 38 【AI大模型前沿】Dolphin：字节跳动开源文档解析大模型，轻量级、高效、多格式，开启文档处理新时代 39 【AI大模型前沿】ChatTS：字节跳动联合清华大学开源、多模态时序大模型助力时序数据对话与推理 40 【AI大模型前沿】Index-AniSora：B站开源的动漫视频生成模型，助力高效创作 41 【AI大模型前沿】RelightVid：上海 AI Lab联合复旦等高校推出的视频重照明模型 42 【AI大模型前沿】BAGEL：字节跳动开源、多模态大模型的创新突破与实践指南 43 【AI大模型前沿】Matrix-Game：昆仑万维开源大模型，一键生成你的专属虚拟世界 44 【AI大模型前沿】Pixel Reasoner：滑铁卢联合港科大等高校推出的视觉语言模型，助力视觉推理新突破 45 【AI大模型前沿】CoGenAV：多模态语音表征新范式、通义联合深技大打造、噪声环境WER降低70%+ 46 【AI大模型前沿】Ming-Lite-Omni：蚂蚁集团开源的统一多模态大模型的创新实践 47 【AI大模型前沿】DeepEyes：小红书与西安交大联合打造的多模态深度思考模型 48 【AI大模型前沿】OmniAudio：阿里通义实验室的空间音频生成模型，开启沉浸式体验新时代 49 【AI大模型前沿】MiniCPM 4.0：面壁智能开源的极致高效端侧大模型（小版本、低消耗、220倍极致提速） 50 【AI大模型前沿】SmolVLA：Hugging Face开源的轻量级视觉-语言-行动机器人模型 51 【AI大模型前沿】Time-R1：伊利诺伊大学香槟分校开源的时间推理语言模型、实现过去→未来全链路推演 52 【AI大模型前沿】MonkeyOCR：基于结构-识别-关系三元组范式的文档解析模型 53 【AI大模型前沿】GLM-4.5：智谱打造的开源SOTA模型，推理、代码与智能体能力融合先锋 54 【AI大模型前沿】百度飞桨PaddleOCR 3.0开源发布，支持多语言、手写体识别，赋能智能文档处理 55 【AI大模型前沿】Stream-Omni：多模态交互的“黄金三角”——视觉、语音、文本的完美融合 56 【AI大模型前沿】Vui：Fluxions-AI开源的轻量级语音对话模型，开启自然语音交互新时代 57 【AI大模型前沿】腾讯AI Lab开源的SongGeneration：音乐生成大模型的技术探索与实践 58 【AI大模型前沿】Osmosis-Structure-0.6B：小型语言模型在结构化信息提取中的突破 59 【AI大模型前沿】Kwai Keye-VL：颠覆认知！国产多模态大模型突然发布，视频理解能力堪比人类 60 【AI大模型前沿】Nanonets-OCR-s：从学术论文到法律合同，智能识别公式、签名、表格与图像 61 【AI大模型前沿】OmniAvatar：浙大联合阿里打造的音频驱动全身视频生成模型 62 【AI大模型前沿】DAMO GRAPE：阿里达摩院与浙江肿瘤医院联合打造的早期胃癌识别AI模型 63 【AI大模型前沿】阿里开源Lingshu：一个模型搞定12种医学影像诊断

系列篇章💥
前言
项目概述
一、技术原理
- （一）多模态数据融合
- （二）多阶段训练范式
- （三）数据合成与增强
二、主要功能
- （一）多模态医疗问答
- （二）医疗报告生成
- （三）医疗知识推理
三、应用场景
- （一）辅助诊断
- （二）医疗教育与培训
- （三）医疗研究与数据分析
四、性能评估
- （一）多模态医疗问答性能
- （二）医疗文本问答性能
- （三）医疗报告生成性能
五、快速使用
- （一）环境准备
- （二）模型下载
- （三）模型推理
结语
项目地址

前言

在人工智能领域，医疗大模型正成为推动医疗行业智能化转型的关键力量。阿里巴巴达摩院开源的Lingshu项目，作为首个支持超过12种医学影像模态的多模态大模型，为医疗AI领域带来了新的突破。本文将深入解析Lingshu的技术原理、功能特点、应用场景及性能表现，为技术探索者提供全面的参考。
【AI大模型前沿】阿里开源Lingshu：一个模型搞定12种医学影像诊断

项目概述

Lingshu是阿里巴巴达摩院开源的通用多模态医疗大模型，支持超过12种医学影像模态，包括X光、CT、MRI、超声、病理等，并在医疗多模态/文本问答和报告生成任务上达到SOTA性能，为医疗AI领域提供了强大的技术支撑。
【AI大模型前沿】阿里开源Lingshu：一个模型搞定12种医学影像诊断

一、技术原理

（一）多模态数据融合

Lingshu采用了先进的多模态数据融合技术，将医学影像与文本数据相结合，通过深度学习模型实现跨模态的信息理解与推理。模型能够同时处理图像和文本输入，提取关键特征并进行综合分析，从而更准确地理解医疗场景中的复杂信息。

（二）多阶段训练范式

Lingshu的训练过程分为多个阶段，包括浅层对齐、深层对齐、指令调优和医疗导向的强化学习。这种分阶段训练策略使模型能够逐步吸收医疗知识，提升任务解决能力。在浅层对齐阶段，模型学习基本的视觉-语言对应关系；深层对齐阶段则进一步整合复杂的医疗知识；指令调优阶段优化模型对医疗指令的理解和执行；最后，通过强化学习提升模型的医疗推理能力。

（三）数据合成与增强

为了丰富训练数据，Lingshu团队开发了数据合成管道，生成高质量的医学图像描述、视觉问答样本和推理链数据。这些数据不仅提高了模型对医学影像的理解能力，还增强了其在实际医疗任务中的泛化性能。

二、主要功能

（一）多模态医疗问答

Lingshu能够处理多种医学影像模态的视觉问答任务，如识别病变、判断疾病类型等。模型在多个医疗VQA基准测试中表现优异，准确率显著高于其他开源模型，甚至在某些任务上超越了GPT-4.1和Claude Sonnet 4等专有模型。
【AI大模型前沿】阿里开源Lingshu：一个模型搞定12种医学影像诊断

（二）医疗报告生成

Lingshu具备强大的医疗报告生成能力，能够根据医学影像自动生成详细的诊断报告。在MIMIC-CXR、CheXpert Plus和IU-Xray等数据集上，Lingshu生成的报告在语义和临床相关性方面均达到了较高水平，为医生提供了有力的辅助诊断工具。
【AI大模型前沿】阿里开源Lingshu：一个模型搞定12种医学影像诊断

（三）医疗知识推理

Lingshu不仅能够识别医学影像中的异常，还能进行深入的医学知识推理。例如，在解释神经递质合成与释放过程时，模型能够准确识别突触类型，并结合相关医学知识进行详细解释，展现出对复杂医学概念的深刻理解。
【AI大模型前沿】阿里开源Lingshu：一个模型搞定12种医学影像诊断

三、应用场景

（一）辅助诊断

Lingshu可广泛应用于辅助诊断场景，帮助医生快速识别医学影像中的病变，提高诊断效率和准确性。在多模态医疗问答任务中，模型能够为医生提供即时的诊断建议，辅助医生做出更准确的判断。

（二）医疗教育与培训

Lingshu生成的详细医学影像描述和推理过程，可用于医疗教育和培训。医学生和医生可以通过与模型互动，学习如何解读医学影像，提升专业技能。

（三）医疗研究与数据分析

Lingshu能够处理大规模的医学影像数据，为医疗研究提供支持。研究人员可以利用模型对医学影像进行自动标注和分析，加速研究进程，发现潜在的医学规律。

四、性能评估

（一）多模态医疗问答性能

在多个医疗多模态问答基准测试中，Lingshu-7B和Lingshu-32B均取得了优异的成绩。Lingshu-7B在SLAKE、PathVQA、PMC-VQA等数据集上排名第一，平均准确率达到61.8%；Lingshu-32B的平均准确率更是达到了66.6%，在所有基准测试中均排名第一，超越了其他开源模型和专有模型。
【AI大模型前沿】阿里开源Lingshu：一个模型搞定12种医学影像诊断

（二）医疗文本问答性能

Lingshu在医疗文本问答任务中也表现出色。Lingshu-7B在PubMedQA、MedQA-USMLE等数据集上取得了最高分，平均准确率为52.8%；Lingshu-32B的平均准确率达到了61.8%，在多个数据集上排名第一，展现了强大的医疗文本理解能力。
【AI大模型前沿】阿里开源Lingshu：一个模型搞定12种医学影像诊断

（三）医疗报告生成性能

在医疗报告生成任务中，Lingshu-7B和Lingshu-32B在MIMIC-CXR、CheXpert Plus和IU-Xray数据集上均取得了领先的性能。Lingshu-32B在IU-Xray数据集上的ROUGE-L、CIDEr等指标上表现尤为突出，生成的报告在语义和临床相关性方面均达到了较高水平。
【AI大模型前沿】阿里开源Lingshu：一个模型搞定12种医学影像诊断

五、快速使用

（一）环境准备

安装Python环境，推荐使用Python 3.8及以上版本。
安装必要的依赖库，如transformers、torch等。

（二）模型下载

你可以从HuggingFace模型库下载Lingsh模型。可以选择Lingshu-7B和Lingshu-32B；下载完成后，将模型文件保存到本地目录中。

【AI大模型前沿】阿里开源Lingshu：一个模型搞定12种医学影像诊断

（三）模型推理

使用Transformers库加载下载的Lingshu模型，并进行推理使用。以下是一个简单的代码示例：

# 导入必要的库和模块from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessorfrom qwen_vl_utils import process_vision_info# 加载预训练的Lingshu模型# 推荐使用flash_attention_2以加速推理并节省内存，特别是在处理多图像和视频场景时model = Qwen2_5_VLForConditionalGeneration.from_pretrained( \"lingshu-medical-mllm/Lingshu-7B\", # 模型名称 torch_dtype=torch.bfloat16, # 使用bfloat16数据类型以节省内存 attn_implementation=\"flash_attention_2\", # 启用flash_attention_2 device_map=\"auto\", # 自动分配模型到可用设备)# 加载与模型配套的处理器processor = AutoProcessor.from_pretrained(\"lingshu-medical-mllm/Lingshu-7B\")# 定义输入消息，包含用户角色、图像和文本内容messages = [ { \"role\": \"user\", # 用户角色 \"content\": [ { \"type\": \"image\", # 内容类型为图像 \"image\": \"example.png\", # 图像文件路径 }, {\"type\": \"text\", \"text\": \"Describe this image.\"}, # 用户提问的文本内容 ], }]# 准备推理所需的输入数据# 使用处理器将消息转换为模型可接受的格式text = processor.apply_chat_template( messages, tokenize=False, add_generation_prompt=True)# 处理视觉信息，提取图像和视频输入image_inputs, video_inputs = process_vision_info(messages)# 将文本、图像和视频输入打包为模型输入inputs = processor( text=[text], images=image_inputs, videos=video_inputs, padding=True, # 对输入进行填充以保持一致性 return_tensors=\"pt\", # 返回PyTorch张量)# 将输入数据移动到模型所在的设备上inputs = inputs.to(model.device)# 执行推理，生成输出generated_ids = model.generate(**inputs, max_new_tokens=128) # 生成最多128个新token# 去除输入部分的token，仅保留生成的tokengenerated_ids_trimmed = [ out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]# 将生成的token解码为文本output_text = processor.batch_decode( generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False)# 打印生成的文本输出print(output_text)

结语

Lingshu作为阿里巴巴达摩院开源的多模态医疗大模型，凭借其强大的多模态数据处理能力和优异的性能表现，为医疗AI领域带来了新的发展机遇。无论是辅助诊断、医疗教育还是医疗研究，Lingshu都展现出了巨大的应用潜力。随着医疗AI技术的不断进步，Lingshu有望在未来的医疗场景中发挥更加重要的作用，助力医疗行业实现智能化转型。

项目地址

项目官网：https://alibaba-damo-academy.github.io/lingshu/
模型下载：https://huggingface.co/lingshu-medical-mllm/Lingshu-7B
技术报告：https://arxiv.org/pdf/2506.07044

【AI大模型前沿】阿里开源Lingshu：一个模型搞定12种医学影像诊断

🎯🔖更多专栏系列文章：AI大模型提示工程完全指南、AI大模型探索之路（零基础入门）、AI大模型预训练微调进阶、AI大模型开源精选实践、AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑

😎 作者介绍：资深程序老猿，从业10年+、互联网系统架构师，目前专注于AIGC的探索（CSDN博客之星|AIGC领域优质创作者）
📖专属社群：欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码，回复‘入群’ 即刻上车，获取邀请链接。
💘领取三大专属福利：1️⃣免费赠送AI+编程📚500本，2️⃣AI技术教程副业资料1套，3️⃣DeepSeek资料教程1套🔥（限前500人）
如果文章内容对您有所触动，别忘了点赞、⭐关注，收藏！加入我们，一起携手同行AI的探索之旅，开启智能时代的大门！

【AI大模型前沿】阿里开源Lingshu：一个模型搞定12种医学影像诊断

系列篇章💥

目录

前言

项目概述