> 技术文档 > 开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现推理加速的正确姿势(一)_vllm qwen2.5

开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现推理加速的正确姿势(一)_vllm qwen2.5


一、前言

目前,大语言模型已升级至Qwen2.5版本。无论是语言模型还是多模态模型,均在大规模多语言和多模态数据上进行预训练,并通过高质量数据进行后期微调以贴近人类偏好。在本篇学习中,将集成vllm实现模型推理加速,现在,我们赶紧跟上技术发展的脚步,去体验一下新版本模型的推理质量。

QWen2系列与vLLM集成:开源模型应用落地-Qwen2-7B-Instruct与vllm实现推理加速的正确姿势(十)


二、术语

2.1. vLLM

vLLM是一个开源的大模型推理加速框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFace Transformers高14-24倍的吞吐量。

2.1. Qwen2.5

Qwen2.5系列模型都在最新的大规模数据集上进行了预训练,该数据集包含多达 18T tokens。相较于 Qwen2,Qwen2.5 获得了显著更多的知识(MMLU:85+),并在编程能力(HumanEval 8