开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现离线推理-Tools助力（二）_vllm tools

技术文档

一、前言

在大语言模型推理中使用工具可以增强模型的能力和准确性，使其能够执行特定任务、获取实时信息、提高效率并降低计算负担，同时改善用户交互体验和灵活性，从而显著提升模型的实用性和性能。

vLLM是一个开源的大模型推理加速框架，通过PagedAttention高效地管理attention中缓存的张量，实现了比HuggingFace Transformers高14-24倍的吞吐量。

Qwen2.5系列模型都在最新的大规模数据集上进行了预训练，该数据集包含多达 18T tokens。相较于 Qwen2，Qwen2.5 获得了显著更多的知识（MMLU：85+），并在编程能力（HumanEval 85+）和数学能力（MATH 80+）方面有了大幅提升。

此外，新模型在指令执行、生成长文本（超过 8K 标记）、理解结构化数据（例如表格）以及生成结构化输出特别是 JSON 方面取得了显著改进。 Qwen2.5 模型总体上对各种system prompt更具适应性，增强了角色扮演实现和聊天机器人的条件设置功能。

与 Qwen2