ollama PK vLLM大模型部署工具链怎么选并发能力考虑

技术文档

个人电脑推荐 ollama
服务器推荐vLLM

https://juejin.cn/post/7472282490057752613
vLLM的响应时间中位数：

并发数 1：7800 ms

并发数 5：8000 ms

并发数 10：9400 ms

并发数 20：9900 ms

Ollama的响应时间中位数：

并发数 1：6300 ms

并发数 5：8600 ms

并发数 10：11000 ms

并发数 20：16000 ms

结论摘要：
在并发性能测试中，vLLM 和 Ollama 均表现出较高的稳定性（无失败请求），但在性能表现上存在显著差异：
1、低并发场景（并发数 1 和 5）：

Ollama 的平均响应时间（）和响应时间中位数显著优于 vLLM。

vLLM 的吞吐量略高于 Ollama。

2、高并发场景（并发数 10 和 20）：

vLLM 的平均响应时间和响应时间中位数显著优于 Ollama。
vLLM 的吞吐量显著高于 Ollama。
vLLM 的最大响应时间在高并发场景下更稳定，表明其在高负载下的性能表现更优。

结论：vLLM 在高并发场景下表现更优，适合需要处理大规模并发请求的应用场景。而 Ollama 在低并发场景下具有较低的响应时间，适合对响应速度要求较高的低负载场景。

参考资料：
Ollama vs vLLM：并发性能深度评测 https://juejin.cn/post/7472282490057752613

DeepSeek全套部署资料免费下载