ollama PK vLLM大模型部署工具链怎么选 并发能力考虑
ollama 和vLLM 区别
先说结论:
个人电脑推荐 ollama
服务器 推荐vLLM
Ollama vs vLLM:并发性能深度评测
https://juejin.cn/post/7472282490057752613
vLLM的响应时间中位数:
并发数 1:7800 ms
并发数 5:8000 ms
并发数 10:9400 ms
并发数 20:9900 ms
Ollama的响应时间中位数:
并发数 1:6300 ms
并发数 5:8600 ms
并发数 10:11000 ms
并发数 20:16000 ms
结论摘要:
在并发性能测试中,vLLM 和 Ollama 均表现出较高的稳定性(无失败请求),但在性能表现上存在显著差异:
1、低并发场景(并发数 1 和 5):
Ollama 的平均响应时间()和响应时间中位数显著优于 vLLM。
vLLM 的吞吐量略高于 Ollama。
2、高并发场景(并发数 10 和 20):
vLLM 的平均响应时间和响应时间中位数显著优于 Ollama。
vLLM 的吞吐量显著高于 Ollama。
vLLM 的最大响应时间在高并发场景下更稳定,表明其在高负载下的性能表现更优。
结论:vLLM 在高并发场景下表现更优,适合需要处理大规模并发请求的应用场景。而 Ollama 在低并发场景下具有较低的响应时间,适合对响应速度要求较高的低负载场景。
参考资料:
Ollama vs vLLM:并发性能深度评测 https://juejin.cn/post/7472282490057752613