AI智算-K8s+vLLM & Ray:DeepSeek-r1 671B 满血版分布式推理部署实践_ray deepseek 分布式
K8s + vLLM & Ray:DeepSeek-r1 671B 满血版分布式推理部署实践
前言
自从上次发布 【AI-智算】K8s+SGLang实战:DeepSeek-r1:671b满血版多机多卡私有化部署全攻略] 文章后,本次将演示另一个主流推理引擎工具——vLLM,结合K8s、LWS、Ray、Volcano等技术栈,部署DeepSeek-r1 671b 满血版分布式推理集群,并对比其与SGLang
推理引擎的性能表现。
选型vLLM推理引擎的理由:
环境准备
1. 模型下载
本次阿程部署的是企业级满血版的Deepseek-R1 671B。
方式一:通过
HuggingFace
下载
仓库地址:https://huggingface.co/deepseek-ai/DeepSeek-R1
方式二:通过
ModelScope
下载 (阿程通过此方式下载)
仓库地址:https://modelscope.cn/models/deepseek-ai/DeepSeek-R1/files