> 技术文档 > AI智算-K8s+vLLM & Ray：DeepSeek-r1 671B 满血版分布式推理部署实践_ray deepseek 分布式

AI智算-K8s+vLLM & Ray：DeepSeek-r1 671B 满血版分布式推理部署实践_ray deepseek 分布式

技术文档

K8s + vLLM & Ray：DeepSeek-r1 671B 满血版分布式推理部署实践

- 前言
- 环境准备
- - 1. 模型下载
  - 2. 软硬件环境介绍
- 正式部署
- - 1. 模型切分
  - 2. 整体部署架构
  - 3. 安装 LeaderWorkerSet
  - 4. 通过 LWS 部署DeepSeek-r1模型
  - 5. 查看显存使用率
  - 6. 服务对外暴露
  - 7. 测试调用API
  - - 7.1 通过 curl
    - 7.2 通过 OpenWebUI
- 性能压测
- - vLLM引擎
  - - vllm-openai:v0.8.2
    - vllm-openai:v0.8.1
  - SGLang引擎
  - - sglang:v0.4.4.post3-cu125
- 结论与建议
- - 建议：
- 参考资料

前言

自从上次发布【AI-智算】K8s+SGLang实战：DeepSeek-r1:671b满血版多机多卡私有化部署全攻略] 文章后，本次将演示另一个主流推理引擎工具——vLLM，结合K8s、LWS、Ray、Volcano等技术栈，部署DeepSeek-r1 671b 满血版分布式推理集群，并对比其与SGLang推理引擎的性能表现。

选型vLLM推理引擎的理由：
AI智算-K8s+vLLM & Ray：DeepSeek-r1 671B 满血版分布式推理部署实践_ray deepseek 分布式

环境准备

1. 模型下载

本次阿程部署的是企业级满血版的Deepseek-R1 671B。

方式一：通过HuggingFace 下载
仓库地址：https://huggingface.co/deepseek-ai/DeepSeek-R1

方式二：通过 ModelScope 下载（阿程通过此方式下载）
仓库地址：https://modelscope.cn/models/deepseek-ai/DeepSeek-R1/files