> 技术文档 > AI智算-K8s+vLLM & Ray:DeepSeek-r1 671B 满血版分布式推理部署实践_ray deepseek 分布式

AI智算-K8s+vLLM & Ray:DeepSeek-r1 671B 满血版分布式推理部署实践_ray deepseek 分布式


K8s + vLLM & Ray:DeepSeek-r1 671B 满血版分布式推理部署实践

    • 前言
    • 环境准备
      • 1. 模型下载
      • 2. 软硬件环境介绍
    • 正式部署
      • 1. 模型切分
      • 2. 整体部署架构
      • 3. 安装 LeaderWorkerSet
      • 4. 通过 LWS 部署DeepSeek-r1模型
      • 5. 查看显存使用率
      • 6. 服务对外暴露
      • 7. 测试调用API
        • 7.1 通过 curl
        • 7.2 通过 OpenWebUI
    • 性能压测
      • vLLM引擎
        • vllm-openai:v0.8.2
        • vllm-openai:v0.8.1
      • SGLang引擎
        • sglang:v0.4.4.post3-cu125
    • 结论与建议
      • 建议:
    • 参考资料

前言

自从上次发布 【AI-智算】K8s+SGLang实战:DeepSeek-r1:671b满血版多机多卡私有化部署全攻略] 文章后,本次将演示另一个主流推理引擎工具——vLLM,结合K8s、LWS、Ray、Volcano等技术栈,部署DeepSeek-r1 671b 满血版分布式推理集群,并对比其与SGLang推理引擎的性能表现。

选型vLLM推理引擎的理由:
AI智算-K8s+vLLM & Ray:DeepSeek-r1 671B 满血版分布式推理部署实践_ray deepseek 分布式

环境准备

1. 模型下载

本次阿程部署的是企业级满血版的Deepseek-R1 671B。

方式一:通过HuggingFace 下载
仓库地址:https://huggingface.co/deepseek-ai/DeepSeek-R1

方式二:通过 ModelScope 下载 (阿程通过此方式下载)
仓库地址:https://modelscope.cn/models/deepseek-ai/DeepSeek-R1/files