昇腾910B--本地化部署DeepSeek-R1-Distill-Llama-70B_ds70部署到华为910b
# 910B昇腾服务器单机部署DeepSeek-R1-Distill-Llama-70B## 部署前提- 宿主机操作系统:Ubuntu 22.04@ascend-910b 64位- 已安装固件与驱动- 已安装Docker## 模型下载- **有网络条件**:访问 [Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B/tree/main) 下载模型。- **无网络条件**:从 [ModelScope](https://modelscope.cn/models) 下载所需模型。## 上传模型到服务器- 文件较大(132GB),建议使用 `rsync` 命令上传至 `/mnt/data/model/DeepSeek-R1-Distill-Llama-70B`。## 下载模型适配镜像包- 登录昇腾社区,前往开发资源页面下载适配DeepSeek-R1-Distill-Llama-70B的镜像包。- 根据GPU型号选择: - 1.0.0-800I-A2-py311-openeuler24.03-lts - 1.0.0-300I-Duo-py311-openeuler24.03-lts## 启动运行容器```bashdocker run -it -d --net=host --shm-size=1g \\ --name \\ --device=/dev/davinci_manager \\ --device=/dev/hisi_hdc \\ --device=/dev/devmm_svm \\ --device=/dev/davinci0 \\ --device=/dev/davinci1 \\ --device=/dev/davinci2 \\ --device=/dev/davinci3 \\ --device=/dev/davinci4 \\ --device=/dev/davinci5 \\ --device=/dev/davinci6 \\ --device=/dev/davinci7 \\ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro \\ -v /usr/local/sbin:/usr/local/sbin:ro \\ -v /path-to-weights:/path-to-weights:ro \\ mindie:1.0.0-800I-A2-py311-openeuler24.03-lts bash
注意:
• :自定义容器名称。
• /path-to-weights
:模型放置的实际位置。
• 如果外部服务需要调用模型API端口,需将--net=host
修改为-p 18080:18080
。
进入容器
docker exec -it ${容器名称} bash
容器中执行
cd $ATB_SPEED_HOME_PATH
此路径包含模型的依赖文件。
服务化推理部署
• 编辑配置文件:
vim /usr/local/Ascend/mindie/latest/mindie-service/conf/config.json
• 修改以下参数:
{ \"ipAddress\": \"127.0.0.1\", // 外部访问需修改为实际地址 \"managementIpAddress\": \"127.0.0.2\", // 外部访问需修改为实际地址 \"port\": 1025, // 自定义 \"managementPort\": 1026, // 自定义 \"metricsPort\": 1027, // 自定义 \"npuDeviceIds\": [[0,1,2,3]], // 根据显卡数量修改 \"modelName\": \"llama\", \"modelWeightPath\": \"/data/datasets/DeepSeek-R1-Distill-Llama-70B\", // 根据实际路径修改 \"worldSize\": 4, // 根据显卡数量修改 \"openAiSupport\": \"openai\" // 修改为本地支持 }
启动模型服务
cd /usr/local/Ascend/mindie/latest/mindie-service/bin./mindieservice_daemon
等待安装完成,直至显示daemonset success
。
测试验证
curl 127.0.0.1:1025/generate -d \'{ \"prompt\": \"What is deep learning?\", \"max_tokens\": 32, \"stream\": false, \"do_sample\": true, \"repetition_penalty\": 1.00, \"temperature\": 0.01, \"top_p\": 0.001, \"top_k\": 1, \"model\": \"llama\"}\'
若有输出结果,则部署成功。
OPENWEB UI 部署
• 需要Python 3.11版本。
• 参照OpenWeb UI GitHub进行界面化展示DeepSeek模型。