ubuntu+RTX5090+CUDA12.8编译vllm启动本地模型_vllm cuda12.8

技术文档

一、安装Python

安装依赖项

sudo apt update sudo apt install -y build-essential libssl-dev zlib1g-dev libncurses5-dev libnss3-dev libreadline-dev libffi-dev curl libsqlite3-dev

下载Python源码

wget https://www.python.org/ftp/python/3.12.10/Python-3.12.10.tgz

解压并编译

tar xzf Python-3.12.10.tgzcd Python-3.12.10./configure --enable-optimizationsmake -j$(nproc)sudo make altinstall

二、创建Python虚拟环境

安装 python3-venv 包（如果需要）：为了使用 venv 模块创建虚拟环境，你可能需要安装 python3-venv 包。这是因为某些系统默认情况下不会安装此包。

sudo apt-get updatesudo apt-get install python3-venv

创建虚拟环境：选择一个目录，在其中创建你的虚拟环境。例如，如果你想在当前目录下创建一个名为 myenv 的虚拟环境，可以运行：

python -m venv myenv

激活虚拟环境：创建完成后，你需要激活虚拟环境才能开始使用它。可以通过下面的命令激活：

source myenv/bin/activate激活后，你应该会注意到命令行提示符前有一个 (myenv) 标识，表示虚拟环境已被激活。

退出虚拟环境：当你完成工作并想退出虚拟环境时，可以简单地输入：

deactivate

删除虚拟环境：如果你不再需要某个虚拟环境，只需删除其文件夹即可：

rm -rf myenv

三、安装torch

RTX 5090, 驱动版本cuda12.8，需要torch 2.7.0

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu128

四、卸载torch自动安装的nccl版本

pip uninstall nvidia-nccl-cu12 -y

五、安装nccl 2.26.2+cuda12.8版本

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pubsudo add-apt-repository \"deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /\"sudo apt-get updatesudo apt-get install libnccl2=2.26.2-1+cuda12.8 libnccl-dev=2.26.2-1+cuda12.8

六、下载vllm源码,使用main主分支

git clone https://github.com/vllm-project/vllm.git

七、编译vllm

cd vllmpip install -e .# 再次卸载nvidia-nccl-cu12，5090需要nccl 2.26.2+cuda12.8版本，自带安装的是nccl 2.26.2+cuda12.2，必须卸载，否则会报访问非法内存pip uninstall nvidia-nccl-cu12-y

八、启动vllm

python -m vllm.entrypoints.openai.api_server \\--model /opt/vLLM-models/deepseek-1.5b \\--tensor-parallel-size 4 # 张量并行，4块GPU\\--max-model-len 4096 \\--port 8080 \\--gpu-memory-utilization 0.8 \\--served-model-name dp1.5b

九、启动提示huggingface.co连不上，不确定是否有用

pip install -U huggingface_hub export HF_ENDPOINT=https://hf-mirror.com #更改国内镜像

ubuntu+RTX5090+CUDA12.8编译vllm启动本地模型_vllm cuda12.8

一、安装Python

二、创建Python虚拟环境

三、安装torch

四、卸载torch自动安装的nccl版本

五、安装nccl 2.26.2+cuda12.8版本

六、下载vllm源码,使用main主分支

七、编译vllm

八、启动vllm

九、启动提示huggingface.co连不上，不确定是否有用

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

ubuntu+RTX5090+CUDA12.8编译vllm启动本地模型_vllm cuda12.8

一、安装Python

二、创建Python虚拟环境

三、安装torch

四、卸载torch自动安装的nccl版本

五、安装nccl 2.26.2+cuda12.8版本

六、下载vllm源码,使用main主分支

七、编译vllm

八、启动vllm

九、启动提示huggingface.co连不上，不确定是否有用

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签