> 技术文档 > ubuntu+RTX5090+CUDA12.8编译vllm启动本地模型_vllm cuda12.8

ubuntu+RTX5090+CUDA12.8编译vllm启动本地模型_vllm cuda12.8


一、安装Python

  • 安装依赖项
sudo apt update sudo apt install -y build-essential libssl-dev zlib1g-dev libncurses5-dev libnss3-dev libreadline-dev libffi-dev curl libsqlite3-dev
  • 下载Python源码
wget https://www.python.org/ftp/python/3.12.10/Python-3.12.10.tgz
  • 解压并编译
tar xzf Python-3.12.10.tgzcd Python-3.12.10./configure --enable-optimizationsmake -j$(nproc)sudo make altinstall

二、创建Python虚拟环境

  1. 安装 python3-venv 包(如果需要):为了使用 venv 模块创建虚拟环境,你可能需要安装 python3-venv 包。这是因为某些系统默认情况下不会安装此包。

sudo apt-get updatesudo apt-get install python3-venv

  1. 创建虚拟环境:选择一个目录,在其中创建你的虚拟环境。例如,如果你想在当前目录下创建一个名为 myenv 的虚拟环境,可以运行:

python -m venv myenv

  1. 激活虚拟环境:创建完成后,你需要激活虚拟环境才能开始使用它。可以通过下面的命令激活:

source myenv/bin/activate激活后,你应该会注意到命令行提示符前有一个 (myenv) 标识,表示虚拟环境已被激活。

  1. 退出虚拟环境:当你完成工作并想退出虚拟环境时,可以简单地输入:

deactivate

  1. 删除虚拟环境:如果你不再需要某个虚拟环境,只需删除其文件夹即可:

rm -rf myenv

三、安装torch

RTX 5090, 驱动版本cuda12.8,需要torch 2.7.0

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu128

四、卸载torch自动安装的nccl版本

pip uninstall nvidia-nccl-cu12 -y

五、安装nccl 2.26.2+cuda12.8版本

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pubsudo add-apt-repository \"deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /\"sudo apt-get updatesudo apt-get install libnccl2=2.26.2-1+cuda12.8 libnccl-dev=2.26.2-1+cuda12.8

六、下载vllm源码,使用main主分支

git clone https://github.com/vllm-project/vllm.git

七、编译vllm

cd vllmpip install -e .# 再次卸载nvidia-nccl-cu12,5090需要nccl 2.26.2+cuda12.8版本,自带安装的是nccl 2.26.2+cuda12.2,必须卸载,否则会报访问非法内存pip uninstall nvidia-nccl-cu12-y

八、启动vllm

python -m vllm.entrypoints.openai.api_server \\--model /opt/vLLM-models/deepseek-1.5b \\--tensor-parallel-size 4 # 张量并行,4块GPU\\--max-model-len 4096 \\--port 8080 \\--gpu-memory-utilization 0.8 \\--served-model-name dp1.5b

九、启动提示huggingface.co连不上,不确定是否有用

pip install -U huggingface_hub export HF_ENDPOINT=https://hf-mirror.com #更改国内镜像