【开源实践】基于VLLM的Qwen3-Embedding实践_vllm部署qwen3 embedding
环境
环境:ubuntu2025 (nvidia 2080ti)
vllm 版本:0.10.0
python:3.10
选择最轻量级的 0.6B 级别模型。
模型下载
选择在 modelscope 中下载。两个模型所在地址如下:
- Embedding:https://www.modelscope.cn/models/Qwen/Qwen3-Embedding-0.6B
- Reranker: https://www.modelscope.cn/models/Qwen/Qwen3-Reranker-0.6B
根据 modelscope 下载到制定路径即可(先安装 modelscopepip install modelscope
),例如:
modelscope download --model Qwen/Qwen3-Embedding-0.6B
modelscope download --model Qwen/Qwen3-Reranker-0.6B
vllm 环境则是直接 pip install 即可,如:pip install vllm
.
Embedding 服务
vllm 服务启动脚本如下:
VLLM_USE_V1=0 vllm serve /home/piqd/projects/simple_serveing/models/Qwen/Qwen3-Embedding-0.6B/\\ --port 8000\\ --task embed\\ --trust-remote-code
vllm 相关参数可参考官方文档:https://docs.vllm.ai/en/v0.10.0/
python 调用(需要提前安装 openai 这个库),脚本如下:
# SPDX-License-Identifier: Apache-2.0# SPDX-FileCopyrightText: Copyright contributors to the vLLM projectfrom openai import OpenAIfrom loguru import logger# Modify OpenAI\'s API key and API base to use vLLM\'s API server.openai_api_key = \"EMPTY\"openai_api_base = \"http://localhost:8000/v1\"def main():<