> 技术文档 > 【开源实践】基于VLLM的Qwen3-Embedding实践_vllm部署qwen3 embedding

【开源实践】基于VLLM的Qwen3-Embedding实践_vllm部署qwen3 embedding

【开源实践】基于VLLM的Qwen3-Embedding实践_vllm部署qwen3 embedding

环境

环境:ubuntu2025 (nvidia 2080ti)

vllm 版本:0.10.0

python:3.10

选择最轻量级的 0.6B 级别模型

模型下载

选择在 modelscope 中下载。两个模型所在地址如下:

  1. Embedding:https://www.modelscope.cn/models/Qwen/Qwen3-Embedding-0.6B
  2. Reranker: https://www.modelscope.cn/models/Qwen/Qwen3-Reranker-0.6B

根据 modelscope 下载到制定路径即可(先安装 modelscopepip install modelscope),例如:

modelscope download --model Qwen/Qwen3-Embedding-0.6B
modelscope download --model Qwen/Qwen3-Reranker-0.6B

vllm 环境则是直接 pip install 即可,如:pip install vllm.

Embedding 服务

vllm 服务启动脚本如下:

VLLM_USE_V1=0 vllm serve /home/piqd/projects/simple_serveing/models/Qwen/Qwen3-Embedding-0.6B/\\ --port 8000\\ --task embed\\ --trust-remote-code

vllm 相关参数可参考官方文档:https://docs.vllm.ai/en/v0.10.0/

python 调用(需要提前安装 openai 这个库),脚本如下:

# SPDX-License-Identifier: Apache-2.0# SPDX-FileCopyrightText: Copyright contributors to the vLLM projectfrom openai import OpenAIfrom loguru import logger# Modify OpenAI\'s API key and API base to use vLLM\'s API server.openai_api_key = \"EMPTY\"openai_api_base = \"http://localhost:8000/v1\"def main():<