vllm+vllm

编程

更新时间：2025-05-192

admin管理员组
文章数量:1438702

vllm+vllm

1 模型下载

可按照此处方法下载预热后的模型，速度较快（推荐artget方式）

代码语言：javascript代码运行次数：0运行复制

;catalog=llms

或者从hugging face官方下载。

2 vllm-ascend安装

2.1 使用vllm+vllm-ascend基础镜像

基础镜像地址：;tag=latest

拉取镜像（v0.7.0.3的正式版本尚未发布） docker pull quay.io/ascend/vllm-ascend:v0.7.3-dev

启动镜像

QwQ-32B 需要70G以上显存，2张64G的卡

代码语言：javascript代码运行次数：0运行复制

docker run -itd --net=host --name vllm-ascend-QwQ-32B --device /dev/davinci0 --device /dev/davinci1 --device /dev/davinci_manager --device /dev/devmm_svm --device /dev/hisi_hdc -v /usr/local/dcmi:/usr/local/dcmi -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info -v /etc/ascend_install.info:/etc/ascend_install.info -v /xxx/models/llmmodels:/usr1/project/models quay.io/ascend/vllm-ascend:v0.7.3-dev bash

/xxx/models/llmmodels是宿主机放模型的目录，/usr1/project/models是容器内目录

2.2 源码编译安装

代码语言：javascript代码运行次数：0运行复制

# Install vLLM
git clone --depth 1 --branch v0.8.4 
cd vllm
VLLM_TARGET_DEVICE=empty pip install . --extra-index /
cd ..

# Install vLLM Ascend
git clone  --depth 1 --branch v0.8.4rc1 .git
cd vllm-ascend
pip install -e . --extra-index /
cd ..

具体可以参考链接：.html

3 启动模型

openai兼容接口

代码语言：javascript代码运行次数：0运行复制

vllm serve /usr1/project/models/QwQ-32B --tensor_parallel_size 2 --served-model-name "QwQ-32B" --max-num-seqs 256 --max-model-len=4096 --host xx.xx.xx.xx --port 8001 &

/usr1/project/models/QwQ-32B：模型路径
tensor_parallel_size：和卡数量保持一致
served-model-name：接口调用需要传入的模型名称 vllm其余具体参数含义请参考vllm官方文档

本文标签： vllmvllm

版权声明：本文标题：vllm+vllm 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/biancheng/1747591432a2721869.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

编程频道|软件玩家 - 软件改变生活！

vllm+vllm

vllm+vllm

1 模型下载

2 vllm-ascend安装

2.1 使用vllm+vllm-ascend基础镜像

启动镜像

2.2 源码编译安装

3 启动模型

更多相关文章

vllm+vllm

发表评论

推荐文章

javascript - SetInterval keeps setting when changing pages - Stack Overflow

Do action on mouseover using Javascript (else if) - Stack Overflow

How to use javascript to swap swf in html? - Stack Overflow

javascript - Filtering nested objects in ng-repeat with a search input field - Stack Overflow

鼠标键盘锁定工具和显示器关闭工具

热门文章

Looking for a related post plugin which slides-in like the one at inc.com does

javascript - Coffeescript: what does it mean to have curly brackets around a method parameter? - Stack Overflow

c# - Button to clear textareatextboxes of content - Stack Overflow

javascript - How can I change elements inside and array - Stack Overflow

javascript - Alternating row colours with nth-child and nth-of-type - Stack Overflow

记一次自定义基因分类图实现（二）

Adam获时间检验奖！清华揭示保辛动力学本质，提出全新RAD优化器

如何打造高效AI智能体？

如何快速判断 Flutter 库是否需要适配鸿蒙？纯 Dart 库无需适配！

Qwen2.5+Qwen3安装（Windows和raspberrypi-4GB）

最新文章

多版本node共存切换工具nvm

每日技能提升：Word分页符快捷键——手速比同事快10倍的秘密

基于Python+Vue开发的健身房管理系统源码+运行学习

[oeasy]python090

【毕业论文格式】word分页符后的标题段前间距消失

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

外星人Alienware M15 2020版 ALW15M-R5726B参数报价

神舟战神Z7M-CU5NS参数报价

ThinkPad X1 Carbon 2019 LTE版 20R1A003CD 参数报价

华为HUAWEI MateBook B5-430i7 1165G716GB1TB集显Win11参数报价

苹果MacBook Air 13.3 MVFJ2CHA参数报价

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow