2026/6/12 2:25:29
网站建设
项目流程
建设在线观看视频网站,网站建设服务合同是否缴纳印花税,在线磁力搜索神器,建设银行网站的服务管理1 )首先确定vllm-ascend依赖。
Installation — vllm-ascend
确定cann的版本8.3.rc2。
确定vllm和vllm-ascend的对照关系 2) 查询物理机的驱动版本
假设不是cann8.3rc2#xff0c;那就安装
网址在这里#xff0c;需要自己注册登录一下#xff1a;
https://www.hiascen…1 )首先确定vllm-ascend依赖。Installation — vllm-ascend确定cann的版本8.3.rc2。确定vllm和vllm-ascend的对照关系2) 查询物理机的驱动版本假设不是cann8.3rc2那就安装网址在这里需要自己注册登录一下https://www.hiascend.com/developer/download/community/result?fromfirmwareproduct1model30cann8.3.RC2下载toolkit和 kernels 我是910b,如果是310请选择对照的版本。下载完了以后就安装这俩驱动安装完了以后再安装一下这几个包推荐使用conda安装。pip3 install attrs cython numpy1.19.2,1.24.0 decorator sympy cffi pyyaml pathlib2 psutil protobuf3.20.0 scipy requests absl-py --user到这个阶段驱动安装完了。3)开始安装torch和torch-npu这是下载地址https://www.hiascend.com/document/detail/zh/Pytorch/720/configandinstg/instg/insg_0004.html其中8.3rc1和rc2可以通用。然后安装npu-插件安装完了以后测试安装效果python3 -c import torch;import torch_npu; a torch.randn(3, 4).npu(); print(a a);然后安装vllm安装完了vllm以后呢torch会被重新装一下版本可能和你的驱动不搭配。所以这一步需要按照第2步重新装一下torch和torch-npu然后vllm-ascend版本和vllm版本要对照。然后就结束了。大功告成。根据本人的经验vllm0.11比0.12要快一些。4vllm起量化模型。vllm serve ./model_path --served-model-name qwen_quant --quantization ascend --max-model-len 90000 --port 8999访问vllm接口为什么要截取90000因为如果请求超过vllm的max_len 会报错所以最好限制一下不要超过vllm起服务时候的最大长度。