您的位置 首页 linux 运维

昇腾(Ascend)NPU 安装 deepseek

在华为昇腾服务器Ascend 300I Pro 310P芯片( 310P3)安装QWQ32B大模型以及deepseek蒸馏版!-CSDN博客

上边的是收费的,

下边的是 免费版

在华为昇腾服务器Ascend 300I Pro 310P芯片( 310P3)安装QWQ32B大模型以及deepseek蒸馏版!-EW帮帮网

在华为昇腾服务器Ascend 300I Pro 310P芯片( 310P3)安装QWQ32B大模型以及deepseek蒸馏版! - 网硕互联帮助中心

这两个对比这来吧。

 

 

鲲鹏+昇腾(310P)部署Qwen3-32B【简单版】_昇腾300i duo部署qwen3-CSDN博客

 

根据 npu-smi info 的输出,你的昇腾(Ascend)NPU 环境已经准备就绪,可以开始部署 DeepSeek 模型了。
以下是详细的环境分析和接下来的部署建议:

1. 环境状态分析

  • NPU 型号310P3
    • 这是一个比较新的边缘推理卡型号(算力约为 16/20 TFLOPS INT8)。
    • 注意:310P3 显存较小(约 16GB 或 32GB,具体看版本,但从截图看是 44GB 规格,可能是 310P3 的大显存版本或者多卡聚合,需要确认单卡显存)。DeepSeek-V2/V3 如果是全精度(FP16)可能放不下,必须使用量化版(INT4/INT8)

2. 部署 DeepSeek 的具体建议

鉴于你使用的是 310P3,它不支持像 910B 那样多实例切分,通常是一卡跑一个模型实例。
第一步:确认软件栈 (CANN)
在运行之前,请确保你已经安装了配套的 CANN 软件包。
在终端执行:
# 检查 CANN 版本,建议 8.0.RC1 或更高版本
npu-smi info | grep "Driver version"
# 或者检查环境
echo  $ ASCEND_HOME

第二步:选择推理框架

对于 DeepSeek 在 310P3 上的部署,推荐两种方案:
方案 A:使用 MindIE (MindSpore Inference Engine)
这是华为官方推荐的大模型推理方案,优化最好。
  1. 模型获取:去 ModelScope 下载 DeepSeek-V3-xxx-Ascend 或 DeepSeek-MoE-xxx-Ascend 的 W8A8(8比特量化)版本。
  2. 配置修改:在模型配置文件中,确保 use.flash.attn=False(310P3 不支持 flash_attn,必须关闭)。
  3. 启动:使用 msrun 命令启动推理服务

Qwen2.5-72B-Instruct-w8a8-vllm-ascend · 模型库


modelscope download --model RR2025/Qwen2.5-72B-Instruct-w8a8-vllm-ascend README.md --local_dir ./dir

 

 

 

方案 B:使用 vLLM-Ascend
如果你习惯用 vLLM 的接口。
  1. 安装 vllm-ascend 包。
  2. 使用如下命令启动(示例):
python -m vllm.entrypoints.openai.api_server \
    --model /path/to/deepseek-quantized \
    --dtype int8 \  # 强制使用 int8
    --tensor-parallel-size 1 # 310P3 通常单卡运行

 

欢迎来撩 : 汇总all

白眉大叔

关于白眉大叔linux云计算: 白眉大叔

热门文章