2301_79605018 个人主页

@2301_79605018

2301_79605018

2025-01-21 14:50:48 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen3-235B 模型在昇腾平台的单路吞吐优化实践

在大模型推理场景中，高并发、长序列下的单路吞吐性能直接影响系统整体效率与资源利用率。本文针对Qwen3-235B模型在Atlas 800I A2平台8卡部署的性能瓶颈问题，围绕输入长度1k、输出长度1k、25并发的典型场景，开展系统性性能调优。初始吞吐未达预期目标，亟需通过深度分析与多维度优化，挖掘潜在性能空间，提升推理效率。通过“关闭非必要通信路径 → 消除冗余算子 → 优化图捕获策略”三步递进

#人工智能 #深度学习

使用昇腾NPU机器出现容器内无法使用curl/yum/dnf

该问题在容器外不出现。

#linux #运维 #服务器

Mindie LLM模型推理（Qwen）

通过部署昇腾服务化配套包后，以调用终端命令的方式测试llm在不同配置参数下推理性能和精度，通过表格的形式展示模型在各个阶段的推理耗时（例如FirstTokenTime、DecodeTime等），以及对应时延的平均值、最小值、最大值、75分位（P75）和99分位（P99）概率统计值，最后将计算结果保存到本地csv文件中。在输入输出长度不变的情况下，如果batchsize增加，时延增加，同时吞吐量也增

#人工智能 #大数据 #算法

Deepseek-R1-distill遇到推理精度问题--重复语句

回答之前先一步步思考。\n\n{{question}}\nA. {{A}}\nB. {{B}}\nC. {{C}}\nD. {{D}}’继续尝试的prompt格式：'以下是中国关于{_ch_name}考试的单项选择题，请选出其中的正确答案。\n{{question}}\nA. {{A}}\nB. {{B}}\nC. {{C}}\nD. {{D}}\n答案: {{answer}}’和'以下是中国关于

#人工智能

使用昇腾NPU机器出现容器内无法使用curl/yum/dnf

该问题在容器外不出现。

#linux #运维 #服务器

Mindie LLM模型推理（Qwen）

#人工智能 #大数据 #算法

使用昇腾NPU进行模型推理精度测试遇到问题

如果使用Python3.11及以上进行安装，需先对依赖中的pyext-0.7进行手动源码安装，下载pyext-0.7源码，修改pyext-0.7/pyext.py文件如下，再用pip3 install -e ./进行安装。5. 安装完之后拉起服务化，不需要source set_env.sh，但是设置环境变量。9. 请求发送不出去就说明要unset http_proxy，完了之后就可以测试。8. 遇

#人工智能

Mindie LLM模型推理（Qwen）

#人工智能 #大数据 #算法

使用昇腾NPU进行模型推理精度测试遇到问题

#人工智能

到底了