logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen3-235B 模型在昇腾平台的单路吞吐优化实践

在大模型推理场景中,高并发、长序列下的单路吞吐性能直接影响系统整体效率与资源利用率。本文针对Qwen3-235B模型在Atlas 800I A2平台8卡部署的性能瓶颈问题,围绕输入长度1k、输出长度1k、25并发的典型场景,开展系统性性能调优。初始吞吐未达预期目标,亟需通过深度分析与多维度优化,挖掘潜在性能空间,提升推理效率。通过“关闭非必要通信路径 → 消除冗余算子 → 优化图捕获策略”三步递进

#人工智能#深度学习
Mindie LLM模型推理(Qwen)

通过部署昇腾服务化配套包后,以调用终端命令的方式测试llm在不同配置参数下推理性能和精度,通过表格的形式展示模型在各个阶段的推理耗时(例如FirstTokenTime、DecodeTime等),以及对应时延的平均值、最小值、最大值、75分位(P75)和99分位(P99)概率统计值,最后将计算结果保存到本地csv文件中。在输入输出长度不变的情况下,如果batchsize增加,时延增加,同时吞吐量也增

#人工智能#大数据#算法
Deepseek-R1-distill遇到推理精度问题--重复语句

回答之前先一步步思考。\n\n{{question}}\nA. {{A}}\nB. {{B}}\nC. {{C}}\nD. {{D}}’继续尝试的prompt格式:'以下是中国关于{_ch_name}考试的单项选择题,请选出其中的正确答案。\n{{question}}\nA. {{A}}\nB. {{B}}\nC. {{C}}\nD. {{D}}\n答案: {{answer}}’和'以下是中国关于

#人工智能
Mindie LLM模型推理(Qwen)

通过部署昇腾服务化配套包后,以调用终端命令的方式测试llm在不同配置参数下推理性能和精度,通过表格的形式展示模型在各个阶段的推理耗时(例如FirstTokenTime、DecodeTime等),以及对应时延的平均值、最小值、最大值、75分位(P75)和99分位(P99)概率统计值,最后将计算结果保存到本地csv文件中。在输入输出长度不变的情况下,如果batchsize增加,时延增加,同时吞吐量也增

#人工智能#大数据#算法
使用昇腾NPU进行模型推理精度测试遇到问题

如果使用Python3.11及以上进行安装,需先对依赖中的pyext-0.7进行手动源码安装,下载pyext-0.7源码,修改pyext-0.7/pyext.py文件如下,再用pip3 install -e ./进行安装。5. 安装完之后拉起服务化,不需要source set_env.sh,但是设置环境变量。9. 请求发送不出去就说明要unset http_proxy,完了之后就可以测试。8. 遇

#人工智能
Mindie LLM模型推理(Qwen)

通过部署昇腾服务化配套包后,以调用终端命令的方式测试llm在不同配置参数下推理性能和精度,通过表格的形式展示模型在各个阶段的推理耗时(例如FirstTokenTime、DecodeTime等),以及对应时延的平均值、最小值、最大值、75分位(P75)和99分位(P99)概率统计值,最后将计算结果保存到本地csv文件中。在输入输出长度不变的情况下,如果batchsize增加,时延增加,同时吞吐量也增

#人工智能#大数据#算法
使用昇腾NPU进行模型推理精度测试遇到问题

如果使用Python3.11及以上进行安装,需先对依赖中的pyext-0.7进行手动源码安装,下载pyext-0.7源码,修改pyext-0.7/pyext.py文件如下,再用pip3 install -e ./进行安装。5. 安装完之后拉起服务化,不需要source set_env.sh,但是设置环境变量。9. 请求发送不出去就说明要unset http_proxy,完了之后就可以测试。8. 遇

#人工智能
到底了