登录社区云,与社区用户共同成长
邀请您加入社区
本文记录Vector融合算子 RmsNormQuant 在昇腾Ascend950上的性能优化过程。RmsNormQuant 是 LLM 推理中 RmsNorm 归一化与 Int8 量化的融合算子,通过消除中间结果的 GM 写回+读入,在访存效率上优于分离执行。优化从最基础的公式直译实现出发,逐步识别并消除每一层性能瓶颈,最终达成 157 倍的性能加速。Vector 算子的性能建模方法——如何通过
本文探讨了昇腾CANN HCCL在多机训练中的网络拓扑和通信优化策略。通过实测分析发现,多机训练瓶颈主要在网络通信而非计算能力。文章对比了Ring AllReduce和层次化AllReduce的优缺点,介绍了HCCL的自动拓扑选择机制,并提供了RoCE和TCP两种网络配置方案。实测数据显示,Hybrid拓扑在大数据量时能稳定跑满带宽(22GB/s)。最佳实践建议:多机采用Hybrid算法,单机使用
除了Mamba3-block适配与MIMO创新突破,我们依托Agent-Skills的高效适配能力,实现了Triton算子的快速适配,进一步完善框架的算子生态,提升模型运行的兼容性与高效性。Agent-Skills凭借其灵活的算子封装与快速集成特性,无需复杂的手动开发与调试,即可快速完成Triton算子与MindSpeed LLM框架的无缝对接,有效降低算子适配门槛,缩短适配周期,为框架的功能拓展
本文介绍了基于CANN优化的电力负荷预测推理方案elec-ops-prediction。该方案针对传统LSTM模型推理速度慢的问题,提供了一套完整的时序预测流程。文章首先分析了电力系统不同时间尺度的预测需求(超短期、短期、中期、长期)及其精度要求,详细说明了输入特征构成,包括历史负荷、时间特征、气象特征和经济指标等。随后展示了elec-ops-prediction的算子库架构,包含特征提取、推理和
AI大模型和Harness 工程快速发展的今天,模型+Agent的组合使得复杂系统级代码开发任务门槛进一步降低,昇腾CANN作为算力基础设施的一部分,也迎来了从古法编程到AI编程的关键转折,CANN领域中的算子开发效率出现了数量级的提升,但选择什么样的模型,使用哪个Agent能够产出高质量的算子,成了开发经常遇到的问题。数据层是整个评测体系的基础,CANN-Bench通过“算子定义+测试用例+真值
昇腾AI开发者峰会2026在京成功举办,聚焦"共赴昇腾同耀光芒"主题。华为专家分享了昇腾950芯片在AgenticAI时代的超节点架构创新,包括优化EP通信、KVCache等关键技术。峰会重点展示了昇腾软件生态的易用性提升:CANN全面开源开放,支持多种编程范式;兼容主流开源生态;Mind系列软件全面升级。华为宣布全面升级开发者使能计划,提供免费算力资源和创新激励基金,并表彰了
本文记录了MiMo-V2-Flash模型从FP8到BF16反量化脚本的开发与验证流程,并提供了将BF16模型动态量化为w8a8类型时生成适配器的skill。服务器型号:Atlas 800I A2推理服务器本文记录了MiMo-V2-Flash模型从FP8到BF16反量化脚本的开发与验证流程,并提供了将BF16模型动态量化为w8a8类型时生成适配器的skill。服务器型号:Atlas 800I A2推
MindCluster通过各组件间的配合,实现了通用超节点调度算法,保证任务带宽的同时还能有效减少资源碎片,是企业在进行昇腾集群调度中不可或缺的重要工具。除此之外,MindCluster还提供了超大规模集群调度、故障快恢、亚健康设备无感切换、指标监测等诸多能力,助力企业更快、更稳的使用昇腾设备。欢迎你访问MindCluster的开源仓主页,提出你宝贵的issue,共同参与到社区的开发和成长。
B站预约链接:点击跳转预约
5月16日-17日,第九届信息技术新工科产学研联盟年会暨信息技术领域产学合作论坛在天津隆重召开。大会由信息技术新工科产学研联盟、中国软件行业协会主办,华为技术有限公司协办,南开大学承办。联盟理事单位、工委成员单位等全国各地专家学者、教育界和企业界代表共400余人参会。华为CANN领域总经理邵立欣发表主题演讲,分享《CANN开源开放,助力高校培养AI开发者》。 本届年会开幕式由联盟副理事
目前大模型的千亿级参数、超长文本需求已经成为强化学习训练的效率、稳定性与扩展性的核心瓶颈,VeRL传统共卡同步训练模式逐渐难以满足这些需求带来的性能要求和高昂的训练成本,原因主要在于共卡模式中Rollout样本生成与策略梯度更新串行同步执行,所有环节需要等待Batch内最长尾序列生成完成,才能统一更新权重,超长样本会阻塞整轮训练,导致大部分算力陷入空闲等待,导致算力利用率低下,也同时限制了算力的横
为深入推进新工科建设,深化产教融合与校企协同育人,助力计算机与软件类专业学子夯实底层技术基础、拓宽前沿学术视野,全面提升工程实践能力与就业核心竞争力,5月10日和5月16日,计算机学院、软件学院联合CANN开源社区在临江楼B609室成功举办CANN启航营·南京信息工程大学站首期专题授课活动。本次活动特邀CANN高校生态经理武嘉伟、CANN社区技术专家田起光和毛远星莅临现场授课。三位行业
5月17日晚,随着最后一行代码在昇腾NPU算力平台上成功运行,为期两天(5月16日-17日)的杭电CANN启航营在热烈的交流氛围中圆满落下帷幕。本次活动由与联合打造,旨在将“产业前沿”第一时间引入课堂。同学们在下沙校区计算机学院1教115教室,共同经历了一场从底层算子开发到大语言模型微调的“硬核”技术之旅,实现了从理论学习到工程实践的深度跨越。
5月14日—15日,计算机学院联合CANN开源社区举办算子挑战赛校内赛赋能培训班。 14日上午,开班仪式举行。CANN社区PMC主席陈敏,华为半导体南京校招总监刘祖俊、CANN高校生态经理武嘉伟,CANN生态技术专家王星和刘艺,华为南研所校园招聘经理杨頔,我校计算机学院相关负责同志,计算机学院教授张犬俊等参加活动。 当前AI生态蓬勃发展,CANN作为衔接人工智能框架与昇腾硬件的核心异构
在昇腾硬件之上,华为提供了异构计算架构,它是连接上层AI框架与底层昇腾硬件的桥梁。对上支持多种AI框架,对下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。昇腾AI软件栈驱动:提供硬件访问能力。昇腾AI处理器运行时(AscendCL):提供运行时API,用于资源管理、任务调度等。昇腾AI任务调度器:负责任务在CPU和NPU(Neural-network Pro
本文详细介绍了如何将PyTorch模型无缝迁移到华为昇腾平台,涵盖从ARM架构下的环境配置、torch_npu插件部署到性能调优的全流程实战技巧。重点解析了环境变量优化、算子兼容性处理以及利用Ascend Profiler进行深度调试的方法,帮助开发者高效实现AI模型在昇腾平台的部署与加速。
B站预约链接:点击预约
AI技术动态速览(150字) 近期AI领域呈现三大趋势:1️⃣ AIAgent能力升级:OpenAI测试浏览器自动操作Agent,Anthropic强化长任务执行能力,MCP协议推动Agent标准化;2️⃣ AI编程工具分化:Cursor向"AI操作系统"演进,Copilot因成本问题遭质疑,开发者转向本地模型(如Qwen/Llama)组合工作流;3️⃣ 边缘AI崛起:RISC
B站预约链接:点击预约
B站预约链接: 点击预约
在DeepSeek V4背后,昇腾CANN都有哪些黑科技?欢迎前往昇腾CANN B站官方账号观看直播~很高兴和哔哩哔哩百万up主。
B站直播预约链接:点击预约
昇腾
——昇腾
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net