登录社区云,与社区用户共同成长
邀请您加入社区
5月16日-17日,第九届信息技术新工科产学研联盟年会暨信息技术领域产学合作论坛在天津隆重召开。大会由信息技术新工科产学研联盟、中国软件行业协会主办,华为技术有限公司协办,南开大学承办。联盟理事单位、工委成员单位等全国各地专家学者、教育界和企业界代表共400余人参会。华为CANN领域总经理邵立欣发表主题演讲,分享《CANN开源开放,助力高校培养AI开发者》。 本届年会开幕式由联盟副理事
B站直播预约链接:点击预约
随着大模型训推规模持续增长,8-bit 数据格式已成为提升计算效率、降低显存占用和优化部署成本的重要方向。HiFloat8(HiF8)凭借大动态范围和灵活的精度表达,为大模型在低比特场景下兼顾精度与性能提供了新的路径。 HiF8的全面表达系统性地支持了大模型的低比特训推,其中的关键策略已被沉淀为可复现、可迁移的开源参考实现。在推理侧,提高效率的关键不只是“把权重压到8-bit”,更要将
当 Coding Agent 一次写出几十个算子已成为常态,"什么算优质算子"变成了一个单一维度无法评估准确的问题:能不能过编译只是入场券,精度是否经得起验证、换个 shape 换个 dtype 是否仍然稳定、性能离硬件上限还有多远,每一项都决定了这个算子是否值得真正部署。面对这样的多维需求,整个学界与产业界都在期待一把统一的尺子。 CANN Bench 由学界测试领域专家与C
cann-samples是CANN社区提供的高性能实操样例库,致力于为开发者提供可复用的优化方法论和最佳实践代码。本系列文章将陆续介绍仓库中的典型样例,分享我们在算子优化过程中的思考与经验。 本文将帮助你 理解MX量化的硬件加速机制:MX量化相较传统量化实现优势掌握性能建模方法:如何定量分析Bound类型,针对性优化,避免盲目调优理解核心优化思路:SWAT等关键策略的原理与应用了解TensorAP
B站直播预约:预约链接
随着大模型训练与推理、推荐系统及多模态应用等AI场景的爆发式发展,新一代AI芯片的算力突破已成为行业刚需。Ascend 950作为面向AI计算的新一代芯片,通过第三代DaVinci Core架构、灵衢互联技术以及MXFP4/MXFP8等低精度计算等特性支持,为AI应用提供了强大的算力底座。然而,硬件算力的充分释放离不开高效的软件栈支持。CANN作为昇腾AI处理器的异构计算架构,通过持续演进,已经形
CANN开源
——CANN开源
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net