
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
随着大模型训练与推理、推荐系统及多模态应用等AI场景的爆发式发展,新一代AI芯片的算力突破已成为行业刚需。Ascend 950作为面向AI计算的新一代芯片,通过第三代DaVinci Core架构、灵衢互联技术以及MXFP4/MXFP8等低精度计算等特性支持,为AI应用提供了强大的算力底座。然而,硬件算力的充分释放离不开高效的软件栈支持。CANN作为昇腾AI处理器的异构计算架构,通过持续演进,已经形

随着大模型训练与推理、推荐系统及多模态应用等AI场景的爆发式发展,新一代AI芯片的算力突破已成为行业刚需。Ascend 950作为面向AI计算的新一代芯片,通过第三代DaVinci Core架构、灵衢互联技术以及MXFP4/MXFP8等低精度计算等特性支持,为AI应用提供了强大的算力底座。然而,硬件算力的充分释放离不开高效的软件栈支持。CANN作为昇腾AI处理器的异构计算架构,通过持续演进,已经形

随着大模型训练与推理、推荐系统及多模态应用等AI场景的爆发式发展,新一代AI芯片的算力突破已成为行业刚需。Ascend 950作为面向AI计算的新一代芯片,通过第三代DaVinci Core架构、灵衢互联技术以及MXFP4/MXFP8等低精度计算等特性支持,为AI应用提供了强大的算力底座。然而,硬件算力的充分释放离不开高效的软件栈支持。CANN作为昇腾AI处理器的异构计算架构,通过持续演进,已经形

随着大模型训练与推理、推荐系统及多模态应用等AI场景的爆发式发展,新一代AI芯片的算力突破已成为行业刚需。Ascend 950作为面向AI计算的新一代芯片,通过第三代DaVinci Core架构、灵衢互联技术以及MXFP4/MXFP8等低精度计算等特性支持,为AI应用提供了强大的算力底座。然而,硬件算力的充分释放离不开高效的软件栈支持。CANN作为昇腾AI处理器的异构计算架构,通过持续演进,已经形

随着大模型训练与推理、推荐系统及多模态应用等AI场景的爆发式发展,新一代AI芯片的算力突破已成为行业刚需。Ascend 950作为面向AI计算的新一代芯片,通过第三代DaVinci Core架构、灵衢互联技术以及MXFP4/MXFP8等低精度计算等特性支持,为AI应用提供了强大的算力底座。然而,硬件算力的充分释放离不开高效的软件栈支持。CANN作为昇腾AI处理器的异构计算架构,通过持续演进,已经形

它通过重组循环内的操作顺序,让不同迭代的计算与内存传输重叠执行,从而实现计算与通信的并行化。在昇腾 NPU 算子开发中,共享内存的高效利用是突破性能瓶颈的关键:一方面,昇腾 NPU 将内存划分为多个层次并存在严苛的容量上限,内存资源极度稀缺,而计算过程中需要创建大量临时缓冲区用于存储中间计算结果。TileLang-Ascend Developer模式的发布,标志着一个关键的转折点:昇腾NPU的高性

CANN开源社区tilelang链接:https://gitcode.com/cann/cann-recipes-infer/tree/master/ops/tilelangTilelang-Ascend开源社区链接:https://github.com/tile-ai/tilelang-ascend

为期五天的 TileLang-Ascend学习周 已于2月6日圆满落幕。课程自2月2日开播以来,吸引了众多开发者与算法工程师的持续关注与参与。在TileLang核心开发团队老师的带领下,我们从开发环境搭建出发,系统讲解了TileLang编程语法与Developer模式,并最终完成了从算子开发、编译调试到集成的完整工程实践闭环。

CANN开源社区tilelang链接:https://gitcode.com/cann/cann-recipes-infer/tree/master/ops/tilelangTilelang-Ascend开源社区链接:https://github.com/tile-ai/tilelang-ascend









