
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
V1 → V2:反向传播不用重算 QK^T,训练速度提升 64%V2 → V3:针对 GQA 优化(不广播 KV,直接共享),GQA 模型训练速度再提升 13%V3 附加改进:双缓冲提升 SRAM 利用率、原生 FP8 KV Cache 支持、ALiBi 原生支持用 GQA/MQA 的模型(Llama-2-70B、Falcon-40B)→升 V3用标准 MHA 的模型(Llama-2-7B)→V2

V1 → V2:反向传播不用重算 QK^T,训练速度提升 64%V2 → V3:针对 GQA 优化(不广播 KV,直接共享),GQA 模型训练速度再提升 13%V3 附加改进:双缓冲提升 SRAM 利用率、原生 FP8 KV Cache 支持、ALiBi 原生支持用 GQA/MQA 的模型(Llama-2-70B、Falcon-40B)→升 V3用标准 MHA 的模型(Llama-2-7B)→V2

在 Transformer 架构中,

2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。:Ascend C、RMSNorm、大语言模型、自定义算子、CANN 7.0、昇腾910B、向量化计算、PyTorch集成。在 LLa

本文通过实现INT4 GEMM算子✅ 如何在Ascend C中处理非标准数据类型(INT4)✅量化感知计算的完整流程(打包→解包→反量化→计算)✅分组量化与混合精度的工程实践✅ 为大模型推理提供极致性价比的解决方案掌握此技术后,你已具备参与国产大模型全栈优化的核心能力!

在 Transformer 架构中,

本文通过实现INT4 GEMM算子✅ 如何在Ascend C中处理非标准数据类型(INT4)✅量化感知计算的完整流程(打包→解包→反量化→计算)✅分组量化与混合精度的工程实践✅ 为大模型推理提供极致性价比的解决方案掌握此技术后,你已具备参与国产大模型全栈优化的核心能力!

2025年昇腾CANN训练营第二季,基于CANN开源开放全场景,推出0基础入门系列、码力全开特辑、开发者案例等专题课程,助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证,即可领取精美证书,完成社区任务更有机会赢取华为手机,平板、开发板等大奖。:Ascend C、RMSNorm、大语言模型、自定义算子、CANN 7.0、昇腾910B、向量化计算、PyTorch集成。在 LLa

稀疏注意力的数学与工程实现Ascend C中高效稀疏索引处理技巧超长序列建模的完整解决方案🌟记住:在AI时代,不是所有连接都值得计算。稀疏,是通往高效智能的必经之路。下一步行动尝试与INT4量化融合探索训练时稀疏(Lottery Ticket Hypothesis)贡献稀疏算子到昇腾生态📚资源让万亿Token,在稀疏之翼下自由飞翔!









