
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
DeepSeek 系列模型自发布以来,凭借其卓越的推理能力和极具竞争力的性价比,迅速成为大模型落地部署的热门选择。DeepSeek-V2、DeepSeek-V3 等模型采用 MoE(Mixture of Experts)架构,在保持模型总参数量庞大的同时,每个 token 仅激活部分专家网络,实现了推理成本的大幅降低

如果你也在考虑学习仓颉,我想说:别犹豫,从Hello World开始,每天进步一点点,三个月后你会感谢现在的自己。 💪✨

DeepSeek 系列模型自发布以来,凭借其卓越的推理能力和极具竞争力的性价比,迅速成为大模型落地部署的热门选择。DeepSeek-V2、DeepSeek-V3 等模型采用 MoE(Mixture of Experts)架构,在保持模型总参数量庞大的同时,每个 token 仅激活部分专家网络,实现了推理成本的大幅降低

摘要 ops-nn是昇腾异构计算架构(CANN)中的核心神经网络算子库,为深度学习模型提供基础算子实现。作为昇腾AI计算栈的"地基工程",ops-nn位于算子库层(AOL),与catlass协同工作,共同支撑上层框架和应用。 ops-nn包含卷积、矩阵运算、归一化、激活函数等深度学习常用算子的高性能实现,针对昇腾达芬奇架构进行了深度优化,充分利用立方体单元、向量单元等硬件特性。其核心能力包括算子融

摘要 ops-nn是昇腾异构计算架构(CANN)中的核心神经网络算子库,为深度学习模型提供基础算子实现。作为昇腾AI计算栈的"地基工程",ops-nn位于算子库层(AOL),与catlass协同工作,共同支撑上层框架和应用。 ops-nn包含卷积、矩阵运算、归一化、激活函数等深度学习常用算子的高性能实现,针对昇腾达芬奇架构进行了深度优化,充分利用立方体单元、向量单元等硬件特性。其核心能力包括算子融

摘要 ops-nn是昇腾异构计算架构(CANN)中的核心神经网络算子库,为深度学习模型提供基础算子实现。作为昇腾AI计算栈的"地基工程",ops-nn位于算子库层(AOL),与catlass协同工作,共同支撑上层框架和应用。 ops-nn包含卷积、矩阵运算、归一化、激活函数等深度学习常用算子的高性能实现,针对昇腾达芬奇架构进行了深度优化,充分利用立方体单元、向量单元等硬件特性。其核心能力包括算子融

本文探讨了昇腾NPU专用数学算子库ops-math的设计理念与实现策略。针对NumPy在NPU硬件上的适配问题,ops-math采用模块化架构,将算子分为conversion(形态变换)、math(数学运算)和random(随机生成)三大类。其中,Cast算子通过分块搬运和向量指令实现高效类型转换;Exp算子采用范围缩减和多项式近似确保计算精度;随机数生成则针对NPU特性优化。这种分层设计解决了编

本文探讨了昇腾NPU专用数学算子库ops-math的设计理念与实现策略。针对NumPy在NPU硬件上的适配问题,ops-math采用模块化架构,将算子分为conversion(形态变换)、math(数学运算)和random(随机生成)三大类。其中,Cast算子通过分块搬运和向量指令实现高效类型转换;Exp算子采用范围缩减和多项式近似确保计算精度;随机数生成则针对NPU特性优化。这种分层设计解决了编

本文探讨了昇腾NPU专用数学算子库ops-math的设计理念与实现策略。针对NumPy在NPU硬件上的适配问题,ops-math采用模块化架构,将算子分为conversion(形态变换)、math(数学运算)和random(随机生成)三大类。其中,Cast算子通过分块搬运和向量指令实现高效类型转换;Exp算子采用范围缩减和多项式近似确保计算精度;随机数生成则针对NPU特性优化。这种分层设计解决了编

本文介绍了昇腾NPU上的算子自动融合框架graph-autofusion,它通过自动发现融合机会和SuperKernel技术,解决了手动融合算子时工作量大的问题。该框架包含Autofuse和SuperKernel两个核心组件,能够自动分析算子间的数据依赖和硬件亲和性,将多个算子编译成单一Kernel执行,避免了中间结果的频繁读写。其JIT编译流程分为五个阶段:输入算子序列、自动融合分析、代码生成、








