
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
CANN推出的ops-transformer是针对Transformer类大模型的专用算子库,在NPU上实现BERT、GPT等主流大模型的高效加速。该项目开源后获得650+星标,提供FlashAttention、融合算子等核心技术,支持多精度计算和动态形状处理。其核心算子如自注意力机制采用分块计算优化内存访问,通过在线Softmax等技术显著提升性能,为大模型部署提供基础支撑。

CANN推出的ops-transformer是针对Transformer类大模型的专用算子库,在NPU上实现BERT、GPT等主流大模型的高效加速。该项目开源后获得650+星标,提供FlashAttention、融合算子等核心技术,支持多精度计算和动态形状处理。其核心算子如自注意力机制采用分块计算优化内存访问,通过在线Softmax等技术显著提升性能,为大模型部署提供基础支撑。

CANN推理优化项目cann-recipes-infer为AI模型推理提供端到端优化方案,涵盖LLM和多模态模型。该项目在开源社区获530+Star,包含DeepSeek等主流模型的优化实践,提供从模型转换到多流并发的完整流程。技术特点包括完整代码、性能优化技巧和详细文档,其中DeepSeek模型优化展示了CP并行策略和大EP并行等关键技术,通过分块处理和专家路由实现高效推理。项目为开发者提供可直

CANN推理优化项目cann-recipes-infer为AI模型推理提供端到端优化方案,涵盖LLM和多模态模型。该项目在开源社区获530+Star,包含DeepSeek等主流模型的优化实践,提供从模型转换到多流并发的完整流程。技术特点包括完整代码、性能优化技巧和详细文档,其中DeepSeek模型优化展示了CP并行策略和大EP并行等关键技术,通过分块处理和专家路由实现高效推理。项目为开发者提供可直








