logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大模型加速】CANN ops-transformer算子库全面解析:为Transformer模型打造极致性能引擎

CANN推出的ops-transformer是针对Transformer类大模型的专用算子库,在NPU上实现BERT、GPT等主流大模型的高效加速。该项目开源后获得650+星标,提供FlashAttention、融合算子等核心技术,支持多精度计算和动态形状处理。其核心算子如自注意力机制采用分块计算优化内存访问,通过在线Softmax等技术显著提升性能,为大模型部署提供基础支撑。

文章图片
#transformer#深度学习#人工智能
【大模型加速】CANN ops-transformer算子库全面解析:为Transformer模型打造极致性能引擎

CANN推出的ops-transformer是针对Transformer类大模型的专用算子库,在NPU上实现BERT、GPT等主流大模型的高效加速。该项目开源后获得650+星标,提供FlashAttention、融合算子等核心技术,支持多精度计算和动态形状处理。其核心算子如自注意力机制采用分块计算优化内存访问,通过在线Softmax等技术显著提升性能,为大模型部署提供基础支撑。

文章图片
#transformer#深度学习#人工智能
【AI推理实战】CANN推理实践样例全解析:从模型部署到性能优化的完整指南

CANN推理优化项目cann-recipes-infer为AI模型推理提供端到端优化方案,涵盖LLM和多模态模型。该项目在开源社区获530+Star,包含DeepSeek等主流模型的优化实践,提供从模型转换到多流并发的完整流程。技术特点包括完整代码、性能优化技巧和详细文档,其中DeepSeek模型优化展示了CP并行策略和大EP并行等关键技术,通过分块处理和专家路由实现高效推理。项目为开发者提供可直

文章图片
#人工智能#性能优化#numpy +2
【AI推理实战】CANN推理实践样例全解析:从模型部署到性能优化的完整指南

CANN推理优化项目cann-recipes-infer为AI模型推理提供端到端优化方案,涵盖LLM和多模态模型。该项目在开源社区获530+Star,包含DeepSeek等主流模型的优化实践,提供从模型转换到多流并发的完整流程。技术特点包括完整代码、性能优化技巧和详细文档,其中DeepSeek模型优化展示了CP并行策略和大EP并行等关键技术,通过分块处理和专家路由实现高效推理。项目为开发者提供可直

文章图片
#人工智能#性能优化#numpy +2
到底了