logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CANN 与 AIGC:利用 Auto‑Tune 实现推理性能突破

本文介绍了CANN的Auto-Tune机制如何优化AIGC模型的推理性能。随着AIGC模型规模扩大,传统手工调参效率低下。Auto-Tune通过自动搜索算子调度、内存复用等参数组合,在不修改模型代码的情况下提升性能。文章详细说明了其核心机制(搜索空间定义、评估模型、优化算法)和实践流程(环境准备、配置文件生成、执行调优和性能验证),展示了延迟下降37%、吞吐量提升60%的优化效果。同时提供了多维度

文章图片
#AIGC
基于 CANN ops-nn 实现 GroupNorm 自定义算子:AIGC 视觉生成模型的关键加速路径

本文介绍了基于CANN开源项目ops-nn开发的高性能GroupNorm算子实现方案。该方案针对AIGC视觉生成任务中的性能瓶颈,通过分组并行优化策略显著提升了推理效率。文章详细阐述了三个关键实践:1)在算子语义注册中明确分组数与仿射参数;2)在Kernel层采用"每组一个block"策略优化内存访问;3)通过Stable Diffusion等AIGC场景验证性能。实测表明,该

文章图片
#AIGC
高效查找算法实战指南

在实际工程中,通常需要多种数据结构协同工作:有序数组提供快速区间查找,哈希表提供常数时间定位,Trie 提供前缀和自动完成能力,KMP 等字符串算法提供高效的子串检索,suffix 系列结构则在大文本检索中占据核心地位。平衡树在维持排序的同时提供对数级查找;如果你愿意,我可以把以上各个数据结构的实现扩展成一个完整的教学代码库,包含可运行的示例、性能测试用例与对比分析,帮助你在实际项目中快速落地。实

#java#算法#数据结构
到底了