绫香之歌-是为春华个人主页

@2501_92956270

绫香之歌-是为春华

2025-11-23 10:08:22 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

《非对齐尾块处理：昇腾算子工业级鲁棒性的关键技术攻坚》

非对齐尾块是指算子处理动态 Shape 或非 2 幂次维度时，张量分块后剩余的、不满足硬件指令对齐要求（如 Cube 指令 32/64 倍对齐、AIV 指令 16 倍对齐）的边缘分块。核心思路：主块使用高效对齐指令（如 CubeGemm），尾块通过 “填充对齐 + 裁剪结果” 或 “专用非对齐指令” 处理，平衡性能与正确性。核心思路：分块阶段提前识别尾块，通过 “主块对齐 + 尾块适配” 的策略，

文章图片

#开发语言 #c++

《非对齐尾块处理：昇腾算子工业级鲁棒性的关键技术攻坚》

非对齐尾块是指算子处理动态 Shape 或非 2 幂次维度时，张量分块后剩余的、不满足硬件指令对齐要求（如 Cube 指令 32/64 倍对齐、AIV 指令 16 倍对齐）的边缘分块。核心思路：主块使用高效对齐指令（如 CubeGemm），尾块通过 “填充对齐 + 裁剪结果” 或 “专用非对齐指令” 处理，平衡性能与正确性。核心思路：分块阶段提前识别尾块，通过 “主块对齐 + 尾块适配” 的策略，

文章图片

#开发语言 #c++

《硬件软件协同优化：Ascend C 如何释放昇腾 AI 处理器的算力潜能》

硬件特性优先适配：任何优化策略需以昇腾硬件架构为基础，如 Cube 指令对齐要求、三级存储带宽差异等，避免 “软件自嗨式优化”；分块是核心抓手：分块大小直接决定缓存利用率、指令适配性和并行效率，需动态匹配 UB 容量、核数和输入 Shape；并行是算力关键：最大化利用异步搬运（MTE）、SPMD 并行、流水线重叠，掩盖存储访问延迟和计算间隙；工具链深度依赖：充分利用编译优化和性能分析工具，避免盲目

文章图片

#c语言 #人工智能 #开发语言

《硬件软件协同优化：Ascend C 如何释放昇腾 AI 处理器的算力潜能》

硬件特性优先适配：任何优化策略需以昇腾硬件架构为基础，如 Cube 指令对齐要求、三级存储带宽差异等，避免 “软件自嗨式优化”；分块是核心抓手：分块大小直接决定缓存利用率、指令适配性和并行效率，需动态匹配 UB 容量、核数和输入 Shape；并行是算力关键：最大化利用异步搬运（MTE）、SPMD 并行、流水线重叠，掩盖存储访问延迟和计算间隙；工具链深度依赖：充分利用编译优化和性能分析工具，避免盲目

文章图片

#c语言 #人工智能 #开发语言

《硬件软件协同优化：Ascend C 如何释放昇腾 AI 处理器的算力潜能》

硬件特性优先适配：任何优化策略需以昇腾硬件架构为基础，如 Cube 指令对齐要求、三级存储带宽差异等，避免 “软件自嗨式优化”；分块是核心抓手：分块大小直接决定缓存利用率、指令适配性和并行效率，需动态匹配 UB 容量、核数和输入 Shape；并行是算力关键：最大化利用异步搬运（MTE）、SPMD 并行、流水线重叠，掩盖存储访问延迟和计算间隙；工具链深度依赖：充分利用编译优化和性能分析工具，避免盲目

文章图片

#c语言 #人工智能 #开发语言

《硬件软件协同优化：Ascend C 如何释放昇腾 AI 处理器的算力潜能》

硬件特性优先适配：任何优化策略需以昇腾硬件架构为基础，如 Cube 指令对齐要求、三级存储带宽差异等，避免 “软件自嗨式优化”；分块是核心抓手：分块大小直接决定缓存利用率、指令适配性和并行效率，需动态匹配 UB 容量、核数和输入 Shape；并行是算力关键：最大化利用异步搬运（MTE）、SPMD 并行、流水线重叠，掩盖存储访问延迟和计算间隙；工具链深度依赖：充分利用编译优化和性能分析工具，避免盲目

文章图片

#c语言 #人工智能 #开发语言

《硬件软件协同优化：Ascend C 如何释放昇腾 AI 处理器的算力潜能》

硬件特性优先适配：任何优化策略需以昇腾硬件架构为基础，如 Cube 指令对齐要求、三级存储带宽差异等，避免 “软件自嗨式优化”；分块是核心抓手：分块大小直接决定缓存利用率、指令适配性和并行效率，需动态匹配 UB 容量、核数和输入 Shape；并行是算力关键：最大化利用异步搬运（MTE）、SPMD 并行、流水线重叠，掩盖存储访问延迟和计算间隙；工具链深度依赖：充分利用编译优化和性能分析工具，避免盲目

文章图片

#c语言 #人工智能 #开发语言

《非对齐尾块处理：昇腾算子工业级鲁棒性的关键技术攻坚》

非对齐尾块是指算子处理动态 Shape 或非 2 幂次维度时，张量分块后剩余的、不满足硬件指令对齐要求（如 Cube 指令 32/64 倍对齐、AIV 指令 16 倍对齐）的边缘分块。核心思路：主块使用高效对齐指令（如 CubeGemm），尾块通过 “填充对齐 + 裁剪结果” 或 “专用非对齐指令” 处理，平衡性能与正确性。核心思路：分块阶段提前识别尾块，通过 “主块对齐 + 尾块适配” 的策略，

文章图片

#开发语言 #c++

《非对齐尾块处理：昇腾算子工业级鲁棒性的关键技术攻坚》

非对齐尾块是指算子处理动态 Shape 或非 2 幂次维度时，张量分块后剩余的、不满足硬件指令对齐要求（如 Cube 指令 32/64 倍对齐、AIV 指令 16 倍对齐）的边缘分块。核心思路：主块使用高效对齐指令（如 CubeGemm），尾块通过 “填充对齐 + 裁剪结果” 或 “专用非对齐指令” 处理，平衡性能与正确性。核心思路：分块阶段提前识别尾块，通过 “主块对齐 + 尾块适配” 的策略，

文章图片

#开发语言 #c++

到底了