
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
在大模型推理中避开 HostBound:一次IRQ中断-绑核优化的完整实战
A 组(分离):Node@launch 正常,中断对业务线程干扰小,CPU 空泡可控。B 组(同核):Node@launch 略增,但更关键的是CPU 空泡显著增大。在我们样本中,推理过程中一秒内发生了两万次中断,业务线程被持续打断,decode 阶段耗时明显拉长。中断-业务同核是 HostBound 的重要诱因;只要把高频 IRQ 和核心推理线程错开,就能显著改善 Host 侧连贯性。
基于 AscendNPU IR 的自定义优化案例:从问题定位到落地实践
问题定位:通过 Profiling 工具(如昇腾 Profiler)或用户反馈,明确性能瓶颈(如内存冲突、调度低效)或功能缺口(如方言不支持)。方案设计:结合 MLIR 的模块化特性,选择优化方式(如自定义 pass、方言扩展、算子增强),确保方案适配昇腾硬件特性。实现验证:基于 C++ 实现优化逻辑,通过 MLIR 的测试框架编写用例,验证正确性与性能提升。落地集成:将优化代码提交到 Ascen
在大模型推理中避开 HostBound:一次IRQ中断-绑核优化的完整实战
A 组(分离):Node@launch 正常,中断对业务线程干扰小,CPU 空泡可控。B 组(同核):Node@launch 略增,但更关键的是CPU 空泡显著增大。在我们样本中,推理过程中一秒内发生了两万次中断,业务线程被持续打断,decode 阶段耗时明显拉长。中断-业务同核是 HostBound 的重要诱因;只要把高频 IRQ 和核心推理线程错开,就能显著改善 Host 侧连贯性。
到底了







