logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

在大模型推理中避开 HostBound:一次IRQ中断-绑核优化的完整实战

A 组(分离):Node@launch 正常,中断对业务线程干扰小,CPU 空泡可控。B 组(同核):Node@launch 略增,但更关键的是CPU 空泡显著增大。在我们样本中,推理过程中一秒内发生了两万次中断,业务线程被持续打断,decode 阶段耗时明显拉长。中断-业务同核是 HostBound 的重要诱因;只要把高频 IRQ 和核心推理线程错开,就能显著改善 Host 侧连贯性。

#人工智能#昇腾
基于 AscendNPU IR 的自定义优化案例:从问题定位到落地实践

问题定位:通过 Profiling 工具(如昇腾 Profiler)或用户反馈,明确性能瓶颈(如内存冲突、调度低效)或功能缺口(如方言不支持)。方案设计:结合 MLIR 的模块化特性,选择优化方式(如自定义 pass、方言扩展、算子增强),确保方案适配昇腾硬件特性。实现验证:基于 C++ 实现优化逻辑,通过 MLIR 的测试框架编写用例,验证正确性与性能提升。落地集成:将优化代码提交到 Ascen

#大数据#开发语言#昇腾
服务器?不存在的!30秒召唤云端小精灵,带你玩转腾讯云EdgeOne Pages

EdgeOne Pages 是基于 Tencent EdgeOne 基础设施打造的前端开发和部署平台,专为现代 Web 开发设计,帮助开发者快速构建、部署静态站点和无服务器应用。通过集成边缘函数能力,实现高效的内容交付和动态功能扩展,支持全球用户的快速访问。EdgeOne Pages就像给开发者准备的“一键建站神器”,哪怕你是个技术小白,只要绑定GitHub仓库,选个模板,点几下就能自动生成

文章图片
#DeepSeek
飞算JavaAI专业版的AI工具箱:一键修复与整洁器的效率革命

市面上AI编程助手不少,我用过GitHub Copilot(补全快但上下文弱)、通义灵码(免费但企业级不足)、CodeWhisperer(计费高、大项目账单爆)、Cursor(响应慢、对中文弱)。升级后,围绕效率、模型、质量三大维度:无限Tokens解放复杂任务、企业级模型提升稳定性、代码从“能用”到“好用”。飞算全包,性价比高。我直接在飞算AI工具箱的“一键修复器”界面输入简短描述:“BookS

#python#人工智能#开发语言
拒绝“人工智障”:618大促背后的 MateChat 智能导购架构演进与性能极致优化

在电商大促的流量洪峰下,传统的关键字客服机器人往往因为交互呆板、上下文缺失导致用户流失。本文深度复盘了如何利用华为云 DevUI MateChat 组件的 Slot(自定义插槽)机制,结合 DevUI 业务组件库,构建一个具备"流式骨架屏"加载体验、支持结构化商品推送的智能导购助手。实测首屏交互延迟(TTI)降低 40%,咨询转化率提升 120%。交互体验提升:转化率提升120%,用户停留时长增加

#架构
服务器?不存在的!30秒召唤云端小精灵,带你玩转腾讯云EdgeOne Pages

EdgeOne Pages 是基于 Tencent EdgeOne 基础设施打造的前端开发和部署平台,专为现代 Web 开发设计,帮助开发者快速构建、部署静态站点和无服务器应用。通过集成边缘函数能力,实现高效的内容交付和动态功能扩展,支持全球用户的快速访问。EdgeOne Pages就像给开发者准备的“一键建站神器”,哪怕你是个技术小白,只要绑定GitHub仓库,选个模板,点几下就能自动生成

文章图片
#DeepSeek
在大模型推理中避开 HostBound:一次IRQ中断-绑核优化的完整实战

A 组(分离):Node@launch 正常,中断对业务线程干扰小,CPU 空泡可控。B 组(同核):Node@launch 略增,但更关键的是CPU 空泡显著增大。在我们样本中,推理过程中一秒内发生了两万次中断,业务线程被持续打断,decode 阶段耗时明显拉长。中断-业务同核是 HostBound 的重要诱因;只要把高频 IRQ 和核心推理线程错开,就能显著改善 Host 侧连贯性。

#人工智能
基于 AscendNPU IR 的自定义优化案例:从问题定位到落地实践

问题定位:通过 Profiling 工具(如昇腾 Profiler)或用户反馈,明确性能瓶颈(如内存冲突、调度低效)或功能缺口(如方言不支持)。方案设计:结合 MLIR 的模块化特性,选择优化方式(如自定义 pass、方言扩展、算子增强),确保方案适配昇腾硬件特性。实现验证:基于 C++ 实现优化逻辑,通过 MLIR 的测试框架编写用例,验证正确性与性能提升。落地集成:将优化代码提交到 Ascen

#java#大数据#开发语言
在大模型推理中避开 HostBound:一次IRQ中断-绑核优化的完整实战

A 组(分离):Node@launch 正常,中断对业务线程干扰小,CPU 空泡可控。B 组(同核):Node@launch 略增,但更关键的是CPU 空泡显著增大。在我们样本中,推理过程中一秒内发生了两万次中断,业务线程被持续打断,decode 阶段耗时明显拉长。中断-业务同核是 HostBound 的重要诱因;只要把高频 IRQ 和核心推理线程错开,就能显著改善 Host 侧连贯性。

#人工智能
到底了