logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【昇腾CANN训练营·服务化篇】从Offline到Online:使用MindIE构建高并发LLM推理服务

本文介绍了昇腾NPU的MindIE推理引擎在大模型部署中的创新技术。通过ContinuousBatching技术实现动态批处理调度,类比俄罗斯方块填补计算空隙;采用PagedAttention机制分页管理KVCache,解决显存碎片问题。文章详细演示了如何使用MindIE部署LLaMA模型:从环境准备、配置文件修改到服务启动,并展示了兼容OpenAI API的调用方式。MindIE支持直接加载To

文章图片
#昇腾#算法
【昇腾CANN训练营·服务化篇】从Offline到Online:使用MindIE构建高并发LLM推理服务

本文介绍了昇腾NPU的MindIE推理引擎在大模型部署中的创新技术。通过ContinuousBatching技术实现动态批处理调度,类比俄罗斯方块填补计算空隙;采用PagedAttention机制分页管理KVCache,解决显存碎片问题。文章详细演示了如何使用MindIE部署LLaMA模型:从环境准备、配置文件修改到服务启动,并展示了兼容OpenAI API的调用方式。MindIE支持直接加载To

文章图片
#昇腾#算法
【昇腾CANN训练营·服务化篇】从Offline到Online:使用MindIE构建高并发LLM推理服务

本文介绍了昇腾NPU的MindIE推理引擎在大模型部署中的创新技术。通过ContinuousBatching技术实现动态批处理调度,类比俄罗斯方块填补计算空隙;采用PagedAttention机制分页管理KVCache,解决显存碎片问题。文章详细演示了如何使用MindIE部署LLaMA模型:从环境准备、配置文件修改到服务启动,并展示了兼容OpenAI API的调用方式。MindIE支持直接加载To

文章图片
#昇腾#算法
【昇腾CANN训练营·服务化篇】从Offline到Online:使用MindIE构建高并发LLM推理服务

本文介绍了昇腾NPU的MindIE推理引擎在大模型部署中的创新技术。通过ContinuousBatching技术实现动态批处理调度,类比俄罗斯方块填补计算空隙;采用PagedAttention机制分页管理KVCache,解决显存碎片问题。文章详细演示了如何使用MindIE部署LLaMA模型:从环境准备、配置文件修改到服务启动,并展示了兼容OpenAI API的调用方式。MindIE支持直接加载To

文章图片
#昇腾#算法
【昇腾CANN训练营·进阶篇】精度侦探:使用PyTorch Hook与溢出检测工具定位数值异常

精度调试是对开发者耐心的终极考验。宏观:利用 Loss 曲线判断发散趋势。中观:利用 PyTorch Hook 快速定位出现 NaN 的层级。微观:利用 NPU 硬件检测和 Dump 工具,揪出算子内部的溢出。基准:始终以 FP32 的 CPU/GPU 结果为金标准(Golden Data)。掌握了这套侦探技能,你就不会再被莫名其妙的 Loss NaN 吓倒,而是能冷静地找出真凶。

文章图片
#昇腾#pytorch#python
【昇腾CANN训练营·进阶篇】精度侦探:使用PyTorch Hook与溢出检测工具定位数值异常

精度调试是对开发者耐心的终极考验。宏观:利用 Loss 曲线判断发散趋势。中观:利用 PyTorch Hook 快速定位出现 NaN 的层级。微观:利用 NPU 硬件检测和 Dump 工具,揪出算子内部的溢出。基准:始终以 FP32 的 CPU/GPU 结果为金标准(Golden Data)。掌握了这套侦探技能,你就不会再被莫名其妙的 Loss NaN 吓倒,而是能冷静地找出真凶。

文章图片
#昇腾#pytorch#python
【昇腾CANN训练营·工具篇】波形之美:使用System Profiling进行板级总线与功耗分析

摘要:2025年昇腾CANN训练营第二季提供全场景算子开发课程,助力开发者技能提升。本期重点介绍SystemProfiling技术,通过硬件级性能分析突破算子优化瓶颈。文章详解如何采集NPU硬件指标(HBM带宽、频率功耗等),并指导解读波形数据诊断内存、算力等瓶颈。结合Roofline模型分析,帮助开发者从系统架构视角优化性能,实现从代码逻辑到硬件物理的思维跃迁。该技术是AI系统调优的关键技能,为

文章图片
#昇腾
【昇腾CANN训练营·工具篇】波形之美:使用System Profiling进行板级总线与功耗分析

摘要:2025年昇腾CANN训练营第二季提供全场景算子开发课程,助力开发者技能提升。本期重点介绍SystemProfiling技术,通过硬件级性能分析突破算子优化瓶颈。文章详解如何采集NPU硬件指标(HBM带宽、频率功耗等),并指导解读波形数据诊断内存、算力等瓶颈。结合Roofline模型分析,帮助开发者从系统架构视角优化性能,实现从代码逻辑到硬件物理的思维跃迁。该技术是AI系统调优的关键技能,为

文章图片
#昇腾
【昇腾CANN训练营·工具篇】波形之美:使用System Profiling进行板级总线与功耗分析

摘要:2025年昇腾CANN训练营第二季提供全场景算子开发课程,助力开发者技能提升。本期重点介绍SystemProfiling技术,通过硬件级性能分析突破算子优化瓶颈。文章详解如何采集NPU硬件指标(HBM带宽、频率功耗等),并指导解读波形数据诊断内存、算力等瓶颈。结合Roofline模型分析,帮助开发者从系统架构视角优化性能,实现从代码逻辑到硬件物理的思维跃迁。该技术是AI系统调优的关键技能,为

文章图片
#昇腾
【昇腾CANN训练营·进阶篇】乾坤大挪移:高效实现Transpose与Permute的数据重排技巧

摘要:2025年昇腾CANN训练营推出系列专题课程,助力开发者提升算子开发技能。本期重点解析如何优化Transpose/Permute算子性能,通过地址步长(Stride)和分块搬运技术将"乱序"转化为"有序"。核心方案包括:利用DataCopy的Stride机制实现高效数据搬运;采用分块转置策略;借助硬件特性如MTE3能力或Cube单元格式转换;创新性地将

文章图片
#昇腾#人工智能#算法
    共 47 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择