logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾CANN的“万法归宗“:cann-samples仓库探秘

西安某高校的AI实验室,几个研究生围着一块Atlas 200 DK开发板发愁。导师布置的任务:用昇腾NPU跑一个目标检测Demo,下周组会汇报。GitHub上搜了一圈,算子文档看不懂,API手册太厚,示例代码要么太简单(只有矩阵加法)要么太复杂(直接上YOLOv8,2000行代码)。"有没有那种……刚刚好的示例代码?"一个学生嘀咕。导师推门进来,扔过来一个链接:“看这个,官方示例,从Hello W

文章图片
#ui#flutter#java
昇腾CANN的“万法归宗“:cann-samples仓库探秘

西安某高校的AI实验室,几个研究生围着一块Atlas 200 DK开发板发愁。导师布置的任务:用昇腾NPU跑一个目标检测Demo,下周组会汇报。GitHub上搜了一圈,算子文档看不懂,API手册太厚,示例代码要么太简单(只有矩阵加法)要么太复杂(直接上YOLOv8,2000行代码)。"有没有那种……刚刚好的示例代码?"一个学生嘀咕。导师推门进来,扔过来一个链接:“看这个,官方示例,从Hello W

文章图片
#ui#flutter#java
昇腾CANN的“万法归宗“:cann-samples仓库探秘

西安某高校的AI实验室,几个研究生围着一块Atlas 200 DK开发板发愁。导师布置的任务:用昇腾NPU跑一个目标检测Demo,下周组会汇报。GitHub上搜了一圈,算子文档看不懂,API手册太厚,示例代码要么太简单(只有矩阵加法)要么太复杂(直接上YOLOv8,2000行代码)。"有没有那种……刚刚好的示例代码?"一个学生嘀咕。导师推门进来,扔过来一个链接:“看这个,官方示例,从Hello W

文章图片
#ui#flutter#java
昇腾CANN的“灵脉根基“:Runtime仓库探秘

杭州某AI实验室,深夜十一点。两个工程师对着屏幕发呆——他们的模型在GPU上跑得好好的,迁移到昇腾NPU之后,性能直接腰斩。“算子没问题,通信没问题,图编译也没问题……到底卡在哪了?排查了三天,最后发现问题出在Stream调度上——GPU和NPU的执行模型不一样,他们照搬了GPU的调度方式,导致NPU的Cube Unit大量空闲时间。解决方案:重新配置Runtime的Stream调度策略。改完之后

文章图片
#人工智能#android#transformer
昇腾CANN的“灵脉根基“:Runtime仓库探秘

杭州某AI实验室,深夜十一点。两个工程师对着屏幕发呆——他们的模型在GPU上跑得好好的,迁移到昇腾NPU之后,性能直接腰斩。“算子没问题,通信没问题,图编译也没问题……到底卡在哪了?排查了三天,最后发现问题出在Stream调度上——GPU和NPU的执行模型不一样,他们照搬了GPU的调度方式,导致NPU的Cube Unit大量空闲时间。解决方案:重新配置Runtime的Stream调度策略。改完之后

文章图片
#人工智能#android#transformer
昇腾CANN的“灵脉根基“:Runtime仓库探秘

杭州某AI实验室,深夜十一点。两个工程师对着屏幕发呆——他们的模型在GPU上跑得好好的,迁移到昇腾NPU之后,性能直接腰斩。“算子没问题,通信没问题,图编译也没问题……到底卡在哪了?排查了三天,最后发现问题出在Stream调度上——GPU和NPU的执行模型不一样,他们照搬了GPU的调度方式,导致NPU的Cube Unit大量空闲时间。解决方案:重新配置Runtime的Stream调度策略。改完之后

文章图片
#人工智能#android#transformer
昇腾CANN的“御剑飞行“:ATB仓库探秘

深圳南山科技园,凌晨两点,某大模型创业公司的会议室还亮着灯。白板上写满了性能数据:LLaMA-70B推理,单卡吞吐量8 token/s,距离商用门槛的50 token/s还差6倍。CTO把笔往桌上一摔:“算子优化也做了,通信也调了,还是差这么远——难道只能堆卡?角落里,刚从华为跳槽过来的算法工程师怯怯地举了下手:“要不要试试……ATB?三个月后,这家公司的LLaMA-70B推理吞吐量跑到了52 t

文章图片
#transformer#人工智能#flutter
昇腾CANN的“御剑飞行“:ATB仓库探秘

深圳南山科技园,凌晨两点,某大模型创业公司的会议室还亮着灯。白板上写满了性能数据:LLaMA-70B推理,单卡吞吐量8 token/s,距离商用门槛的50 token/s还差6倍。CTO把笔往桌上一摔:“算子优化也做了,通信也调了,还是差这么远——难道只能堆卡?角落里,刚从华为跳槽过来的算法工程师怯怯地举了下手:“要不要试试……ATB?三个月后,这家公司的LLaMA-70B推理吞吐量跑到了52 t

文章图片
#transformer#人工智能#flutter
昇腾CANN的“御剑飞行“:ATB仓库探秘

深圳南山科技园,凌晨两点,某大模型创业公司的会议室还亮着灯。白板上写满了性能数据:LLaMA-70B推理,单卡吞吐量8 token/s,距离商用门槛的50 token/s还差6倍。CTO把笔往桌上一摔:“算子优化也做了,通信也调了,还是差这么远——难道只能堆卡?角落里,刚从华为跳槽过来的算法工程师怯怯地举了下手:“要不要试试……ATB?三个月后,这家公司的LLaMA-70B推理吞吐量跑到了52 t

文章图片
#transformer#人工智能#flutter
昇腾CANN的“传音入密“:hccl仓库探秘

去年双十一,阿里云华南区的一台NPU集群差点炸了。不是真的炸,是训练任务跑着跑着,突然所有卡都"失联"了——梯度同步超时,训练任务卡死。我当时正好在驻场支持,看着监控面板上128张Atlas 800T A2的通信流量图,像心电图一样剧烈波动,心里咯噔一下:“完蛋,hccl出问题了。那个周末,我和三个兄弟在机房里蹲了48小时,终于把问题定位到hccl的一个corner case——集合通信在大规模集

文章图片
#flutter#ui#transformer
    共 48 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择