莞凰个人主页

@2501_94120645

莞凰

2025-11-19 23:09:22 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾CANN的“万法归宗“：cann-samples仓库探秘

西安某高校的AI实验室，几个研究生围着一块Atlas 200 DK开发板发愁。导师布置的任务：用昇腾NPU跑一个目标检测Demo，下周组会汇报。GitHub上搜了一圈，算子文档看不懂，API手册太厚，示例代码要么太简单（只有矩阵加法）要么太复杂（直接上YOLOv8，2000行代码）。"有没有那种……刚刚好的示例代码？"一个学生嘀咕。导师推门进来，扔过来一个链接：“看这个，官方示例，从Hello W

#ui #flutter #java

昇腾CANN的“万法归宗“：cann-samples仓库探秘

#ui #flutter #java

昇腾CANN的“万法归宗“：cann-samples仓库探秘

#ui #flutter #java

昇腾CANN的“灵脉根基“：Runtime仓库探秘

杭州某AI实验室，深夜十一点。两个工程师对着屏幕发呆——他们的模型在GPU上跑得好好的，迁移到昇腾NPU之后，性能直接腰斩。“算子没问题，通信没问题，图编译也没问题……到底卡在哪了？排查了三天，最后发现问题出在Stream调度上——GPU和NPU的执行模型不一样，他们照搬了GPU的调度方式，导致NPU的Cube Unit大量空闲时间。解决方案：重新配置Runtime的Stream调度策略。改完之后

#人工智能 #android #transformer

昇腾CANN的“灵脉根基“：Runtime仓库探秘

#人工智能 #android #transformer

昇腾CANN的“灵脉根基“：Runtime仓库探秘

#人工智能 #android #transformer

昇腾CANN的“御剑飞行“：ATB仓库探秘

深圳南山科技园，凌晨两点，某大模型创业公司的会议室还亮着灯。白板上写满了性能数据：LLaMA-70B推理，单卡吞吐量8 token/s，距离商用门槛的50 token/s还差6倍。CTO把笔往桌上一摔：“算子优化也做了，通信也调了，还是差这么远——难道只能堆卡？角落里，刚从华为跳槽过来的算法工程师怯怯地举了下手：“要不要试试……ATB？三个月后，这家公司的LLaMA-70B推理吞吐量跑到了52 t

#transformer #人工智能 #flutter

昇腾CANN的“御剑飞行“：ATB仓库探秘

#transformer #人工智能 #flutter

昇腾CANN的“御剑飞行“：ATB仓库探秘

#transformer #人工智能 #flutter

昇腾CANN的“传音入密“：hccl仓库探秘

去年双十一，阿里云华南区的一台NPU集群差点炸了。不是真的炸，是训练任务跑着跑着，突然所有卡都"失联"了——梯度同步超时，训练任务卡死。我当时正好在驻场支持，看着监控面板上128张Atlas 800T A2的通信流量图，像心电图一样剧烈波动，心里咯噔一下：“完蛋，hccl出问题了。那个周末，我和三个兄弟在机房里蹲了48小时，终于把问题定位到hccl的一个corner case——集合通信在大规模集

#flutter #ui #transformer

共 48 条

请选择