
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
写昇腾代码的时候有两类报错最让人头疼:**NPU 掉线**:程序跑着跑着突然 `RuntimeError: NPU is not available`,一看 `npu-smi` 发现卡的状态从 Healthy 变成了 Error。**内存分配失败**:显存够,但分配的时候报 `OutOfMemoryError` 或者 `MemoryError`,百思不得其解。这两类问题往往不是应用层的问题,要往驱

写昇腾代码的时候有两类报错最让人头疼:**NPU 掉线**:程序跑着跑着突然 `RuntimeError: NPU is not available`,一看 `npu-smi` 发现卡的状态从 Healthy 变成了 Error。**内存分配失败**:显存够,但分配的时候报 `OutOfMemoryError` 或者 `MemoryError`,百思不得其解。这两类问题往往不是应用层的问题,要往驱

写昇腾代码的时候有两类报错最让人头疼:**NPU 掉线**:程序跑着跑着突然 `RuntimeError: NPU is not available`,一看 `npu-smi` 发现卡的状态从 Healthy 变成了 Error。**内存分配失败**:显存够,但分配的时候报 `OutOfMemoryError` 或者 `MemoryError`,百思不得其解。这两类问题往往不是应用层的问题,要往驱

"驱动和 CANN 版本不匹配"这个问题,是我见过的最多新手踩坑的场景之一。报错信息往往是 `RuntimeError: acl op loading failed` 或者 `driver version mismatch`,看到之后一脸懵:我装的 CANN 明明是最新的,怎么驱动不支持?这一篇把驱动和 CANN 版本的关系说清楚。

"驱动和 CANN 版本不匹配"这个问题,是我见过的最多新手踩坑的场景之一。报错信息往往是 `RuntimeError: acl op loading failed` 或者 `driver version mismatch`,看到之后一脸懵:我装的 CANN 明明是最新的,怎么驱动不支持?这一篇把驱动和 CANN 版本的关系说清楚。

"驱动和 CANN 版本不匹配"这个问题,是我见过的最多新手踩坑的场景之一。报错信息往往是 `RuntimeError: acl op loading failed` 或者 `driver version mismatch`,看到之后一脸懵:我装的 CANN 明明是最新的,怎么驱动不支持?这一篇把驱动和 CANN 版本的关系说清楚。

做大模型分布式训练,光有HCCL的标准集合通信还不够。比如你想做Pipeline Parallelism,需要点对点通信,HCCL就搞不定了。这时候就需要hcomm这个库,它提供了更灵活的通信原语。这篇文章就来讲讲hcomm的架构原理和使用方法。

做大模型分布式训练,光有HCCL的标准集合通信还不够。比如你想做Pipeline Parallelism,需要点对点通信,HCCL就搞不定了。这时候就需要hcomm这个库,它提供了更灵活的通信原语。这篇文章就来讲讲hcomm的架构原理和使用方法。

做大模型分布式训练,光有HCCL的标准集合通信还不够。比如你想做Pipeline Parallelism,需要点对点通信,HCCL就搞不定了。这时候就需要hcomm这个库,它提供了更灵活的通信原语。这篇文章就来讲讲hcomm的架构原理和使用方法。

之前有个项目用的是TensorFlow 1.x的代码,想迁到昇腾NPU上跑。发现CANN有TensorFlow的适配层,改几行代码就能用上NPU。这篇文章就来讲讲这个适配层的实现原理和使用方法。








