特比丘个人主页

@2503_94424107

特比丘

2025-12-07 23:41:20 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Flutter UI架构设计：从组件封装到跨端适配，打造可复用的高质量界面体系

桌面应用的“原生感”直接影响用户体验，而系统托盘与通知是核心交互入口。本文聚焦鸿蒙桌面端特性，通过实战案例讲解Electron应用如何适配鸿蒙系统托盘、自定义通知样式，并集成“后台运行”“快捷操作”等实用功能，代码简洁可直接复用。

#harmonyos #华为

hcomm：昇腾集群通信的底层原语

HCCL与hcomm构成昇腾分布式通信栈的两大核心组件，采用分层设计：HCCL负责高层集合通信算法（如AllReduce/AllGather的切分策略），hcomm实现底层Send/Recv原语。在LLaMA-70B训练中，140GB梯度通过Ring AllReduce优化为每卡35GB传输量，但通信仍占单步40%耗时。hcomm通过零拷贝技术省去Buffer搬运，将固定延迟降至10-15μs。推

#交互 #深度学习 #性能优化

写一个昇腾NPU上的算子有多难？Ascend C算子开发实战全拆解

摘要：自定义算子主要用于昇腾NPU标准算子库无法满足的三种场景：新激活函数/损失函数、算子融合优化和特殊数据排布。AscendC是专为达芬奇架构设计的类C编程语言，通过分块处理、UB内存管理和向量化指令实现高效计算。开发流程包括编写算子、编译注册和在PyTorch中调用，性能调优需关注分块大小、双缓冲、向量化加载和数学简化。建议优先使用标准算子，仅在必要时开发自定义算子。（149字）

#c语言 #开发语言

写一个昇腾NPU上的算子有多难？Ascend C算子开发实战全拆解

#c语言 #开发语言

Runtime运行时：昇腾NPU上的“大管家“，它到底在管什么

摘要：Runtime在昇腾NPU上扮演执行引擎角色，负责将GE优化后的计算图转换为可执行任务序列并调度到硬件执行。其核心工作包括：1）资源管理，处理显存分配、多任务抢占和泄漏问题；2）任务调度，通过Stream机制实现算子并行执行；3）执行协调，优化Host与Device间的数据搬运。在多卡训练中，Runtime还需处理梯度同步等分布式任务。通过日志、性能分析和显存监控工具可有效调试Runtime

#算法 #数据结构

Runtime运行时：昇腾NPU上的“大管家“，它到底在管什么

CANN到底是什么？昇腾NPU上的“操作系统+发动机调校师“全拆解

CANN是昇腾NPU的软件栈，相当于CUDA+cuDNN+TensorRT的整合体，负责将AI模型高效运行在昇腾芯片上。它包含五层架构：AscendCL接口层、计算服务层（算子库）、编译层（图引擎GE）、执行层（Runtime）和基础驱动层。CANN的核心功能是模型翻译、执行调度和性能优化，比如动态图转静态图、算子融合等。开发者可通过PyTorch+torch_npu直接调用，或使用ATC工具生成

#算法 #数据结构

CANN到底是什么？昇腾NPU上的“操作系统+发动机调校师“全拆解

#算法 #数据结构

共 73 条

请选择