beautifulSunrise 个人主页

@beautifulSunrise

beautifulSunrise

2026-01-08 20:53:51 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

torchtitan-npu：大模型预训练在昇腾上的分布式执行链路与 Checkpoint 优化

大模型预训练的工程复杂度不仅来自模型本身的参数规模，更来自分布式训练过程中跨设备通信、计算资源调度、以及训练状态持久化（Checkpoint）带来的系统性开销。torchtitan 是 PyTorch 官方提供的大模型预训练参考实现，基于原生 PyTorch 分布式接口构建，支持 FSDP（Fully Sharded Data Parallel）与张量并行（Tensor Parallel）等主流并

#分布式

torchtitan-npu：大模型预训练在昇腾上的分布式执行链路与 Checkpoint 优化

#分布式

torchtitan-npu：大模型预训练在昇腾上的分布式执行链路与 Checkpoint 优化

#分布式

asnumpy：NumPy 语义在 NPU 上的零拷贝实现与算子映射机制

NumPy 作为 Python 科学计算生态系统的基石，其数组抽象与向量化运算范式深刻影响了后续每一代数值计算框架的设计。随着 AI 训练与推理负载逐步从 CPU 向 NPU 迁移，如何在保持 NumPy 编程语义的同时，将底层数据零拷贝地映射到昇腾 NPU 的异构内存体系，成为连接传统科学计算与新一代 AI 加速芯片的关键工程问题。

#numpy

asnumpy：NumPy 语义在 NPU 上的零拷贝实现与算子映射机制

#numpy

asnumpy：NumPy 语义在 NPU 上的零拷贝实现与算子映射机制

#numpy

TensorFlow 框架适配层：从 GraphDef 到昇腾 CANN 算子的映射机制深度解析

随着人工智能技术的快速发展，深度学习框架与硬件加速器之间的适配成为关键技术挑战。TensorFlow 作为主流的深度学习框架，其计算图表示形式 GraphDef 与昇腾 CANN（Compute Architecture for Neural Networks）算子体系之间存在显著的语义差异。本文深入解析 TensorFlow 框架适配层的核心机制，详细阐述从 TensorFlow GraphDe

#neo4j

TensorFlow 框架适配层：从 GraphDef 到昇腾 CANN 算子的映射机制深度解析

#neo4j

电力巡检AI算子库：视觉检测与缺陷识别在昇腾上的加速实践

电力是国民经济的基础产业，输电线路、变电站设备的稳定运行直接关系到供电可靠性。传统电力巡检依赖人工完成，存在高危场景可达性差、巡检效率低、漏检率高等痛点：高压输电塔、跨江跨山线路等场景人工难以抵达，常规人工巡检每人每天仅能覆盖5-10公里线路，且长期重复工作容易出现疲劳导致的漏检，部分细微缺陷（如绝缘子裂纹、导线断股、金具锈蚀）难以被人工识别。

#人工智能 #视觉检测 #计算机视觉

电力巡检AI算子库：视觉检测与缺陷识别在昇腾上的加速实践

#人工智能 #视觉检测 #计算机视觉

共 45 条

请选择