logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ops-math的随机数算子,为啥比Python random快200倍?

本文介绍了NPU上高效随机数生成算子ops-math的原理与应用。相比CPU串行生成,NPU采用Philox并行引擎,生成1亿个随机数仅需0.3秒,提速200倍。文章详细解析了Uniform、Normal、Bernoulli等算子的实现机制,并通过Dropout实例展示了实际应用。同时总结了多卡训练种子同步、随机数精度等常见问题及解决方案,为深度学习中的随机操作提供了性能优化方案。

文章图片
#python#开发语言
昇腾NPU上的NumPy兼容层:asnumpy如何让Python代码自动加速3倍

本文介绍了昇腾CANN生态中的asnumpy库如何通过猴子补丁技术实现NumPy代码向NPU的无缝迁移。该库采用两层架构:模块替换实现透明接管NumPy调用,算子路由将API映射到CANN算子执行。通过惰性拷贝和写时复制策略优化数据搬运,显著减少PCIe传输开销。实战案例展示了一个语音信号处理流程,从原始信号到MFCC特征提取的全过程加速,处理时间从CPU的45分钟缩短至8分钟。asnumpy让现

文章图片
#numpy#python#开发语言
鸿蒙 Electron 与鸿蒙 PC:从 Web 到万物互联的桌面新桥梁

摘要: 本文探讨Web技术与鸿蒙生态的融合,提出一种新型“鸿蒙Electron”开发范式,重点适配鸿蒙PC桌面场景。通过Web容器+ArkTS桥接+分布式能力,实现跨设备协同应用开发,突破传统Electron单机局限。文中以“跨设备日志同步面板”为例,展示Web界面如何调用鸿蒙PC原生功能,并与手机、车机等设备无缝交互。该模式兼具Web开发效率与原生性能,支持PWA安装、多窗口管理等桌面特性,为国

文章图片
#前端#harmonyos#electron
Electron 与鸿蒙 PC:跨平台开发的新融合路径

摘要: Electron与鸿蒙PC在软件开发中并非对立,而是互补的技术方案。Electron擅长构建跨平台桌面应用,而鸿蒙PC提供国产化、分布式能力。通过共享Web模块(HTML/JS/CSS),开发者可复用Electron应用的渲染层,嵌入鸿蒙PC的Web组件,实现低成本迁移。案例显示,Markdown编辑器的核心功能可在鸿蒙PC上流畅运行,支持原生交互。双向通信机制(Web调用鸿蒙API/鸿蒙

文章图片
#electron#harmonyos#javascript
hccl:昇腾集合通信库架构深度实践

《昇腾NPU分布式训练通信优化实战》摘要:本文针对昇腾NPU集群训练中的通信瓶颈问题,提出HCCL(集合通信库)调优方案。通过分析环形/树形/Mesh三种拓扑结构在不同模型规模下的表现,结合异步通信和分片传输策略,成功将GPT-3训练的NPU利用率从40%提升至92%。文章特别指出大模型训练需采用树形拓扑+64MB分片组合,并给出多机RoCE配置、死锁规避等实战技巧,最终实现训练速度翻倍。文末强调

文章图片
#目标检测#人工智能
graph-autofusion:算子自动融合框架,让模型性能提升30%

算子融合就像把多个快递包裹合并成一个,减少送货次数。你有没有想过,为什么模型推理时,每个算子都要单独读写HBM(High Bandwidth Memory)?明明LayerNorm后面紧跟Add,为什么要分开算?分开算就要分开读写HBM,带宽瓶颈就来了。我去年帮一个客户优化Llama-3-7B推理,最开始单卡吞吐只有38 tokens/s,客户要求>100 tokens/s,差了2.6倍。后来用了

文章图片
#数据库
cann-recipes-train:4卡Ascend 910训GLM-4-9B的全流程踩坑实录

本文分享了在4张Ascend 910 NPU上微调GLM-4-9B模型时遇到的三大性能瓶颈及优化方案。原生的HuggingFace Trainer实现存在数据加载CPU瓶颈、hccl梯度同步延迟高和显存碎片化问题,导致吞吐仅340 tokens/s。通过采用cann-recipes-train工具链,使用NPU原生数据加载器、优化hccl通信拓扑和显存池化管理,最终将吞吐提升至1120 token

文章图片
#tensorflow
OpenHarmony + Flutter 离线地图集成实战:基于高德 OpenHarmony SDK 的自定义 PlatformView 插件开发

本文介绍了在Flutter应用中集成高德OpenHarmony原生地图SDK的解决方案。针对政务、物流等离线场景需求,提出了通过自定义PlatformView插件实现地图嵌入的技术路径。文章详细分析了技术挑战(如无官方PlatformView支持、渲染层级问题等)及对应解决方案,并给出了插件架构设计(Dart层Widget+ArkTS桥接层+原生SDK)。实战部分包含SDK准备、Dart层Widg

文章图片
#flutter
OpenHarmony + Flutter 混合开发实战:深度集成 AI Kit 实现端侧图像识别与智能分析

若需专用模型(如“变压器缺陷检测”),可通过// 加载自定义 .om 模型deviceId: 'npu' // 指定 NPU 执行});⚠️ 需提前将.om模型放入目录,并通过ATC 工具转换。通过本文,你已掌握:✅封装 OpenHarmony AI Kit 为 Flutter 插件✅实现人脸、物体、OCR 三大端侧 AI 能力✅构建无网可用的工业巡检 App✅保障数据不出设备,满足信创合规要求?

文章图片
#flutter#人工智能
Flutter 与 OpenHarmony 深度集成:实现跨设备传感器数据协同监测系统

本文介绍了一个基于OpenHarmony分布式硬件虚拟化技术和Flutter跨平台UI的环境监测系统。系统通过DeviceManager和HardwareResourceManager实现远程设备传感器数据的统一访问,使应用能够像调用本地传感器一样使用分布式硬件资源。架构设计包含Flutter UI层、原生插件层和分布式硬件管理层,支持多设备协同工作,当远程节点不可用时自动降级为本地采集。文章详细

文章图片
#flutter#wpf
    共 161 条
  • 1
  • 2
  • 3
  • 17
  • 请选择