登录社区云,与社区用户共同成长
邀请您加入社区
昇腾CANN开源社区通过两个核心仓库(community和cann-agreements)规范贡献流程。贡献者需先签署CLA协议,遵循从Fork到Merge的7步生命周期:签署CLA→Fork仓库→开发测试→提交PR→CI检查→Reviewer审查→Maintainer合并。常见问题包括未签CLA导致PR被拒、缺少DCO签名、PR包含不相关改动等。社区要求代码规范、测试覆盖、commit mess
本文深入解析了CSS背景与边框的两个核心任务,通过构建层次感卡片标题和装饰性卡片,展示了关键技术的实战应用。第一部分重点讲解了边框简写、背景尺寸控制(cover vs contain)以及半透明背景增强文字可读性的技巧。第二部分则演示了如何利用border-radius四值语法创建不对称圆角,并通过CSS多重背景功能实现复杂的星星图案布局。文章特别强调了rgba()透明度控制、background
你有没有遇到过这种情况:做信号处理,用NumPy的FFT算个1024点变换,要算半天。后来发现昇腾CANN有个ops-fft库,专门加速FFT计算,同样的计算在NPU上只要几毫秒。这篇文章就来讲讲FFT是啥、为啥要优化、怎么用ops-fft库。
昇腾NPU驱动采用分层架构实现PyTorch调用NPU执行模型。驱动位于CANN架构最底层,分为HDF(驱动框架)、HDK(硬件开发工具包)和Runtime Library(用户态接口)三层。HDF定义驱动标准框架,HDK提供开发工具,Runtime Library是上层框架调用接口。驱动版本不匹配会导致NPU不可用,因为各层接口需要严格兼容。驱动作为硬件抽象层,是连接软件栈与物理硬件的关键桥梁,
本文介绍了如何在昇腾NPU上使用hcomm库进行分布式训练/推理中的集合通信操作。hcomm是基于HCCL集合通信库的原语级优化接口,位于CANN架构的第四层。文章详细说明了环境准备步骤,包括安装昇腾NPU驱动、CANN Toolkit和hcomm Python包。通过示例代码演示了如何初始化hcomm上下文,以及执行AllReduce、AllGather和ReduceScatter三种基本集合通
摘要:电网巡检采用无人机拍摄输电线路照片,传统GPU服务器(A100)处理速度慢且功耗高。优化方案使用Ascend 310芯片和专用算子库elec-ops-inspection,将处理速度提升至8000张/小时,功耗降至60W,成本大幅降低。该方案针对绝缘子检测、缺陷分类和定位三大任务,通过NPU原生算子优化(如NMS加速、算子融合和硬件插值),显著提升性能,实现无人机边飞边检的实时处理需求。
本文分享了在4张Ascend 910 NPU上微调GLM-4-9B模型时遇到的三大性能瓶颈及优化方案。原生的HuggingFace Trainer实现存在数据加载CPU瓶颈、hccl梯度同步延迟高和显存碎片化问题,导致吞吐仅340 tokens/s。通过采用cann-recipes-train工具链,使用NPU原生数据加载器、优化hccl通信拓扑和显存池化管理,最终将吞吐提升至1120 token
摘要:metadef是CANN生态中定义算子元数据的核心机制,为每个算子提供"身份证",包含算子名称、输入输出类型、属性等描述信息。文章通过类比餐厅菜单解释metadef的作用,详细介绍了其三大组成部分:算子原型(OpProto)定义算子接口、算子注册(REGISTER_OP)实现全局注册、推导函数(InferShape/InferDataType)完成输出推导。最后以MatMulRelu算子为例
本文深入解析了昇腾NPU的runtime系统,指出其核心定位是"NPU上的操作系统",负责资源管理和任务调度。文章首先澄清了runtime与驱动、编译器的区别,强调runtime在用户态管理NPU资源。随后详细阐述了runtime的四大职责:内存管理(虚拟地址映射、内存池优化)、流调度(多流并行)、同步机制(Event)和设备管理(多卡切换)。通过与CUDA Runtime的对比,突出了昇腾run
之前有个项目用的是TensorFlow 1.x的代码,想迁到昇腾NPU上跑。发现CANN有TensorFlow的适配层,改几行代码就能用上NPU。这篇文章就来讲讲这个适配层的实现原理和使用方法。
本文介绍了如何将TensorFlow模型迁移到昇腾NPU上运行。通过使用tf_adapter适配层,无需重写模型代码,只需添加少量适配代码即可实现。文章详细说明了环境准备步骤,并以ResNet50为例展示了迁移前后的代码对比和性能数据(NPU比GPU快25%)。同时提供了训练迁移方案、多卡训练示例以及常见问题解决方法(如算子不支持、精度偏差、显存不足等)。最后给出迁移检查清单,帮助开发者验证迁移效
去年做一个科学计算项目,需要大量三角函数和指数运算。用PyTorch原生算子在昇腾NPU上跑得特别慢。后来发现ops-math这个库,专门为数学类算子做了优化,性能直接提升了3倍。这篇文章就来讲讲这个库的使用方法。
文章摘要: 本文介绍了电力负荷预测算子库elec-ops-prediction的开发经验,该库将LSTM模型的预测精度从87%提升至94.7%,推理时间从2小时缩短至8分钟。文章详细解析了LSTM算子在电力预测中的应用原理,并展示了如何通过算子融合、Tiling优化等技术实现3倍性能提升。该库支持8种预测模型(包括LSTM、Transformer等),提供完整的电力数据处理工具和性能基准测试数据,
TensorFlow模型通过昇腾CANN的适配层可高效运行在NPU上,性能提升显著。传统方法需手动修改算子调用,成本高且易出错。tensorflow仓库通过自动算子映射、图重写和优化技术(如算子融合),实现无需代码修改的高性能迁移。以ResNet-50为例,8张Ascend 910 NPU的吞吐量比GPU提升50.8%,硬件成本降低30%。该方案完全兼容TensorFlow原生API,支持分布式训
你以为TensorFlow只能在GPU上跑?错了,昇腾CANN有专门的TensorFlow适配层(tensorflow仓库),让TensorFlow模型能在NPU上训练/推理,性能跟PyTorch on NPU差不多。我去年帮一个客户把TensorFlow的ResNet-50模型从GPU迁移到NPU上,原来用GPU跑(8张A100),吞吐是每秒124张图(batch=32)。
本文全面介绍了TensorFlow深度学习框架的核心概念与应用实践。主要内容包括:1)TensorFlow框架概述与发展历程,突出其强大的生态系统和多平台兼容性;2)环境安装配置指南,涵盖CPU/GPU版本安装及验证方法;3)核心概念详解,包括张量操作、计算图机制和自动微分;4)模型构建方法,重点介绍Keras API、Sequential模型和Functional API;5)实战案例演示,通过
本文介绍了TensorFlow框架适配昇腾NPU的技术实现方案。适配层主要由三个核心模块组成: op_kernel注册模块:通过为每个CANN支持的算子编写OpKernel实现,将TF算子映射到CANN算子库。与PyTorch的dispatcher机制不同,TensorFlow需要显式注册每个算子。 graph_rewrite模块:通过自定义图优化Pass实现算子融合,将连续算子组合成CANN融合
如果你接触过 AI、深度学习、机器学习,那么一定听过 TensorFlow。它不仅是 Google 开源的明星项目,更是 GitHub 上长期 Star 数排名 TOP 级别的超级仓库。⭐ Star 超过 19 万🍴 Fork 超过 7 万👨💻 全球开发者参与🏢 Google 官方维护很多人第一次学习 AI,接触的第一个框架就是 TensorFlow。TensorFlow 是什么?为什么
开发者常陷入"明明配置了TPU却始终使用CPU"的困境,导致训练效率骤降甚至任务中止。:某医疗AI团队在训练300M参数的CT影像分割模型时,训练100轮后持续报错"Using CPU",耗时48小时/轮。在AI模型规模化训练的浪潮中,TPU(张量处理单元)已成为加速深度学习的关键基础设施。若未正确初始化,框架默认回退至CPU,导致"TPU存在但未被使用"的悖论。强制初始化TPU环境,确保Tens
章节内容核心知识点第2章逻辑与推理命题逻辑、谓词逻辑、知识图谱推理、因果推理第3章搜索求解启发式搜索、对抗搜索、蒙特卡洛树搜索第4章机器学习:监督学习回归分析、决策树、LDA、AdaBoosting、SVM第5章统计机器学习:无监督学习K-means、PCA、特征人脸、LSA、EM算法第6章深度学习前馈神经网络、CNN、RNN、GAN第7章强化学习MDP、策略优化、Q学习、深度强化学习第8章人工智
在AI驱动的商业决策中,用户行为预测(如点击率预估、购买意向预测)已成为推荐系统、广告投放和产品优化的核心引擎。:2024年ML系统架构报告显示,73%的用户行为预测系统采用Estimator作为核心框架(来源:MLSys Conference 2024),因其在。:某支付平台通过上述配置,将用户流失预测的AUC从0.72提升至0.85,同时训练时间缩短37%(2024年行业白皮书)。:2024年
深度学习在水文水质领域的应用方法,重点讲解Python工具包(TensorFlow、NumPy等)的使用技巧。内容涵盖前馈神经网络、卷积神经网络和循环神经网络(LSTM/GRU/Attention)三大模型,通过水位预报、水质评价等实际案例,详细演示模型构建流程和参数设置。特别针对大型水库水位计算等水动力学难题,对比传统方法与深度学习方案的优劣。教程采用可视化案例教学,避免复杂数学推导,使不同专业
TensorFlow.js 是一个强大的 JavaScript 机器学习库,让开发者能在浏览器中直接构建和运行 ML 模型。本文从核心概念张量入手,详细介绍了张量的创建、运算和内存管理技巧,并通过房价预测案例展示了完整的开发流程:数据准备、模型定义、训练预测及保存加载。特别强调了数据归一化和内存管理的重要性,并总结了常见问题解决方案。TensorFlow.js 降低了机器学习门槛,使前端开发者也能
DeepSeek-V4正式发布72小时内,算力层完成首轮适配闭环: NVIDIA于发布当日即宣布Day-0支持,基于Blackwell Ultra架构在1.6T参数模型上测得约3500 tokens/s的峰值推理吞吐(per GPU,初步数据),并明确随着co-design stack持续优化,该性能基准仍有上浮空间。
对于搭建tensorflow遇到的conda和docker相关问题总结
本文详细介绍如何在 .NET 生态中使用 TensorFlow.NET 调用 Google TensorFlow 框架,涵盖环境搭建、模型推理(Graph 模式与 SavedModel)、Keras 高级 API 图像分类,以及基于 InceptionV3 的迁移学习实战。所有代码示例均来源于 SciSharp 官方示例仓库,确保可运行、可验证。无论你是希望将 Python 训练好的模型部署到 .
wide and deep 模型训练一般是以多个训练样本作为 1 个批次 (batch) 进行训练,训练样本在行维度上定义,每一行对应一个训练样本实例,包括特征(feature column),标注(label)以及权重(weight),如图 2。特征在列维度上定义,每个特征对应 1 个 feature column,feature column 由在列维度上的 1 个或者若干个张量 (tenso
本文详细介绍了使用TensorFlow构建神经网络的全流程,从基础概念到高级应用。主要内容包括:1) TensorFlow环境搭建与核心概念;2) 通过MNIST手写数字识别构建全连接网络;3) 性能优化方法如CNN、正则化、数据增强;4) 高级主题包括自定义模型、迁移学习;5) CIFAR-10实战项目;6) TensorFlow生态系统工具。文章强调了数据预处理的重要性,提供了代码示例,并建议
tensorflow
——tensorflow
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net