logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于达芬奇架构与CANN软件栈的深度学习模型异构算力迁移全链路解析

在后摩尔定律时代,通用处理器(CPU)的指令集架构(ISA)已难以满足深度神经网络(DNN)对张量(Tensor)并行计算的算力需求。专用领域架构(Domain Specific Architecture, DSA)应运而生,其中以华为昇腾(Ascend)AI处理器为代表的NPU(Neural Processing Unit)通过定制化的Cube与Vector计算单元,显著提升了能效比。然而,硬件

文章图片
#架构#深度学习#人工智能
驾驭不确定性:昇腾CANN中动态形状与Control Flow算子深度解析

例如,一个循环的次数取决于某个张量的值,这将导致不同AI Core可能执行不同的代码路径或循环次数,造成严重的线程发散(Thread Divergence)和性能下降。你将具备驾驭真实世界中那些充满不确定性的、更复杂、更前沿AI模型的核心能力,从而在AI系统工程师的道路上,迈向更高的台阶。),我们必须使用AI CPU来实现。如果你渴望从处理静态数据的“工匠”,成长为驾驭动态世界的“架构师”,那么,

文章图片
#人工智能
Llama-2-7b在昇腾NPU上的六大核心场景性能基准报告

随着大语言模型(LLM)技术的飞速发展,其底层算力支撑硬件的重要性日益凸显。传统的GPU方案之外,以华为昇腾(Ascend)为代表的NPU(神经网络处理单元)正成为业界关注的焦点。为了全面评估昇腾NPU在实际LLM应用中的性能表现,我们进行了一项针对性的深度测评。本次测评选用业界广泛应用的开源模型Llama-2-7b,在昇腾NPU平台上进行部署、测试与分析,旨在为开发者和决策者提供一份详实的核心性

文章图片
#java#开发语言
从图到核:昇腾CANN中手动算子融合(Manual Fusion)的终极指南

掌握手动融合,意味着你不再仅仅是一个实现单一功能的“工匠”,而是升级为了一位能够从系统层面重构计算流、创造极致性能的“架构师”。,而是直接留在Local Memory中,紧接着进行BiasAdd和LeakyReLU的计算,直到最终结果产生,才一次性地写回Global Memory。这意味着,我们将亲自下场,以“图优化工程师”的视角,将多个算子的逻辑,手工合并到一个单一的Ascend C核函数中。在

文章图片
#人工智能#深度学习#计算机视觉
【昇腾CANN工程实践】BERT情感分析API性能优化实录:从CPU到NPU的15倍加速

它为开发者提供了一条清晰、高效的路径,能够以相对较低的工程改造-成本,将模型在昇腾硬件上的潜力充分释放出来,从而将实验室中的高精度模型,转化为生产环境中真正可用的高性能服务。是昇腾CANN的“心脏”。它是一个功能强大的模型编译器,接收来自主流深度学习框架(通过ONNX等中间格式)的模型,并针对昇腾硬件(如Ascend 910B)进行一系列深度优化,最终生成一个高度优化的、可直接在NPU上执行的离线

文章图片
#bert#人工智能#深度学习
openEuler 系统想远程管理?不用公网 IP 也能轻松实现,方法在这!

openEuler 是一款聚焦多样性计算的操作系统,支持服务器、嵌入式设备和云计算环境,安全性和稳定性都不错,很适合企业在智能驾驶、金融业务等关键领域使用,开发者也常用来搭建测试环境。它的模块化设计让适配不同硬件变得简单,内核优化也能保障任务可靠运行。使用 openEuler 时,发现它对硬件兼容性挺强,但远程管理起来有点麻烦。比如在调试嵌入式设备时,必须在局域网内操作,一旦离开这个环境,就没法实

文章图片
#tcp/ip#网络协议#网络
Pulsar 特性在 AI 场景中的使用

Checkpoint 数据具有明显的历史消息无效的特性,如果发生积压时,只有最新的一条 Checkpoint 才有价值,这时可以使用 Pulsar 的压缩 Topic(Compaction Topic),压缩 Topic 将 Checkpoint Topic 从日志流变为 KV 存储,仅保留每个 Key 的最新消息,自动清理历史版本,这样对比传统方案(扫描 S3 文件列表 → 排序 → 下载)需要

文章图片
#人工智能
声控未来:基于Rokid AR眼镜的智能家居语音交互系统开发实战

本文深入探讨了如何利用Rokid CXR-M SDK开发一套完整的智能家居语音控制系统。通过结合AR眼镜的语音识别、AI场景定制和实时显示能力,为用户提供无缝的家居控制体验。文章详细阐述了系统架构设计、手机端与眼镜端的协同机制、核心功能实现、性能优化策略,并提供了完整的代码实现示例,帮助开发者快速构建下一代智能家居交互界面。通过深入探索Rokid CXR-M SDK,我们成功构建了一个功能完善、性

文章图片
#ar#智能家居#交互
Llama-2-7b在昇腾NPU上的六大核心场景性能基准报告

随着大语言模型(LLM)技术的飞速发展,其底层算力支撑硬件的重要性日益凸显。传统的GPU方案之外,以华为昇腾(Ascend)为代表的NPU(神经网络处理单元)正成为业界关注的焦点。为了全面评估昇腾NPU在实际LLM应用中的性能表现,我们进行了一项针对性的深度测评。本次测评选用业界广泛应用的开源模型Llama-2-7b,在昇腾NPU平台上进行部署、测试与分析,旨在为开发者和决策者提供一份详实的核心性

文章图片
#java#开发语言
openEuler iSula 容器引擎关键性能指标量化评测

在算力正以前所未有的态势向网络边缘和设备终端下沉的今天,iSula 所展现出的这些特性——低于20MB的静态内存占用、百毫秒级的容器启动速度、以及每容器仅数十KB的管理开销——使其不再仅仅是容器化解决方案中的一个备选项,而是在特定场景下,尤其是资源受限场景下的更优解。使用 openEuler 长期支持版(LTS)不仅保证了软件源的稳定性和安全性,更重要的是,iSula作为 openEuler 生态

文章图片
#struts#java#后端
    共 79 条
  • 1
  • 2
  • 3
  • 8
  • 请选择