logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾 Triton-Ascend 开源实战:架构解析、环境搭建与配置速查

接下来给大家整理了一些常见的会经常碰到的一些问题,更好的帮助大家进行环境搭建和开发。编译时报错这是因为未找到 CANN 头文件。请检查是否执行,或确认环境变量是否包含 CANN 的 include 目录。运行时出现检查确认 NPU 设备是否可见。如果是 Docker 环境,确认启动参数中包含了等设备映射。相比官方 Triton,Ascend 版本有哪些限制目前部分高级原子操作(Atomic Add

文章图片
#python#人工智能#深度学习 +2
昇腾 Triton-Ascend 开源实战:架构解析、环境搭建与配置速查

接下来给大家整理了一些常见的会经常碰到的一些问题,更好的帮助大家进行环境搭建和开发。编译时报错这是因为未找到 CANN 头文件。请检查是否执行,或确认环境变量是否包含 CANN 的 include 目录。运行时出现检查确认 NPU 设备是否可见。如果是 Docker 环境,确认启动参数中包含了等设备映射。相比官方 Triton,Ascend 版本有哪些限制目前部分高级原子操作(Atomic Add

文章图片
#python#人工智能#深度学习 +2
vLLM Ascend 项目架构解析与部署配置指南

vLLM-Ascend 是 vLLM 项目的一个社区维护的硬件插件,专为华为昇腾(Ascend)NPU 设计,使 vLLM 能够无缝运行在昇腾硬件平台上。该项目遵循 vLLM 社区的硬件插件化设计原则,提供了高性能的大语言模型推理能力。这篇文章的话我主要会带大家来熟悉一下vLLM-Ascend项目的结构,部署和配置。支持主流开源模型,包括 Transformer、MoE、Embedding 和多模

文章图片
#人工智能#python#后端
vLLM Ascend 项目架构解析与部署配置指南

vLLM-Ascend 是 vLLM 项目的一个社区维护的硬件插件,专为华为昇腾(Ascend)NPU 设计,使 vLLM 能够无缝运行在昇腾硬件平台上。该项目遵循 vLLM 社区的硬件插件化设计原则,提供了高性能的大语言模型推理能力。这篇文章的话我主要会带大家来熟悉一下vLLM-Ascend项目的结构,部署和配置。支持主流开源模型,包括 Transformer、MoE、Embedding 和多模

文章图片
#人工智能#python#后端
数字人又要变天了!十行代码调用电影级3D数字人,RK3566无GPU也能跑

具身智能(Embodied AI)简单理解就是"大模型有了身体"。当你和ChatGPT对话时,如果它不只是冷冰冰的文字回复,而是以一个3D数字人的形象出现,能做出恰当的表情、手势,甚至根据对话内容跳个舞,这种交互体验完全不在一个次元。星云平台正是要做具身智能的基础设施,它提供了一整套SDK,涵盖3D数字人渲染、语音合成、动作驱动、端侧渲染等核心能力。开发者不需要从零搭建复杂的图形引擎或动作捕捉系统

文章图片
数字人又要变天了!十行代码调用电影级3D数字人,RK3566无GPU也能跑

具身智能(Embodied AI)简单理解就是"大模型有了身体"。当你和ChatGPT对话时,如果它不只是冷冰冰的文字回复,而是以一个3D数字人的形象出现,能做出恰当的表情、手势,甚至根据对话内容跳个舞,这种交互体验完全不在一个次元。星云平台正是要做具身智能的基础设施,它提供了一整套SDK,涵盖3D数字人渲染、语音合成、动作驱动、端侧渲染等核心能力。开发者不需要从零搭建复杂的图形引擎或动作捕捉系统

文章图片
数字人又要变天了!十行代码调用电影级3D数字人,RK3566无GPU也能跑

具身智能(Embodied AI)简单理解就是"大模型有了身体"。当你和ChatGPT对话时,如果它不只是冷冰冰的文字回复,而是以一个3D数字人的形象出现,能做出恰当的表情、手势,甚至根据对话内容跳个舞,这种交互体验完全不在一个次元。星云平台正是要做具身智能的基础设施,它提供了一整套SDK,涵盖3D数字人渲染、语音合成、动作驱动、端侧渲染等核心能力。开发者不需要从零搭建复杂的图形引擎或动作捕捉系统

文章图片
数字人又要变天了!十行代码调用电影级3D数字人,RK3566无GPU也能跑

具身智能(Embodied AI)简单理解就是"大模型有了身体"。当你和ChatGPT对话时,如果它不只是冷冰冰的文字回复,而是以一个3D数字人的形象出现,能做出恰当的表情、手势,甚至根据对话内容跳个舞,这种交互体验完全不在一个次元。星云平台正是要做具身智能的基础设施,它提供了一整套SDK,涵盖3D数字人渲染、语音合成、动作驱动、端侧渲染等核心能力。开发者不需要从零搭建复杂的图形引擎或动作捕捉系统

文章图片
LoRA微调新玩法,用CANN的aclnnAddLora算子让大模型适配提速10倍

LoRA推理性能优化实战:华为CANN的acclnAddLora算子解析 摘要:本文深入探讨了LoRA微调技术在大模型推理中的性能瓶颈问题,并介绍了华为CANN框架提供的acclnAddLora融合算子解决方案。该算子通过将基础权重与LoRA权重的矩阵乘法、低秩合并和结果加和三个计算步骤融合为单一操作,显著减少了内存访问和kernel启动开销。实验表明,在LLaMA-7B模型上,该算子实现了10.

文章图片
#python#人工智能#深度学习 +4
LoRA微调新玩法,用CANN的aclnnAddLora算子让大模型适配提速10倍

LoRA推理性能优化实战:华为CANN的acclnAddLora算子解析 摘要:本文深入探讨了LoRA微调技术在大模型推理中的性能瓶颈问题,并介绍了华为CANN框架提供的acclnAddLora融合算子解决方案。该算子通过将基础权重与LoRA权重的矩阵乘法、低秩合并和结果加和三个计算步骤融合为单一操作,显著减少了内存访问和kernel启动开销。实验表明,在LLaMA-7B模型上,该算子实现了10.

文章图片
#python#人工智能#深度学习 +4
    共 18 条
  • 1
  • 2
  • 请选择