
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
接下来给大家整理了一些常见的会经常碰到的一些问题,更好的帮助大家进行环境搭建和开发。编译时报错这是因为未找到 CANN 头文件。请检查是否执行,或确认环境变量是否包含 CANN 的 include 目录。运行时出现检查确认 NPU 设备是否可见。如果是 Docker 环境,确认启动参数中包含了等设备映射。相比官方 Triton,Ascend 版本有哪些限制目前部分高级原子操作(Atomic Add

接下来给大家整理了一些常见的会经常碰到的一些问题,更好的帮助大家进行环境搭建和开发。编译时报错这是因为未找到 CANN 头文件。请检查是否执行,或确认环境变量是否包含 CANN 的 include 目录。运行时出现检查确认 NPU 设备是否可见。如果是 Docker 环境,确认启动参数中包含了等设备映射。相比官方 Triton,Ascend 版本有哪些限制目前部分高级原子操作(Atomic Add

vLLM-Ascend 是 vLLM 项目的一个社区维护的硬件插件,专为华为昇腾(Ascend)NPU 设计,使 vLLM 能够无缝运行在昇腾硬件平台上。该项目遵循 vLLM 社区的硬件插件化设计原则,提供了高性能的大语言模型推理能力。这篇文章的话我主要会带大家来熟悉一下vLLM-Ascend项目的结构,部署和配置。支持主流开源模型,包括 Transformer、MoE、Embedding 和多模

vLLM-Ascend 是 vLLM 项目的一个社区维护的硬件插件,专为华为昇腾(Ascend)NPU 设计,使 vLLM 能够无缝运行在昇腾硬件平台上。该项目遵循 vLLM 社区的硬件插件化设计原则,提供了高性能的大语言模型推理能力。这篇文章的话我主要会带大家来熟悉一下vLLM-Ascend项目的结构,部署和配置。支持主流开源模型,包括 Transformer、MoE、Embedding 和多模

具身智能(Embodied AI)简单理解就是"大模型有了身体"。当你和ChatGPT对话时,如果它不只是冷冰冰的文字回复,而是以一个3D数字人的形象出现,能做出恰当的表情、手势,甚至根据对话内容跳个舞,这种交互体验完全不在一个次元。星云平台正是要做具身智能的基础设施,它提供了一整套SDK,涵盖3D数字人渲染、语音合成、动作驱动、端侧渲染等核心能力。开发者不需要从零搭建复杂的图形引擎或动作捕捉系统

具身智能(Embodied AI)简单理解就是"大模型有了身体"。当你和ChatGPT对话时,如果它不只是冷冰冰的文字回复,而是以一个3D数字人的形象出现,能做出恰当的表情、手势,甚至根据对话内容跳个舞,这种交互体验完全不在一个次元。星云平台正是要做具身智能的基础设施,它提供了一整套SDK,涵盖3D数字人渲染、语音合成、动作驱动、端侧渲染等核心能力。开发者不需要从零搭建复杂的图形引擎或动作捕捉系统

具身智能(Embodied AI)简单理解就是"大模型有了身体"。当你和ChatGPT对话时,如果它不只是冷冰冰的文字回复,而是以一个3D数字人的形象出现,能做出恰当的表情、手势,甚至根据对话内容跳个舞,这种交互体验完全不在一个次元。星云平台正是要做具身智能的基础设施,它提供了一整套SDK,涵盖3D数字人渲染、语音合成、动作驱动、端侧渲染等核心能力。开发者不需要从零搭建复杂的图形引擎或动作捕捉系统

具身智能(Embodied AI)简单理解就是"大模型有了身体"。当你和ChatGPT对话时,如果它不只是冷冰冰的文字回复,而是以一个3D数字人的形象出现,能做出恰当的表情、手势,甚至根据对话内容跳个舞,这种交互体验完全不在一个次元。星云平台正是要做具身智能的基础设施,它提供了一整套SDK,涵盖3D数字人渲染、语音合成、动作驱动、端侧渲染等核心能力。开发者不需要从零搭建复杂的图形引擎或动作捕捉系统

LoRA推理性能优化实战:华为CANN的acclnAddLora算子解析 摘要:本文深入探讨了LoRA微调技术在大模型推理中的性能瓶颈问题,并介绍了华为CANN框架提供的acclnAddLora融合算子解决方案。该算子通过将基础权重与LoRA权重的矩阵乘法、低秩合并和结果加和三个计算步骤融合为单一操作,显著减少了内存访问和kernel启动开销。实验表明,在LLaMA-7B模型上,该算子实现了10.

LoRA推理性能优化实战:华为CANN的acclnAddLora算子解析 摘要:本文深入探讨了LoRA微调技术在大模型推理中的性能瓶颈问题,并介绍了华为CANN框架提供的acclnAddLora融合算子解决方案。该算子通过将基础权重与LoRA权重的矩阵乘法、低秩合并和结果加和三个计算步骤融合为单一操作,显著减少了内存访问和kernel启动开销。实验表明,在LLaMA-7B模型上,该算子实现了10.








