logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于HIXL+Mooncake+vLLM的KV Cache池化与高性能传输联创实践

HIXL秉持极简易用的设计原则,具备高度可集成性,并积极融入主流生态社区。此次 HIXL 顺利与 Mooncake、vLLM 实现集成,正是 CANN 开源价值的具体体现:开源发布后,借助社区的力量,对接业界常用的KV池化和传输库Mooncake,进一步打通了 vLLM + Mooncake + HIXL 的技术链路,使该方案成为 Ascend 上池化方案的首选。并以此为依托,和用户完成联创将大模

#CANN#开源
推出新型面向 AI 加速器的高性能编程框架——PyPTO

PyPTO 通过多层级 IR 系统、基于 Tile 的编程模型、更高层次的 Tensor 抽象、MPMD 执行调度、Man-In-The-Loop 工作流和分层抽象设计,致力于消除算法与算子开发的鸿沟,平衡编程简单性和控制力,为不同层次的开发者提供相应的抽象层次和工具支持。提供完整的可视化工具和分析工具,一致的错误信息和诊断机制,高质量示例和文档,与主流 IDE 和构建系统的集成,这些都是生态成功

#CANN
npugraph_ex:CANN aclGraph的图模式样板间

随着人工智能的飞速发展,大模型推理场景的“低时延,高吞吐”诉求推动了PyTorch图模式的快速发展。torch.compile是PyTorch 2.0推出的核心特性,通过即时编译(JIT)将PyTorch代码转换为计算图,支持inductor等多种后端编译器,并利用图捕获和重放能力减少Host下发头开销,以优化大模型推理时延。

#CANN
基于昇腾的SAM投机解码:长序列强化学习训练加速利器

SAM(suffix automaton,后缀自动机)是一个能够高效解决许多字符串问题的数据结构。直观上,字符串的 SAM 可以理解为给定字符串的所有子串的压缩形式。SAM主要维护两个重要的集合:结束位置endpos:考虑字符串 s 的任意非空子串 t,记 endpos(t) 为字符串 s 中 t的所有结束位置的集合。例如,对于字符串 ABCBC 我们有 endpos(BC)={2,4}。在SAM

#CANN
基于昇腾的SAM投机解码:长序列强化学习训练加速利器

SAM(suffix automaton,后缀自动机)是一个能够高效解决许多字符串问题的数据结构。直观上,字符串的 SAM 可以理解为给定字符串的所有子串的压缩形式。SAM主要维护两个重要的集合:结束位置endpos:考虑字符串 s 的任意非空子串 t,记 endpos(t) 为字符串 s 中 t的所有结束位置的集合。例如,对于字符串 ABCBC 我们有 endpos(BC)={2,4}。在SAM

#CANN
基于昇腾的SAM投机解码:长序列强化学习训练加速利器

SAM(suffix automaton,后缀自动机)是一个能够高效解决许多字符串问题的数据结构。直观上,字符串的 SAM 可以理解为给定字符串的所有子串的压缩形式。SAM主要维护两个重要的集合:结束位置endpos:考虑字符串 s 的任意非空子串 t,记 endpos(t) 为字符串 s 中 t的所有结束位置的集合。例如,对于字符串 ABCBC 我们有 endpos(BC)={2,4}。在SAM

#CANN
自定义算子开发系列:AICPU Tiling下沉编程方式介绍

Host Bound一直是算子调用的显著性能瓶颈,造成Host Bound的核心原因就在于算子在Kernel执行前都需要计算出TilingData,而TilingData的计算通常是在Host侧完成再拷贝到Device侧的。针对这一问题我们推出了AICPU Tiling下沉编程方式,使用Device侧的AICPU计算TilingData,节省了Host侧拷贝TilingData到Device侧的步

#CANN
大力出奇迹,揭秘昇腾CANN的AI超能力

CANN(Compute Architecture for Neural Networks)异构计算架构,是以提升用户开发效率和释放昇腾AI处理器极致算力为目标,专门面向AI场景的异构计算架构。对上支持主流前端框架,向下对用户屏蔽系列化芯片的硬件差异,以全场景、低门槛、高性能的优势,满足用户全方位的人工智能诉求。

文章图片
基于torch_npu的IPC特性介绍

IPC(Inter-Process Communication,进程间通信)允许不同进程之间直接访问共享的设备内存,而无需进行显式的内存拷贝操作,从而显著提升通信效率。昇腾当前已基于Ascend Extension for PyTorch(昇腾NPU适配PyTorch框架的插件,也称为torch_npu)提供了IPC特性的原子能力,使开发者在分布式训练、强化学习等需要多进程大规模数据通信场景可以自

#CANN
基于torch_npu的IPC特性介绍

IPC(Inter-Process Communication,进程间通信)允许不同进程之间直接访问共享的设备内存,而无需进行显式的内存拷贝操作,从而显著提升通信效率。昇腾当前已基于Ascend Extension for PyTorch(昇腾NPU适配PyTorch框架的插件,也称为torch_npu)提供了IPC特性的原子能力,使开发者在分布式训练、强化学习等需要多进程大规模数据通信场景可以自

#CANN
    共 105 条
  • 1
  • 2
  • 3
  • 11
  • 请选择