logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM模型迁移昇腾平台实战:从GPU到NPU的完整部署流程

PD分离部署对大模型推理性能提升确实有明显效果,但配置过程比较繁琐,需要注意的点也很多。希望这份实战记录能帮大家少踩一些坑。一旦打通了HCCL通信链路,配合vLLM的PD分离架构,昇腾910B在DeepSeek这种大参数模型上的吞吐表现是相当可观的。如果在部署过程中遇到其他问题,建议先查看官方文档和社区讨论,很多常见问题都有解决方案,注明:昇腾PAE案例库对本文写作亦有帮助。昇腾社区。

文章图片
#人工智能
【创造者】人工智能前沿知识

近年来,NLP 领域的深度学习方法取得了重大突破,包括BERT、GPT和XLNet等模型,这些模型都是基于 Transformer 架构的,并使用了大规模预训练技术,使得在语义理解、问答、文本生成等任务中都达到了领先水平。联邦学习:联邦学习是一种分布式机器学习方法,可以在保护数据隐私的前提下,将多个设备或数据中心的数据进行集成和分析。深度强化学习:深度强化学习是强化学习领域中的一种技术,结合了深度

文章图片
#人工智能
vLLM模型迁移昇腾平台实战:从GPU到NPU的完整部署流程

PD分离部署对大模型推理性能提升确实有明显效果,但配置过程比较繁琐,需要注意的点也很多。希望这份实战记录能帮大家少踩一些坑。一旦打通了HCCL通信链路,配合vLLM的PD分离架构,昇腾910B在DeepSeek这种大参数模型上的吞吐表现是相当可观的。如果在部署过程中遇到其他问题,建议先查看官方文档和社区讨论,很多常见问题都有解决方案,注明:昇腾PAE案例库对本文写作亦有帮助。昇腾社区。

文章图片
#人工智能
扒掉 Runtime 底裤:BoostKit 是如何通过重写 TF 执行流的

宏观架构层:用重写执行流,解决大量小算子带来的调度崩塌。微观算子层:用KDNN和KTFOP替换通用实现,利用 ARM 专有指令集和寄存器特性。硬件适配层:通过 NUMA 亲和性和 Zero Copy 技术,打通 CPU 和内存的任督二脉。对于咱们开发者来说,这个 Repo 绝对是学习“如何为特定硬件定制 AI 框架”的教科书。别再只会然后调参了。真正的技术大牛,都是像这样,敢于拿着手术刀,对着几百

文章图片
#人工智能
扒掉 Runtime 底裤:BoostKit 是如何通过重写 TF 执行流的

宏观架构层:用重写执行流,解决大量小算子带来的调度崩塌。微观算子层:用KDNN和KTFOP替换通用实现,利用 ARM 专有指令集和寄存器特性。硬件适配层:通过 NUMA 亲和性和 Zero Copy 技术,打通 CPU 和内存的任督二脉。对于咱们开发者来说,这个 Repo 绝对是学习“如何为特定硬件定制 AI 框架”的教科书。别再只会然后调参了。真正的技术大牛,都是像这样,敢于拿着手术刀,对着几百

文章图片
#人工智能
【创造者】人工智能前沿知识

近年来,NLP 领域的深度学习方法取得了重大突破,包括BERT、GPT和XLNet等模型,这些模型都是基于 Transformer 架构的,并使用了大规模预训练技术,使得在语义理解、问答、文本生成等任务中都达到了领先水平。联邦学习:联邦学习是一种分布式机器学习方法,可以在保护数据隐私的前提下,将多个设备或数据中心的数据进行集成和分析。深度强化学习:深度强化学习是强化学习领域中的一种技术,结合了深度

文章图片
#人工智能
【创造者】人工智能前沿知识

近年来,NLP 领域的深度学习方法取得了重大突破,包括BERT、GPT和XLNet等模型,这些模型都是基于 Transformer 架构的,并使用了大规模预训练技术,使得在语义理解、问答、文本生成等任务中都达到了领先水平。联邦学习:联邦学习是一种分布式机器学习方法,可以在保护数据隐私的前提下,将多个设备或数据中心的数据进行集成和分析。深度强化学习:深度强化学习是强化学习领域中的一种技术,结合了深度

文章图片
#人工智能
数据结构(稀疏矩阵)

简要讲述一下稀疏矩阵及其使用方法

#矩阵#人工智能#python
Python全套学习笔记

全网最全python学习笔记,欢迎广大朋友前来学习

#学习
Python学习笔记(六)——函数

声明函数时声明的形式参数等同于函数体中的局部变量,在函数体中的任何位置都可以使用。Python参数传递方法是传递对象引用,而不是传递对象的值。局部变量和形式参数变量的区别在于局部变量在函数体中绑定到某个对象,而形式参数变量则绑定到函数调用代码传递的对应实际参数对象。

#学习
    共 29 条
  • 1
  • 2
  • 3
  • 请选择