logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ascend-transformer-boost:昇腾上跑大模型推理,这个加速库到底加速了什么

摘要:ATB(Ascend Transformer Boost)是昇腾官方推出的大模型推理加速库,专注于Transformer类模型的算子层优化。它通过算子融合、内存优化和并行调度三大技术提升推理性能,支持主流大语言模型如Llama、Qwen等。ATB并非通用推理框架,而是基于CANN底层算子能力的高层封装,适合批量推理场景。使用时需注意模型格式转换、参数配置等关键点,并了解其适用边界。该库将复杂

文章图片
#transformer#深度学习#人工智能
ascend-transformer-boost:昇腾上跑大模型推理,这个加速库到底加速了什么

摘要:ATB(Ascend Transformer Boost)是昇腾官方推出的大模型推理加速库,专注于Transformer类模型的算子层优化。它通过算子融合、内存优化和并行调度三大技术提升推理性能,支持主流大语言模型如Llama、Qwen等。ATB并非通用推理框架,而是基于CANN底层算子能力的高层封装,适合批量推理场景。使用时需注意模型格式转换、参数配置等关键点,并了解其适用边界。该库将复杂

文章图片
#transformer#深度学习#人工智能
ascend-transformer-boost:昇腾上跑大模型推理,这个加速库到底加速了什么

摘要:ATB(Ascend Transformer Boost)是昇腾官方推出的大模型推理加速库,专注于Transformer类模型的算子层优化。它通过算子融合、内存优化和并行调度三大技术提升推理性能,支持主流大语言模型如Llama、Qwen等。ATB并非通用推理框架,而是基于CANN底层算子能力的高层封装,适合批量推理场景。使用时需注意模型格式转换、参数配置等关键点,并了解其适用边界。该库将复杂

文章图片
#transformer#深度学习#人工智能
hixl:PD 分离背后的单边通信库,到底是个什么东西

本文介绍了昇腾NPU通信库hixl在PD分离架构中的关键作用。hixl是一种单边通信库,与需要同步的hccl/hcomm不同,它允许发送方独立完成数据传输,接收方无需实时配合。这一特性使其特别适合LLM推理中的Prefill-Decode分离场景,可异步传输大容量KV Cache数据。文章还分析了hixl的零拷贝机制如何通过共享内存实现高效传输,并比较了hixl与shmem等其他通信组件的关系。最

文章图片
#人工智能
hixl:PD 分离背后的单边通信库,到底是个什么东西

本文介绍了昇腾NPU通信库hixl在PD分离架构中的关键作用。hixl是一种单边通信库,与需要同步的hccl/hcomm不同,它允许发送方独立完成数据传输,接收方无需实时配合。这一特性使其特别适合LLM推理中的Prefill-Decode分离场景,可异步传输大容量KV Cache数据。文章还分析了hixl的零拷贝机制如何通过共享内存实现高效传输,并比较了hixl与shmem等其他通信组件的关系。最

文章图片
#人工智能
到底了