
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:ATB(Ascend Transformer Boost)是昇腾官方推出的大模型推理加速库,专注于Transformer类模型的算子层优化。它通过算子融合、内存优化和并行调度三大技术提升推理性能,支持主流大语言模型如Llama、Qwen等。ATB并非通用推理框架,而是基于CANN底层算子能力的高层封装,适合批量推理场景。使用时需注意模型格式转换、参数配置等关键点,并了解其适用边界。该库将复杂

摘要:ATB(Ascend Transformer Boost)是昇腾官方推出的大模型推理加速库,专注于Transformer类模型的算子层优化。它通过算子融合、内存优化和并行调度三大技术提升推理性能,支持主流大语言模型如Llama、Qwen等。ATB并非通用推理框架,而是基于CANN底层算子能力的高层封装,适合批量推理场景。使用时需注意模型格式转换、参数配置等关键点,并了解其适用边界。该库将复杂

摘要:ATB(Ascend Transformer Boost)是昇腾官方推出的大模型推理加速库,专注于Transformer类模型的算子层优化。它通过算子融合、内存优化和并行调度三大技术提升推理性能,支持主流大语言模型如Llama、Qwen等。ATB并非通用推理框架,而是基于CANN底层算子能力的高层封装,适合批量推理场景。使用时需注意模型格式转换、参数配置等关键点,并了解其适用边界。该库将复杂

本文介绍了昇腾NPU通信库hixl在PD分离架构中的关键作用。hixl是一种单边通信库,与需要同步的hccl/hcomm不同,它允许发送方独立完成数据传输,接收方无需实时配合。这一特性使其特别适合LLM推理中的Prefill-Decode分离场景,可异步传输大容量KV Cache数据。文章还分析了hixl的零拷贝机制如何通过共享内存实现高效传输,并比较了hixl与shmem等其他通信组件的关系。最

本文介绍了昇腾NPU通信库hixl在PD分离架构中的关键作用。hixl是一种单边通信库,与需要同步的hccl/hcomm不同,它允许发送方独立完成数据传输,接收方无需实时配合。这一特性使其特别适合LLM推理中的Prefill-Decode分离场景,可异步传输大容量KV Cache数据。文章还分析了hixl的零拷贝机制如何通过共享内存实现高效传输,并比较了hixl与shmem等其他通信组件的关系。最








