logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【MindSDK】HSTU融合算子在昇腾平台实现4倍加速突破

当前HSTU已在多个大型互联网平台部署,支持数十亿日活用户的推荐服务。其创新性不仅在于技术架构的改进,更在于为推荐系统领域带来了类似LLM的扩展定律,被业界视为推荐系统的"ChatGPT时刻"。

#语言模型#人工智能#python
【MindSDK】HSTU融合算子在昇腾平台实现4倍加速突破

当前HSTU已在多个大型互联网平台部署,支持数十亿日活用户的推荐服务。其创新性不仅在于技术架构的改进,更在于为推荐系统领域带来了类似LLM的扩展定律,被业界视为推荐系统的"ChatGPT时刻"。

#语言模型#人工智能#python
【MindSDK】HSTU融合算子在昇腾平台实现4倍加速突破

当前HSTU已在多个大型互联网平台部署,支持数十亿日活用户的推荐服务。其创新性不仅在于技术架构的改进,更在于为推荐系统领域带来了类似LLM的扩展定律,被业界视为推荐系统的"ChatGPT时刻"。

#语言模型#人工智能#python
基于MindCluster的昇腾集群秒级故障检测机制

摘要:昇腾实战派介绍了MindCluster针对昇腾设备集群的故障检测机制,可秒级完成NPU芯片、服务器硬件及参数面网络的故障检测与隔离。关键能力包括:1)通过Ascend Device Plugin组件实时上报NPU芯片故障;2)利用NodeD和Kubelet检测服务器硬件与共享存储故障;3)快速识别ROCE网络和灵衢总线设备故障。部署时需根据设备类型选择适配的YAML配置文件,并支持自定义启动

#python#人工智能
基于MindCluster的昇腾集群秒级故障检测机制

摘要:昇腾实战派介绍了MindCluster针对昇腾设备集群的故障检测机制,可秒级完成NPU芯片、服务器硬件及参数面网络的故障检测与隔离。关键能力包括:1)通过Ascend Device Plugin组件实时上报NPU芯片故障;2)利用NodeD和Kubelet检测服务器硬件与共享存储故障;3)快速识别ROCE网络和灵衢总线设备故障。部署时需根据设备类型选择适配的YAML配置文件,并支持自定义启动

#python#人工智能
基于MindCluster的昇腾集群秒级故障检测机制

摘要:昇腾实战派介绍了MindCluster针对昇腾设备集群的故障检测机制,可秒级完成NPU芯片、服务器硬件及参数面网络的故障检测与隔离。关键能力包括:1)通过Ascend Device Plugin组件实时上报NPU芯片故障;2)利用NodeD和Kubelet检测服务器硬件与共享存储故障;3)快速识别ROCE网络和灵衢总线设备故障。部署时需根据设备类型选择适配的YAML配置文件,并支持自定义启动

#python#人工智能
基于MindCluster的昇腾集群秒级故障检测机制

摘要:昇腾实战派介绍了MindCluster针对昇腾设备集群的故障检测机制,可秒级完成NPU芯片、服务器硬件及参数面网络的故障检测与隔离。关键能力包括:1)通过Ascend Device Plugin组件实时上报NPU芯片故障;2)利用NodeD和Kubelet检测服务器硬件与共享存储故障;3)快速识别ROCE网络和灵衢总线设备故障。部署时需根据设备类型选择适配的YAML配置文件,并支持自定义启动

#python#人工智能
Qwen3-Omni多模态推理性能优化实践:基于昇腾的P99时延与QPS双提升

本文基于Atlas 800I A2部署Qwen3-Omni全模态大模型,针对多模态AI分析系统的性能瓶颈展开优化。Qwen3-Omni支持文本、图像、音频、视频的统一处理,在多项基准测试中表现优异。通过分析发现MoE路由和CUMSUM算子存在性能瓶颈,采用Ascend原生算子替换和数据类型转换优化方案,显著提升推理效率。关键优化包括:替换MoE路由算子为Ascend原生实现,将CUMSUM算子的I

#性能优化#python
Qwen3-Omni多模态推理性能优化实践:基于昇腾的P99时延与QPS双提升

本文基于Atlas 800I A2部署Qwen3-Omni全模态大模型,针对多模态AI分析系统的性能瓶颈展开优化。Qwen3-Omni支持文本、图像、音频、视频的统一处理,在多项基准测试中表现优异。通过分析发现MoE路由和CUMSUM算子存在性能瓶颈,采用Ascend原生算子替换和数据类型转换优化方案,显著提升推理效率。关键优化包括:替换MoE路由算子为Ascend原生实现,将CUMSUM算子的I

#性能优化#python
Qwen3-Omni多模态推理性能优化实践:基于昇腾的P99时延与QPS双提升

本文基于Atlas 800I A2部署Qwen3-Omni全模态大模型,针对多模态AI分析系统的性能瓶颈展开优化。Qwen3-Omni支持文本、图像、音频、视频的统一处理,在多项基准测试中表现优异。通过分析发现MoE路由和CUMSUM算子存在性能瓶颈,采用Ascend原生算子替换和数据类型转换优化方案,显著提升推理效率。关键优化包括:替换MoE路由算子为Ascend原生实现,将CUMSUM算子的I

#性能优化#python
    共 21 条
  • 1
  • 2
  • 3
  • 请选择