Lumos_Lovegood 个人主页

@Lumos_Lovegood

Lumos_Lovegood

2023-08-23 14:15:03 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

使用Ascend verl每日镜像进行大语言模型训练指南

本文介绍了基于Ascend verl镜像的大语言模型训练实践方案。该方案提供开箱即用的Docker环境，预装Ubuntu 22.04、Python 3.11及主流深度学习框架（PyTorch、vLLM、Megatron-LM等），支持Ascend硬件加速。详细说明了镜像获取方法、容器启动配置以及完整的训练流程，包括GSM8K数据集预处理和模型训练参数设置。通过优化后的训练脚本，用户可快速部署分布式

#语言模型 #人工智能 #自然语言处理

【昇腾实战派】SGLang知识地图

《昇腾实战派：SGLang应用与优化全指南》摘要：本系列聚焦昇腾AI处理器与SGLang框架的深度整合，涵盖三大方向：(1)部署实践篇，详细解析sglang在NPU上的运行流程、大模型量化部署方案（如llama3.1-70B w8a8），以及Atlas服务器上Qwen3-235B的单机/分离部署实战；(2)框架优化篇，深入剖析SGLang的prefix cache特性，对比分析其技术原理与性能优势

#sglang #python #人工智能 +1

Qwen3-Omni多模态推理性能优化实践：基于昇腾的P99时延与QPS双提升

本文基于Atlas 800I A2部署Qwen3-Omni全模态大模型，针对多模态AI分析系统的性能瓶颈展开优化。Qwen3-Omni支持文本、图像、音频、视频的统一处理，在多项基准测试中表现优异。通过分析发现MoE路由和CUMSUM算子存在性能瓶颈，采用Ascend原生算子替换和数据类型转换优化方案，显著提升推理效率。关键优化包括：替换MoE路由算子为Ascend原生实现，将CUMSUM算子的I

#性能优化 #python

【MindSDK】HSTU融合算子在昇腾平台实现4倍加速突破

当前HSTU已在多个大型互联网平台部署，支持数十亿日活用户的推荐服务。其创新性不仅在于技术架构的改进，更在于为推荐系统领域带来了类似LLM的扩展定律，被业界视为推荐系统的"ChatGPT时刻"。

#语言模型 #人工智能 #python

【昇腾实战派】强化学习知识地图

本文是"昇腾实战派"强化学习专题的知识地图，汇总了27篇关于veRL框架及昇腾AI平台的实践指南、算法解析和性能优化文章。内容涵盖veRL入门实践（如Qwen系列模型适配）、算法原理（如DAPO实现）、性能优化方案（异卡/异步训练）和问题定位技巧，同时包含其他RL框架（SiiRL/SAPO）的昇腾适配案例。其中《Qwen3-235B+verl+DAPO调优实践》被华为官方公众号精选推荐，为大规模模

#人工智能

【昇腾实战派】综合指导知识地图

《昇腾实战派知识地图》是一份全面的昇腾AI处理器技术指南，涵盖模型部署、训练优化、问题排查和环境配置四大核心领域。文档详细介绍了MindIE推理框架的部署实践（包括多模态模型和DeepSeek系列）、训练部署指南（如Qwen3-235B的DPO训练），以及PaddleOCR等模型的NPU部署方案。针对常见问题，提供了HCCL通信、内存泄漏、精度问题等系统化排查方法。环境配置部分包含apex库编译、

#python #人工智能 #性能优化

【昇腾实战派】技术洞察知识地图

本文是"昇腾实战派"技术文章合集的知识地图，收录了29篇涵盖多领域的技术文章，分为5个专题：1) DeepSeek模型系列，包括V3版本的多Token预测、模型结构解析等核心内容；2) 并行策略与分布式技术，深入分析FSDP、序列并行、ZeRO-3等关键技术；3) 模型架构基础概念，涉及FLOPs计算、GE图模式等；4) 多模态技术，聚焦MoE模型和多模态理解；5) 其他模型分析，包含风乌V2、G

共 41 条

请选择