
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文详细介绍了将Llama7B模型从PyTorch/HuggingFace迁移到MindSpore的技术实践,包括环境配置、权重转换和性能优化等关键环节。重点阐述了GRAPH模式在AscendNPU上的性能优势(提升65%以上)、权重映射转换技巧、算子融合优化策略(延时降低75%)、混合精度训练实现(FP16+FP32混合)以及高效数据流水线构建方法。文章还分享了RoPE位置编码实现细节和调试技巧
摘要:大模型训练与部署的核心技术包括分布式并行策略、算力效率评估和性能优化。Megatron SPTD组合了张量、序列、流水线和数据并行,有效突破单GPU限制。MFU指标通过计算实际与理论FLOPs比值评估算力利用率,优化需减少通信开销。GPT3-175B采用激活重计算、混合精度训练和权重量化等技术,结合SPTD并行策略,实现高效训练与推理。(150字)
摘要:数值微分与自动微分是计算导数的两种主要方法。数值微分基于有限差分,但面临误差控制难、计算效率低和稳定性差等问题。自动微分通过符号演算和计算图分解,实现了零截断误差、计算复用和高效梯度计算,成为现代科学计算的首选。在深度学习等领域,反向模式自动微分能以O(1)倍于前向计算的时间完成梯度计算。尽管自动微分优势明显,但在特殊场景下数值方法仍有补充价值,当前研究正探索量子AD等前沿方向。
GLM-5模型部署与推理指南 摘要: 本文档详细介绍了GLM-5模型的部署与推理流程。该模型采用混合专家(MoE)架构,适用于复杂系统工程和长周期智能体任务。部署方案支持单节点和多节点配置,单节点推荐使用Atlas 800 A3(64G×16)运行量化模型glm-5-w4a8,多节点至少需要2台同配置设备运行glm-5-bf16模型。文档提供了完整的Docker环境配置指南,包括镜像使用、权重准备
摘要:MindFormers是昇思推出的大语言模型端到端套件,支持Llama、Qwen等主流模型在昇腾NPU上的高效推理。其核心特性包括KV缓存优化、静态图编译、权重量化和多卡并行,可显著提升推理速度并降低显存占用。该工具支持HuggingFace权重直接迁移,提供流式生成、算子融合等优化手段,实现低延迟、高吞吐的推理服务。典型应用场景包括单卡流式推理、INT8量化及多卡模型并行,并可通过Mind
摘要: Safetensors是Hugging Face推出的安全高效模型权重存储格式,解决了传统CKPT/PT格式的安全性和效率问题。其优势包括:1) 安全性:避免pickle序列化风险,支持文件完整性校验;2) 高效性:零拷贝加载与内存映射技术提升大模型加载速度;3) 跨框架兼容:支持MindSpore、PyTorch等框架,无缝适配Qwen、Llama等主流大模型。MindSpore Tra
昇思MindSpore通过Golden Stick量化工具链为大模型提供高效压缩方案,支持FP16/FP32到INT8/INT4/2bit的全栈量化,显著降低显存占用60%-85%、提升推理吞吐量2-4倍,精度损失控制在1%以内。工具链提供PTQ、QAT和混合精度量化等多种技术,支持Llama、Qwen等主流大模型的一键量化,并与昇腾NPU深度优化实现硬件直达。通过3行代码即可启动量化流程,实测L
MindSpore Transformers Mcore架构是昇思大模型套件的核心创新,通过五大设计实现高效开发:1)模块化组件抽象,标准化Transformer层;2)训推一体化架构,统一训练推理接口;3)声明式配置开发,模型定义代码减少85%;4)自动多维并行,支持数据/张量/流水线/专家并行;5)兼容Hugging Face生态,实现开源模型天级迁移。该架构支持Llama、Qwen等主流模型
摘要: MindSpore Transformers是面向大语言模型的一站式开发套件,支持预训练、微调与推理全流程,适配昇腾NPU硬件,兼容Qwen、LLaMA等主流模型。其核心优势包括统一架构、NPU深度优化、轻量化微调(LoRA/QLoRA)及生态兼容性。实践流程涵盖环境配置、数据处理、模型训练(预训练/SFT)及验证,提供开箱即用的YAML配置与脚本,支持单机/分布式训练。关键注意事项包括权
摘要:昇腾多模态生成模型基于昇腾NPU和MindSpore/MindSpeed MM框架,采用模态解耦编码、跨模态融合和混合生成架构(自回归+扩散模型),实现文本、图像、视频、音频的统一生成。核心技术包括GLM-Image架构、交叉注意力机制和昇腾硬件优化(算子加速、内存优化等),支持文生图、文生视频、多模态对话等应用场景。该模型通过国产AI全栈技术实现高画质、强语义的多模态内容生成,展现了国产A







