
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
昇腾NPU精度调优指南:基于达芬奇架构的FP32/FP16/BF16/INT8多精度计算优化 摘要:本文针对昇腾NPU(910/310系列)在深度学习训练和推理中的精度问题,系统解析了达芬奇架构下的多精度计算特性(FP32/FP16/BF16/INT8)及误差来源,包括硬件浮点特性差异、算子实现偏差和混合精度策略缺陷。提出了五大调优方法:1)O2级自动混合精度+动态Loss Scale训练策略;2
昇腾NPU精度调优指南:基于达芬奇架构的FP32/FP16/BF16/INT8多精度计算优化 摘要:本文针对昇腾NPU(910/310系列)在深度学习训练和推理中的精度问题,系统解析了达芬奇架构下的多精度计算特性(FP32/FP16/BF16/INT8)及误差来源,包括硬件浮点特性差异、算子实现偏差和混合精度策略缺陷。提出了五大调优方法:1)O2级自动混合精度+动态Loss Scale训练策略;2
训练日志将保存在 output/logs 目录下。模型 checkpoint 会定期保存在 output/ckpts 目录。训练初期 loss 波动较大属于正常现象,建议训练超过1000步再评估效果。如遇到命令行换行符问题,可尝试去除反斜杠后在单行执行。确保系统内存充足,推荐预留50%以上空闲内存。存储 >= 1TB NVMe SSD。预训练语料库(WikiText-2)固件与驱动版本 24.1.
CATLASS是昇腾面向矩阵乘算子的高性能模板库,通过五层抽象架构(Device-Kernel-Block-Tile-Basic)将AICore硬件特性封装为可复用组件。其核心优势包括:硬件感知优化(自动适配L0/L1缓存)、流水线自动化(双缓冲掩盖延迟)、模板元编程(零运行时开销)。开发者只需组合模板参数即可构建高性能算子,无需手动处理底层指令和同步,性能接近手写汇编。该架构显著降低了昇腾NPU
CATLASS是昇腾面向矩阵乘算子的高性能模板库,通过五层抽象架构(Device-Kernel-Block-Tile-Basic)将AICore硬件特性封装为可复用组件。其核心优势包括:硬件感知优化(自动适配L0/L1缓存)、流水线自动化(双缓冲掩盖延迟)、模板元编程(零运行时开销)。开发者只需组合模板参数即可构建高性能算子,无需手动处理底层指令和同步,性能接近手写汇编。该架构显著降低了昇腾NPU
CATLASS是昇腾面向矩阵乘算子的高性能模板库,通过五层抽象架构(Device-Kernel-Block-Tile-Basic)将AICore硬件特性封装为可复用组件。其核心优势包括:硬件感知优化(自动适配L0/L1缓存)、流水线自动化(双缓冲掩盖延迟)、模板元编程(零运行时开销)。开发者只需组合模板参数即可构建高性能算子,无需手动处理底层指令和同步,性能接近手写汇编。该架构显著降低了昇腾NPU
摘要:昇思MindSpore针对大语言模型存储体积大的问题,提出五大轻量化技术:量化(压缩4-8倍)、混合精度(2倍)、稀疏剪枝(1.5-3倍)、内存卸载(扩展10-100倍)和权重共享(1.5-2倍)。这些技术可在精度损失<1%的前提下实现最高8倍压缩,支持从训练到部署的全流程优化。通过Golden Stick工具链和昇腾NPU硬件加速,开发者可快速实现模型压缩,如将7B模型从13GB降至
摘要:昇思MindSpore针对大语言模型存储体积大的问题,提出五大轻量化技术:量化(压缩4-8倍)、混合精度(2倍)、稀疏剪枝(1.5-3倍)、内存卸载(扩展10-100倍)和权重共享(1.5-2倍)。这些技术可在精度损失<1%的前提下实现最高8倍压缩,支持从训练到部署的全流程优化。通过Golden Stick工具链和昇腾NPU硬件加速,开发者可快速实现模型压缩,如将7B模型从13GB降至
摘要:昇思MindSpore针对大语言模型存储体积大的问题,提出五大轻量化技术:量化(压缩4-8倍)、混合精度(2倍)、稀疏剪枝(1.5-3倍)、内存卸载(扩展10-100倍)和权重共享(1.5-2倍)。这些技术可在精度损失<1%的前提下实现最高8倍压缩,支持从训练到部署的全流程优化。通过Golden Stick工具链和昇腾NPU硬件加速,开发者可快速实现模型压缩,如将7B模型从13GB降至
摘要:传统深度学习模型格式(如PyTorch的.pt/.pth)存在恶意代码注入、数据篡改、加载低效和跨框架兼容性差等风险。MindSpore Transformers通过原生支持Safetensors安全格式,提供四大安全增强机制:代码执行隔离、端到端校验、按需懒加载和跨框架无感化。该方案能完全消除恶意代码风险,提升3-10倍加载速度,降低50%内存占用,并实现无缝跨框架互通。开发者只需指定ch







