logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

昇腾 NPU 计算精度说明及精度调优方法

昇腾NPU精度调优指南:基于达芬奇架构的FP32/FP16/BF16/INT8多精度计算优化 摘要:本文针对昇腾NPU(910/310系列)在深度学习训练和推理中的精度问题,系统解析了达芬奇架构下的多精度计算特性(FP32/FP16/BF16/INT8)及误差来源,包括硬件浮点特性差异、算子实现偏差和混合精度策略缺陷。提出了五大调优方法:1)O2级自动混合精度+动态Loss Scale训练策略;2

#深度学习#人工智能#硬件架构
昇腾 NPU 计算精度说明及精度调优方法

昇腾NPU精度调优指南:基于达芬奇架构的FP32/FP16/BF16/INT8多精度计算优化 摘要:本文针对昇腾NPU(910/310系列)在深度学习训练和推理中的精度问题,系统解析了达芬奇架构下的多精度计算特性(FP32/FP16/BF16/INT8)及误差来源,包括硬件浮点特性差异、算子实现偏差和混合精度策略缺陷。提出了五大调优方法:1)O2级自动混合精度+动态Loss Scale训练策略;2

#深度学习#人工智能#硬件架构
基于 MindSpore 训练大语言模型 - 从零开始的实践指南

训练日志将保存在 output/logs 目录下。模型 checkpoint 会定期保存在 output/ckpts 目录。训练初期 loss 波动较大属于正常现象,建议训练超过1000步再评估效果。如遇到命令行换行符问题,可尝试去除反斜杠后在单行执行。确保系统内存充足,推荐预留50%以上空闲内存。存储 >= 1TB NVMe SSD。预训练语料库(WikiText-2)固件与驱动版本 24.1.

#语言模型#人工智能#自然语言处理
CATLASS 算子开发:AICore 抽象硬件架构

CATLASS是昇腾面向矩阵乘算子的高性能模板库,通过五层抽象架构(Device-Kernel-Block-Tile-Basic)将AICore硬件特性封装为可复用组件。其核心优势包括:硬件感知优化(自动适配L0/L1缓存)、流水线自动化(双缓冲掩盖延迟)、模板元编程(零运行时开销)。开发者只需组合模板参数即可构建高性能算子,无需手动处理底层指令和同步,性能接近手写汇编。该架构显著降低了昇腾NPU

#硬件架构#java#开发语言
CATLASS 算子开发:AICore 抽象硬件架构

CATLASS是昇腾面向矩阵乘算子的高性能模板库,通过五层抽象架构(Device-Kernel-Block-Tile-Basic)将AICore硬件特性封装为可复用组件。其核心优势包括:硬件感知优化(自动适配L0/L1缓存)、流水线自动化(双缓冲掩盖延迟)、模板元编程(零运行时开销)。开发者只需组合模板参数即可构建高性能算子,无需手动处理底层指令和同步,性能接近手写汇编。该架构显著降低了昇腾NPU

#硬件架构#java#开发语言
CATLASS 算子开发:AICore 抽象硬件架构

CATLASS是昇腾面向矩阵乘算子的高性能模板库,通过五层抽象架构(Device-Kernel-Block-Tile-Basic)将AICore硬件特性封装为可复用组件。其核心优势包括:硬件感知优化(自动适配L0/L1缓存)、流水线自动化(双缓冲掩盖延迟)、模板元编程(零运行时开销)。开发者只需组合模板参数即可构建高性能算子,无需手动处理底层指令和同步,性能接近手写汇编。该架构显著降低了昇腾NPU

#硬件架构#java#开发语言
昇思 MindSpore 降低模型存储空间

摘要:昇思MindSpore针对大语言模型存储体积大的问题,提出五大轻量化技术:量化(压缩4-8倍)、混合精度(2倍)、稀疏剪枝(1.5-3倍)、内存卸载(扩展10-100倍)和权重共享(1.5-2倍)。这些技术可在精度损失<1%的前提下实现最高8倍压缩,支持从训练到部署的全流程优化。通过Golden Stick工具链和昇腾NPU硬件加速,开发者可快速实现模型压缩,如将7B模型从13GB降至

#人工智能#算法#深度学习 +1
昇思 MindSpore 降低模型存储空间

摘要:昇思MindSpore针对大语言模型存储体积大的问题,提出五大轻量化技术:量化(压缩4-8倍)、混合精度(2倍)、稀疏剪枝(1.5-3倍)、内存卸载(扩展10-100倍)和权重共享(1.5-2倍)。这些技术可在精度损失<1%的前提下实现最高8倍压缩,支持从训练到部署的全流程优化。通过Golden Stick工具链和昇腾NPU硬件加速,开发者可快速实现模型压缩,如将7B模型从13GB降至

#人工智能#算法#深度学习 +1
昇思 MindSpore 降低模型存储空间

摘要:昇思MindSpore针对大语言模型存储体积大的问题,提出五大轻量化技术:量化(压缩4-8倍)、混合精度(2倍)、稀疏剪枝(1.5-3倍)、内存卸载(扩展10-100倍)和权重共享(1.5-2倍)。这些技术可在精度损失<1%的前提下实现最高8倍压缩,支持从训练到部署的全流程优化。通过Golden Stick工具链和昇腾NPU硬件加速,开发者可快速实现模型压缩,如将7B模型从13GB降至

#人工智能#算法#深度学习 +1
MindSpore Transformers:规避传统格式风险的安全实践

摘要:传统深度学习模型格式(如PyTorch的.pt/.pth)存在恶意代码注入、数据篡改、加载低效和跨框架兼容性差等风险。MindSpore Transformers通过原生支持Safetensors安全格式,提供四大安全增强机制:代码执行隔离、端到端校验、按需懒加载和跨框架无感化。该方案能完全消除恶意代码风险,提升3-10倍加载速度,降低50%内存占用,并实现无缝跨框架互通。开发者只需指定ch

#安全#算法#深度学习 +1
    共 2036 条
  • 1
  • 2
  • 3
  • 204
  • 请选择