logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

模型量化SKILL应用——以Mimo-V2-Flash为例

本文记录了MiMo-V2-Flash模型从FP8到BF16反量化脚本的开发与验证流程,并提供了将BF16模型动态量化为w8a8类型时生成适配器的skill。服务器型号:Atlas 800I A2推理服务器本文记录了MiMo-V2-Flash模型从FP8到BF16反量化脚本的开发与验证流程,并提供了将BF16模型动态量化为w8a8类型时生成适配器的skill。服务器型号:Atlas 800I A2推

#pytorch#python#深度学习 +1
模型量化SKILL应用——以Mimo-V2-Flash为例

本文记录了MiMo-V2-Flash模型从FP8到BF16反量化脚本的开发与验证流程,并提供了将BF16模型动态量化为w8a8类型时生成适配器的skill。服务器型号:Atlas 800I A2推理服务器本文记录了MiMo-V2-Flash模型从FP8到BF16反量化脚本的开发与验证流程,并提供了将BF16模型动态量化为w8a8类型时生成适配器的skill。服务器型号:Atlas 800I A2推

#pytorch#python#深度学习 +1
【MindIE】知识地图

MindIE系列将划分为【模型迁移】、【模型部署】、【精度相关】、【性能相关】五大类。本博客旨在对已发表昇腾社区的博客进行整理归类,方便用户导航使用。

#人工智能
基于vNPU的MindIE服务化部署指南

作者:昇腾实战派 一、部署概述 ​目标​:通过vNPU算力切分技术,在容器化环境中部署MindIE服务化框架,实现AI模型的高效推理服务。​核心价值​: ​资源隔离与弹性分配​:通过vNPU将物理NPU卡算力动态切分,实现多任务/多用户间的算力隔离与灵活调度。​轻量化部署​:结合Docker容器技术,快速部署AI服务,提升环境一致性与运维效率。​成本优化​:单张物理卡可虚拟为多个vNPU,服务低负

#昇腾
到底了