
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文记录了MiMo-V2-Flash模型从FP8到BF16反量化脚本的开发与验证流程,并提供了将BF16模型动态量化为w8a8类型时生成适配器的skill。服务器型号:Atlas 800I A2推理服务器本文记录了MiMo-V2-Flash模型从FP8到BF16反量化脚本的开发与验证流程,并提供了将BF16模型动态量化为w8a8类型时生成适配器的skill。服务器型号:Atlas 800I A2推
本文记录了MiMo-V2-Flash模型从FP8到BF16反量化脚本的开发与验证流程,并提供了将BF16模型动态量化为w8a8类型时生成适配器的skill。服务器型号:Atlas 800I A2推理服务器本文记录了MiMo-V2-Flash模型从FP8到BF16反量化脚本的开发与验证流程,并提供了将BF16模型动态量化为w8a8类型时生成适配器的skill。服务器型号:Atlas 800I A2推
MindIE系列将划分为【模型迁移】、【模型部署】、【精度相关】、【性能相关】五大类。本博客旨在对已发表昇腾社区的博客进行整理归类,方便用户导航使用。
作者:昇腾实战派 一、部署概述 目标:通过vNPU算力切分技术,在容器化环境中部署MindIE服务化框架,实现AI模型的高效推理服务。核心价值: 资源隔离与弹性分配:通过vNPU将物理NPU卡算力动态切分,实现多任务/多用户间的算力隔离与灵活调度。轻量化部署:结合Docker容器技术,快速部署AI服务,提升环境一致性与运维效率。成本优化:单张物理卡可虚拟为多个vNPU,服务低负







