MR. 博个人主页

@weixin_43969238

MR. 博

2022-10-24 15:44:50 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

模型量化SKILL应用——以Mimo-V2-Flash为例

本文记录了MiMo-V2-Flash模型从FP8到BF16反量化脚本的开发与验证流程，并提供了将BF16模型动态量化为w8a8类型时生成适配器的skill。服务器型号：Atlas 800I A2推理服务器本文记录了MiMo-V2-Flash模型从FP8到BF16反量化脚本的开发与验证流程，并提供了将BF16模型动态量化为w8a8类型时生成适配器的skill。服务器型号：Atlas 800I A2推

#pytorch #python #深度学习 +1

模型量化SKILL应用——以Mimo-V2-Flash为例

本文记录了MiMo-V2-Flash模型从FP8到BF16反量化脚本的开发与验证流程，并提供了将BF16模型动态量化为w8a8类型时生成适配器的skill。服务器型号：Atlas 800I A2推理服务器本文记录了MiMo-V2-Flash模型从FP8到BF16反量化脚本的开发与验证流程，并提供了将BF16模型动态量化为w8a8类型时生成适配器的skill。服务器型号：Atlas 800I A2推

#pytorch #python #深度学习 +1

模型量化SKILL应用——以Mimo-V2-Flash为例

本文记录了MiMo-V2-Flash模型从FP8到BF16反量化脚本的开发与验证流程，并提供了将BF16模型动态量化为w8a8类型时生成适配器的skill。服务器型号：Atlas 800I A2推理服务器本文记录了MiMo-V2-Flash模型从FP8到BF16反量化脚本的开发与验证流程，并提供了将BF16模型动态量化为w8a8类型时生成适配器的skill。服务器型号：Atlas 800I A2推

#pytorch #python #深度学习 +1

【MindIE】知识地图

MindIE系列将划分为【模型迁移】、【模型部署】、【精度相关】、【性能相关】五大类。本博客旨在对已发表昇腾社区的博客进行整理归类，方便用户导航使用。

基于vNPU的MindIE服务化部署指南

。

基于vNPU的MindIE服务化部署指南

。

基于vNPU的MindIE服务化部署指南

作者：昇腾实战派一、部署概述目标：通过vNPU算力切分技术，在容器化环境中部署MindIE服务化框架，实现AI模型的高效推理服务。核心价值：资源隔离与弹性分配：通过vNPU将物理NPU卡算力动态切分，实现多任务/多用户间的算力隔离与灵活调度。轻量化部署：结合Docker容器技术，快速部署AI服务，提升环境一致性与运维效率。成本优化：单张物理卡可虚拟为多个vNPU，服务低负

到底了