
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了在Ascend 910PremiumA NPU环境下对DeepSeek-R1-Distill-Qwen-32B模型进行8位量化(W8A8)的过程。操作步骤包括执行量化命令,处理量化后文件(约41GB),以及解决两个关键报错:1) 需要在config.json中添加"quantize": "w8a8"参数;2) 需将quant_model_descr
概述目前市场上有很多家的语音识别接口可用,简单测试都不要钱。国内的BAT和科大讯飞,国外的微软和谷歌都提供了中文的语音识别接口,既有sdk又有webAPI。我的测试都是在python3环境下进行的。最终选择百度和科大讯飞的接口。主要是考虑中文识别应该国内厂商做的更好。免费试用阶段,科大讯飞每天限定500次调用。百度则只限制每秒20次,总次数没限制。试用下来的感觉就是,科大讯飞的接口...
大模型的基本特征就是大,单机单卡部署会很慢,甚至显存不够用。毕竟不是谁都有H100/A100, 能有个3090就不错了。目前已经有不少框架支持了大模型的分布式部署,可以并行的提高推理速度。不光可以单机多卡,还可以多机多卡。

很多问题表现为GIL相关的问题,实际都是业务进程出错了,真实原因往往在logs/pythonlog.log.xxxx中。

假设"deepseek-ai/DeepSeek-R1-Distill-Qwen-32B"被下载到了/mnt/llm_deploy/目录下,则模型的绝对路径是/mnt/llm_deploy/DeepSeek-R1-Distill-Qwen-32B,后面部署会用到这个目录。上面映射了目录/mnt/llm_deploy/到容器内部的/home/llm_deploy,则容器内看到的模型目录是/home/l

"content": "你是我的小助理"},"content": "告诉我你是谁"],}'

参考资料:部署DeepSeek-V3、R1模型浮点权重至少需要4台Atlas 800I A2(8x64G)服务器,W8A8量化权重至少需要2台Atlas 800I A2(8x64G服务器)上述方法可将deepseek量化为W8A8或者W8A16模型。
参考资料:部署DeepSeek-V3、R1模型浮点权重至少需要4台Atlas 800I A2(8x64G)服务器,W8A8量化权重至少需要2台Atlas 800I A2(8x64G服务器)上述方法可将deepseek量化为W8A8或者W8A16模型。
YOLOYOLO是与SSD齐名的one_stage目标检测算法代表。SSD系列有比较多的变体,大部分都不是SSD作者做的工作。而YOLO目前已经进化到V3,据我所知都是yolo作者自己做的工作。网络结构由于yolo属于one_stage的目标检测算法,所以网络结构比较简单。固定输入448x448大小的图片,最后输出7x7x30大小的特征图。作者的主干网络受GoogLeNet的启发,共有...
前言最近有一篇综述目标检测的论文《Deep Learning for Generic Object Detection: A Survey》,来自首尔国立大学的 Lee hoseong 在近期开源了「deep learning object detection」GitHub 项目,正是参考该论文开发的。该项目集合了从 2013 年 11 月提出的 R-CNN 至在近期发表的 M2Det 等几十篇.







