logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

在910A上量化大语言模型问题记录

本文介绍了在Ascend 910PremiumA NPU环境下对DeepSeek-R1-Distill-Qwen-32B模型进行8位量化(W8A8)的过程。操作步骤包括执行量化命令,处理量化后文件(约41GB),以及解决两个关键报错:1) 需要在config.json中添加"quantize": "w8a8"参数;2) 需将quant_model_descr

#语言模型#人工智能#自然语言处理 +2
语音识别接口webAPI-python测试:百度和科大讯飞

概述目前市场上有很多家的语音识别接口可用,简单测试都不要钱。国内的BAT和科大讯飞,国外的微软和谷歌都提供了中文的语音识别接口,既有sdk又有webAPI。我的测试都是在python3环境下进行的。最终选择百度和科大讯飞的接口。主要是考虑中文识别应该国内厂商做的更好。免费试用阶段,科大讯飞每天限定500次调用。百度则只限制每秒20次,总次数没限制。试用下来的感觉就是,科大讯飞的接口...

#语音识别
transformer大语言模型(LLM)部署方案整理

大模型的基本特征就是大,单机单卡部署会很慢,甚至显存不够用。毕竟不是谁都有H100/A100, 能有个3090就不错了。目前已经有不少框架支持了大模型的分布式部署,可以并行的提高推理速度。不光可以单机多卡,还可以多机多卡。

文章图片
#transformer#语言模型#深度学习 +2
mindie推理大语言模型问题及解决方法汇总

很多问题表现为GIL相关的问题,实际都是业务进程出错了,真实原因往往在logs/pythonlog.log.xxxx中。

文章图片
#人工智能#自然语言处理#昇腾 +1
使用vllm docker容器部署大语言模型

假设"deepseek-ai/DeepSeek-R1-Distill-Qwen-32B"被下载到了/mnt/llm_deploy/目录下,则模型的绝对路径是/mnt/llm_deploy/DeepSeek-R1-Distill-Qwen-32B,后面部署会用到这个目录。上面映射了目录/mnt/llm_deploy/到容器内部的/home/llm_deploy,则容器内看到的模型目录是/home/l

文章图片
#docker#语言模型#容器
vllm启动大语言模型时指定chat_template

"content": "你是我的小助理"},"content": "告诉我你是谁"],}'

文章图片
#语言模型#人工智能#自然语言处理 +1
deepseek本地部署需要多少显卡资源

参考资料:部署DeepSeek-V3、R1模型浮点权重至少需要4台Atlas 800I A2(8x64G)服务器,W8A8量化权重至少需要2台Atlas 800I A2(8x64G服务器)上述方法可将deepseek量化为W8A8或者W8A16模型。

#自然语言处理#昇腾#人工智能
deepseek本地部署需要多少显卡资源

参考资料:部署DeepSeek-V3、R1模型浮点权重至少需要4台Atlas 800I A2(8x64G)服务器,W8A8量化权重至少需要2台Atlas 800I A2(8x64G服务器)上述方法可将deepseek量化为W8A8或者W8A16模型。

#自然语言处理#昇腾#人工智能
这就是神经网络 14:深度学习-目标检测-YOLOv1、YOLOv2、YOLOv3

YOLOYOLO是与SSD齐名的one_stage目标检测算法代表。SSD系列有比较多的变体,大部分都不是SSD作者做的工作。而YOLO目前已经进化到V3,据我所知都是yolo作者自己做的工作。网络结构由于yolo属于one_stage的目标检测算法,所以网络结构比较简单。固定输入448x448大小的图片,最后输出7x7x30大小的特征图。作者的主干网络受GoogLeNet的启发,共有...

这就是神经网络 8:深度学习-目标检测-SSD和DSSD

前言最近有一篇综述目标检测的论文《Deep Learning for Generic Object Detection: A Survey》,来自首尔国立大学的 Lee hoseong 在近期开源了「deep learning object detection」GitHub 项目,正是参考该论文开发的。该项目集合了从 2013 年 11 月提出的 R-CNN 至在近期发表的 M2Det 等几十篇.

    共 129 条
  • 1
  • 2
  • 3
  • 13
  • 请选择