
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
就像名字中的那样,这其实是一个Audio2Face。主要就是将语音转口型的一个算法,内含了tensorflow的预训练模型,也提供了训练代码。但是该方案还包含了ASR和TTS的流程,包含了一整个问答的流程。中间只缺了连gpt生成内容的部分,这部分代码可以自己加。整体框图如下:上图ASR和TTS之间插入调用大预言模型的代码。不加的话会比较奇怪,自己识别后又TTS。facefood的这个开源不走心,没

vLLM是一个快速且易于使用的库,用于LLM(大型语言模型)推理和服务。通过PagedAttention技术,vLLM可以有效地管理注意力键和值内存,降低内存占用和提高计算效率。vLLM能够将多个传入的请求进行连续批处理,从而提高整体处理速度。

假设"deepseek-ai/DeepSeek-R1-Distill-Qwen-32B"被下载到了/mnt/llm_deploy/目录下,则模型的绝对路径是/mnt/llm_deploy/DeepSeek-R1-Distill-Qwen-32B,后面部署会用到这个目录。上面映射了目录/mnt/llm_deploy/到容器内部的/home/llm_deploy,则容器内看到的模型目录是/home/l

今天使用mindie1.0部署了qwen2_7b_vl模型,测试过程出现一些问题,这里总结下。

在llama-factory执行lora微调时,按照手册安装了依赖,微调还是遇到错误。可以看到我出错的代码位于/usr/local/python3.10.2。这个库是有的,但是位置是/usr/lib/python3.10/我是在华为昇腾训练服务器的docker内遇到的。,我用类似的方法一并解决了。
参考资料:部署DeepSeek-V3、R1模型浮点权重至少需要4台Atlas 800I A2(8x64G)服务器,W8A8量化权重至少需要2台Atlas 800I A2(8x64G服务器)上述方法可将deepseek量化为W8A8或者W8A16模型。
很多huggingface的大语言模型都是pytorch的格式,但是mindie需要safetensor格式,另外mindieservice加载原始的baichuan2-13b的模型出错,后来排查是bfloat16数据格式的问题,所以这次转换要一次性转为float16的格式。看下模型下的config.josn文件,可以看到torch_dtype已经变为float16格式,转换之前这里是bfloat

大模型的基本特征就是大,单机单卡部署会很慢,甚至显存不够用。毕竟不是谁都有H100/A100, 能有个3090就不错了。目前已经有不少框架支持了大模型的分布式部署,可以并行的提高推理速度。不光可以单机多卡,还可以多机多卡。

很多问题表现为GIL相关的问题,实际都是业务进程出错了,真实原因往往在logs/pythonlog.log.xxxx中。

别人使用lora的方式对baichuan2-13b的模型进行了微调训练,希望我能部署到mindie服务中。"base_model_name_or_path": "/home/xxxxx/baichuan-inc/Baichuan2-13B-Chat", #这里是微调基础模型路径。。。。。。。。。。








