logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Jetson agx orin 64G LLM 微调、量化、部署(二)

前言: 之前按照网络上的帖子,直接把lora和base合并后,使用llama cpp进行量化,但结果非常不理想,量化后的模型不但失去了Lora权重的能力,并且本身的推理能力也下降了。1. 使用llamacpp,带cuda编译完成后,运行发现gpu未使用,需要增加某个参数,把模型从CPU转到GPU,具体看llamacpp的官方文档。2. 量化后的base直接加载lora,速度很慢,把lora转换为i

#边缘计算#语言模型
Jetson agx orin 部署 qwen14B 微调、量化 实践

硬件条件:256G 固态硬盘数据线目的:在云端微调模型,在jetson上进行合并和量化,每次更新模型只需要同步微调权重,减少网络压力(12G ->200M)。

文章图片
#python#边缘计算#语言模型
到底了