
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
Jetson agx orin 64G LLM 微调、量化、部署(二)
前言: 之前按照网络上的帖子,直接把lora和base合并后,使用llama cpp进行量化,但结果非常不理想,量化后的模型不但失去了Lora权重的能力,并且本身的推理能力也下降了。1. 使用llamacpp,带cuda编译完成后,运行发现gpu未使用,需要增加某个参数,把模型从CPU转到GPU,具体看llamacpp的官方文档。2. 量化后的base直接加载lora,速度很慢,把lora转换为i
Jetson agx orin 部署 qwen14B 微调、量化 实践
硬件条件:256G 固态硬盘数据线目的:在云端微调模型,在jetson上进行合并和量化,每次更新模型只需要同步微调权重,减少网络压力(12G ->200M)。

到底了







