
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文面向已经有一些编程基础(会至少一门编程语言,比如python),但是没有搭建过web应用的人群,会写得尽量细致。重点介绍流程和部署云端的步骤,具体javascript代码怎么写之类的,这里不会涉及。搭建网站分为两步:首先在本地搭建网站,测试可以运行;然后把网站移动到服务器,让大家都可以访问。

本文持续更新,如果有什么你知道的深度学习模型训练技巧,可以在评论区提出,我会加进来的。

代码终于写完了,bug 处理好了,终于跑起来了。但是模型不收敛。或者收敛了,但是加 trick 也表现不良。于是开始思考,为什么?哪里出了问题?因此就整理了这个文章,用来辅助自查模型到底哪里出了问题。(有时候是模型结构的问题,有时候真的是因为过度关注模型结构,每次写训练代码都是套模板,不往心里去,其实是训练过程有问题)

本地跑 Grounding DINO 过程记录

本文持续更新,如果有什么你知道的深度学习模型训练技巧,可以在评论区提出,我会加进来的。

训练过程比预测过程多的东西:数据增广、梯度反传。虽然之多了这两个东西,但是训练的代码要比预测的代码复杂很多,所以先看简单一点的预测过程。hugging face transformers 的预测过程由Pipeline类全权代理。

最近学了 hugging face transformers 库,学成归来,把笔记整理一下,互勉。有兴趣详细了解的可以去仔细看看准备把这个写成一个小系列。不想搞太复杂,“太长不看”。但是也不想缺内容,不然用的时候抓瞎。所以先贴一个整体印象上来,对这个库的架构、怎么用有个初步的大致了解。然后再开一篇文介绍精调到底怎么操作。最后再把关键的 api 文档里的东西摘出来讲一讲。这篇就是对这个库的大体印象。
使用 huggingface transformers 库进行模型精调
代码终于写完了,bug 处理好了,终于跑起来了。但是模型不收敛。或者收敛了,但是加 trick 也表现不良。于是开始思考,为什么?哪里出了问题?因此就整理了这个文章,用来辅助自查模型到底哪里出了问题。(有时候是模型结构的问题,有时候真的是因为过度关注模型结构,每次写训练代码都是套模板,不往心里去,其实是训练过程有问题)

查找内存泄露/显存泄露的位置:把数据送入模型的代码全部注释掉,观察显存是否上涨;上涨说明内存泄露出现在dataloader(出现在非 dataloader 地方的最常见的显存泄露原因是,loss打印/统计的时候没有写把不同的 data 组成部分注释掉,观察具体是哪个 data 导致的内存泄露pytorch 释放内存的方法:把 tensor 读到 gpu 就会有显存占用,一般可以自动释放,但是显存泄








