
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
提醒: 仅供参考,是本人记录用的。
参考:[1]

对比学习尽管在很多representation learning tasks上有普遍不错的表现,但是在长尾数据集上就不咋滴。许多研究人员尝试将对比学习和logic adjustment技术结合来解决此问题,但这种组合是临时的(ad-hoc)且没有理论解释。发现了对比学习在长尾任务上表现不好的普遍原因:他们都尝试最大化潜在特征和输入数据之前的互信息(mutual information)。而GT是没

在本工作中,发现随着样本数量增多,新增数据附带的benefit可能会有所减少(因为新增数据的features可能与原有数据的features存在重叠关系,加了也白给)提出了一种新的理论框架来衡量数据重叠:将每个样本与小邻域关联而不是与单个样本关联;这里的关键不是去理解什么是小邻域,而是去理解它是如何衡量数据重叠。定义了En1−βn1−βEn1−βn1−β,其中β∈01β∈01是个超参数。使用样本

我们在DDPM或DDIM生成图像时是通常是不可控的,因为它是由一张随即高斯噪声一步步去噪得到生成图像。如果我们想要这个过程是可控的话,最直观的一个做法就是在生成过程中加上一个条件yyypx1T∣x0ypx1T∣x0y接下来就是讨论加上了条件yyy对于公式有无影响。

训练数据集出现严重的类不平衡问题会导致在实际应用中缺乏泛化性。该文设置了两种解决的算法:1)基于标签分布的边界损失(Label-distribution-aware margin, LDAM);2) 延迟重新加权(Defers re-weighting, DRW),既让模型学习初始特征表示,再进行re-weighting或re-sampling。

训练数据通常存在长尾类别分布问题,既小部分类中拥有大量的样本点,大部分类中拥有少量的样本点。这样会限制深度学习模型的实用性,由这样数据集训练出来的模型往往不会在现实实际应用表现得很好,因为它们会更倾向于主导类,并在尾部类表现得很差。如下图所示,大量数据在少数类里;总的来说,有两大挑战:1)不平衡导致模型偏向于头类;2)缺乏尾类使得训练模型进行尾类分类更具挑战;不平衡比的定义:n1nkn_1/n_k
