【学习笔记--短文--对比学习1】：深度学习中的正、负采样 & 正、负样例 & 对比学习初涉

在深度学习中，正采样和负采样是用于训练模型的重要技术，特别是在对比学习中，它们用于创建训练样本并调整模型参数。下面我将详细解释正采样、负采样、对比学习的正负样例以及对比学习的核心过程。

Chris IDS

1658人浏览 · 2023-09-11 10:09:12

Chris IDS · 2023-09-11 10:09:12 发布

在深度学习中，正采样和负采样是用于训练模型的重要技术，特别是在对比学习中，它们用于创建训练样本并调整模型参数。下面我将详细解释正采样、负采样、对比学习的正负样例以及对比学习的核心过程。

正采样（Positive Sampling）：

正采样是从数据集中选择正例（目标类别）样本的过程。在分类或对比学习任务中，正例样本是我们希望模型正确分类或捕获的样本。正采样确保了模型训练过程中包含了这些重要样本，以便模型能够学习正确的特征和表示。

负采样（Negative Sampling）：

负采样是从数据集中选择负例（非目标类别）样本的过程。在对比学习中，负例样本是与正例相对立的样本，即那些不属于目标类别的样本。负采样的目的是引入一些负例样本，以帮助模型学习区分正例和负例，从而提高分类性能。

对比学习的正负样例：

        在对比学习中，正负样例是成对的样本，通常成对的样本包括一个锚定（anchor）样本和一个正例样本以及若干个负例样本。
        锚定样本是我们要学习的目标样本，
        正例样本是与锚定样本相似的样本，
        而负例样本是与锚定样本不相似的样本。
对比学习的目标是使锚定样本与正例样本之间的相似性得分高于与负例样本之间的相似性得分。

对比学习的核心过程（通常包括以下核心步骤）：

1. 表示学习：

首先，通过深度神经网络（如卷积神经网络或变换器）将原始数据映射到一个高维的表示空间。这个表示空间中的向量表示包含了数据的特征信息。

2. 锚定样本的选择：

从数据集中随机选择一个样本作为锚定样本。这个锚定样本是我们要学习的目标。

3. 正例样本的选择：

从同一类别中选择一个与锚定样本相似的正例样本，作为正例样本。正例样本应该与锚定样本属于相同的类别或具有相似的特征。

4. 负例样本的选择：

从不同类别或具有不同特征的样本中选择若干个负例样本，作为负例样本。负例样本应该与锚定样本不相似。

5. 计算相似性得分：

使用模型计算锚定样本与正例样本之间的相似性得分以及锚定样本与每个负例样本之间的相似性得分。通常使用余弦相似度、内积等度量方法来计算相似性得分。

6. 损失计算：

定义损失函数，通常使用对比损失（如三元对比损失或N元对比损失）来最大化锚定样本与正例样本之间的相似性得分并最小化与负例样本之间的相似性得分。

7. 反向传播和参数更新：

通过反向传播算法来计算梯度，并使用梯度下降等优化算法来更新神经网络的参数，以最小化损失函数。

通过不断迭代上述过程，对比学习的模型能够学习到更好的特征表示，使锚定样本与正例样本之间更相似，与负例样本之间更不相似，从而实现更好的分类或相似性度量性能。对比学习在自然语言处理、计算机视觉和推荐系统等领域都有广泛的应用。

兴智开发者社区

更多推荐

深度学习中分类和回归常见损失函数归纳小结

兴智开发者社区

最全攻略：利用LightSeq加速你的深度学习模型

前言LightSeq是字节跳动火山翻译团队开源的一款Transformer系列模型加速引擎，分为训练和推理两个部分。其中推理加速引擎早在2019年12月就已经开源，而训练加速引擎也在2021年6月开源。项目地址：GitHub - bytedance/lightseq: LightSeq: A High Performance Library for Sequence Processing and