这篇论文是 ICML 2020 的一篇文章,针对对比学习的损失函数进行了改进。

论文地址:Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere

论文演示:DEMO

论文代码:GitHub

0. 摘要

两个对比损失最关键的要素:

  1. 正例对特征的对齐(就是找最接近的正例对)。
  2. 超球面特征分布的均匀分布(可以保存最多的信息)。

随后本文设计了一个可优化度量来量化每个属性。

直接优化这两个要素可以显著提升下游任务(CV 和 NLP)的效果。

两钟要素的展示:

image-20211029084517435

image-20211029084644574

1. 方法

1.1 无监督对比表示学习

无监督对比表示学习(通常简称为对比表示学习),旨在找到

image-20211029085641554

对比表示学习损失函数。

image-20211029090110555

image-20211029112441038

image-20211029112451740

1.2 本文方法

本文主要考虑的两个重点:对齐和均匀分布

image-20211029100910540

image-20211029101451400

随后文章给出了两种损失的表达式。

对齐损失:

image-20211029103401893

均匀分布损失:

希望均匀性度量既是渐近正确的(即优化该度量的分布应该收敛到均匀分布),又是有限点的经验合理的。为此,本文考虑高斯势核(也称为径向基函数 RBF 核)。

image-20211029103454467

image-20211029103436454

同时优化两种损失的代码。可以看到非常简单,仅有不到10行代码。

image-20211029104904123

1.3 分布效果分析

随机初始化、监督学习和对比学习对应的特征分布。对比学习的特征分布最均匀,同时正例对分布比较紧密(虽然不如监督学习)。

image-20211029085024025

给定点数(10000个点)对应的特征分布情况。对比学习的效果最好,能让特征均匀分布在球面上。

image-20211029110611113

2. 实验

分类实验:

image-20211029104654158

image-20211029104705239

超参数设置实验以及两钟损失的权衡实验:

image-20211029113018689

image-20211029113033403

image-20211029113043913

image-20211029113058195

image-20211029113109317

image-20211029113122474

image-20211029113133020

image-20211029113141896

3. 思考

文章对对比学习的损失函数进行了改进,从而使得表示学习能够更好地将数据映射到超球面。我们未来的工作可以参考这篇的损失函数进行改进。