CVPR 2021｜近期自监督学习必读论文

RUC AI Box

自监督学习主要是利用辅助任务（pretext）从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。

也就是说自监督学习的监督信息不是人工标注的，而是算法在大规模无监督数据中自动构造监督信息，来进行监督学习或训练。因此，大多数时候，我们称之为无监督预训练方法或无监督学习方法，严格上讲，他应该叫自监督学习。

现在推荐几篇 CVPR 2021 自监督学习的几篇论文：

1.论文名称：Prototypical Cross-domain Self-supervised Learning for Few-shot Unsupervised Domain Adaptation

论文链接：https://www.aminer.cn/pub/6065994691e011d10ad613ce?conf=cvpr2021

简介：无监督域适应（UDA）将预测模型从完全标记的源域转移到未标记的目标域。但是，在某些应用程序中，即使在源域中收集标签也很昂贵，这使得大多数以前的工作不切实际。为了解决这个问题，最近的工作进行了实例化的跨域自我监督学习，随后进行了额外的微调阶段。但是，基于实例的自我监督学习只能学习并调整低级判别功能。在本文中，我们提出了一种针对少数快速无监督域自适应（FUDA）的端到端原型跨域自我监督学习（PCS）框架。PCS不仅执行跨域低级特征对齐，而且还跨域共享嵌入空间中的语义结构进行编码和对齐。我们的框架通过域内原型对比学习来捕获数据的类别语义结构；并通过跨域原型自我监督执行特征对齐。

2.论文名称：Vectorization and Rasterization: Self-Supervised Learning for Sketch and Handwriting

论文链接：https://www.aminer.cn/pub/605daf9d91e0113c28655945?conf=cvpr2021

简介：自我监督式学习由于能够从未标记的数据中学习强大的表示形式而发挥作用，因此在许多具有挑战性的下游任务中均表现出色，因此具有很高的知名度。但是，无监督的前置任务在设计时通常具有挑战性，并且通常是特定于模式的。尽管有大量关于空间（例如图像）或时间数据（声音或文本）模态的自我监督方法的文献，但是却普遍缺少使两种模态都受益的常见前置任务。在本文中，我们有兴趣为草图和手写数据定义一个自我监督的前置任务。该数据的独特之处在于它以光栅图像和矢量坐标序列的双重形式存在。我们通过提出两个新颖的跨模式翻译前置任务以进行自我监督的特征学习来解决和利用这种双重表示形式：矢量化和栅格化。矢量化学习将图像空间映射到矢量坐标，而光栅化将矢量坐标映射到图像空间。我们表明，我们学习到的编码器模块有益于分析手绘数据的基于栅格和基于矢量的下游方法。经验证据表明，我们新颖的前置任务超越了现有的单模式和多模式自我监督方法。

3.论文名称：Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers and Self-supervised Learning

论文链接：https://www.aminer.cn/pub/605085c691e0111e1cd46af2?conf=cvpr2021

简介：由于食物在人们生活中的重要性以及可用于训练机器学习模型的大量数字烹饪食谱和食物图像的可用性，跨模式食谱检索最近受到了广泛关注。在这项工作中，我们将重新研究跨模式配方检索的现有方法，并基于已建立的高性能文本和图像编码器，提出一种简化的端到端模型。我们引入了一个分层的配方变压器，该变压器专注地编码各个配方组件（标题，成分和说明）。此外，我们提出了一个基于独立配方成分对计算的自我监督损失函数，该函数能够利用配方中的语义关系，并能够使用图像配方和仅配方样本进行训练。我们进行了彻底的分析和消融研究，以验证我们的设计选择。结果，我们提出的方法在Recipe1M数据集的跨模式配方检索任务中实现了最新的性能。

4.论文名称：Self-supervised Learning of Depth Inference for Multi-view Stereo

论文链接：https://www.aminer.cn/pub/606ed80291e011aa47b6ab78?conf=cvpr2021

简介：最近受监督的多视图深度估计网络取得了可喜的结果。与所有受监督的方法类似，这些网络在训练期间需要真实的数据。但是，收集大量的多视图深度数据非常具有挑战性。在这里，我们为多视图立体声提出了一种自我监督的学习框架，该框架利用了来自输入数据的伪标签。我们首先学习在依赖图像重建损失作为监督的无监督学习框架下，将深度图估计为初始伪标签。然后，我们使用经过精心设计的流水线来细化初始伪标签，利用从高分辨率图像和邻近视图推断出的深度信息。我们使用这些高质量的伪标签作为监督信号来训练网络，并通过自训练来迭代地提高其性能。在DTU数据集上进行的大量实验表明，我们提出的自监督学习框架在很大程度上优于现有的无监督多视图立体声网络，并且与受监督的同类网络相比具有同等的性能。

5.论文名称：SelfAugment: Automatic Augmentation Policies for Self-Supervised Learning

论文链接：https://www.aminer.cn/pub/603c3fa49e795ea1fb8124bb?conf=cvpr2021

简介：无监督表示学习中的一种常见做法是使用标记的数据来评估学习到的表示的质量。然后，该监督评估将用于指导培训过程的关键方面，例如选择数据增强策略。但是，对于实际上不包含标签的真实世界数据，不可能通过监督评估来指导无监督培训过程（例如，在诸如医学成像之类的隐私敏感领域中可能就是这种情况）。因此，在这项工作中，我们表明，使用自我监督的图像旋转任务评估学习的表示形式与标准的监督评估集高度相关（等级相关性> 0.94）。我们在数百种增强策略，训练设置和网络体系结构之间建立了这种关联，并提供了一种算法（SelfAugment），可以自动有效地选择增强策略，而无需使用监督评估。尽管未使用任何标记数据，但学习到的增强策略与使用详尽监督评估确定的增强策略具有相当的性能。

更多推荐

上下求索——基于双向推理的多跳知识库问答技术

Learning to Learn: GNN上的元学习

论坛报名 | 智能信息检索与挖掘

继续滑动看下一个