论文地址:Regularizing Attention Networks for Anomaly Detection in Visual Question Answering

AAAI 2021 VQA 相关论文。

0. Abstract

本文开创性地研究了视觉问答 VQA 的异常情况,并评估了各种先进 VQA 模型应对五种异常的稳健性。本文发现,VQA 模型中单独的视觉模型异常检测和文本异常检测都不能正常用于检测 VQA 模型异常,因此提出了一种基于注意力的方法,利用输入图像和问题间推理的置信度,实现了更好的异常检测效果。本文还发现,注意网络中的最大熵正则化有助于提高异常检测效果。上述方法比较简单,适用于各种 VQA 模型的异常检测。本文研究对提高模型精度和鲁棒性具有重要意义。

1. Introduction

VQA 模型在现实生活中具有重要意义,例如帮助盲人的 APP。然而,如果模型稳定性不强,就可能造成严重事故。

当前研究异常分类:无法识别、不相关、OOD (不在模型训练数据的分布中,out-of-distribution)。

当前模型异常检测主要方法:校准预测置信度,识别 OOD 输入,训练后异常分布检测等。

然而,之前的研究更关注于单模态(Unimodal)异常检测,而没有 VQA 异常检测。本文则根据三种情况,将异常分类为两大类、五小类。随后提出了一种基于注意力的异常检测机制。

本文主要贡献就是:

  • 第一次提出了 VQA 异常检测,指出了各种异常,并评估了当前的先进 VQA 模型。
  • 提出一种基于注意力的异常检测方法,可以用于各种 VQA 模型。
  • 指出跨模态注意力模块是解决各种 VQA 异常问题的关键。

2. The Framework of VQA Models

image-20210425145340395

  • 图1:常见 VQA 模型结构,一般有特征提取模块、注意力模块和多模态特征融合模块组成。

3. Definition of Anomalies in VQA

异常的三种情况:

  • 最坏场景情况。
  • 最常见场景情况。
  • 模型限制情况。

异常分类(大类):

  • OOD 图像 / 问题。
  • 无法回答的图像问题对。

异常分类(小类):

  • OOD 图像。
  • OOD 问题。
  • OOD 图像和问题。
  • 无关问题。
  • 未定义答案。

更详细的定义和举例可以阅读原文。

image-20210425150331134

  • 图2、3:各种异常。

image-20210425145905226

  • 表1:各种 VQA 异常。

4. Anomaly Detection in VQA

4.1 Confidence-based Anomaly Detector

基于置信度的异常检测,通常需要根据数据,设置相应阈值,置信度低于阈值的则认为是异常。其中,置信度通常是输出层的 MSP

image-20210425211459324

  • 公式2:基于置信度的异常检测。置信度低于阈值则认为是异常。

image-20210425212512435

  • 公式3:置信度计算。取输出层的 softmax 的最大值MSP。N 是候选答案数量,T 是温度参数。

然而,基于置信度的异常检测无法检测到异常的 p(v, q),从而无法检测异常 1-4 的内容。

同时,特征融合后的联合特征难以通过正常输入的联合特征进行区分。

4.2 Attention-based Anomaly Detection

本文研究提出了基于注意力的异常检测方法,使用交叉模式注意的最大注意概率 MAP,进行异常检测。当文本输入和图像输入来自正确输入概率分布时,MAP 值会较高。当两者来自 OOD 输入,或两者不相关时,MAP 值会较低。同时,由于 MAP 的模型无关性,因此它可以应用于现有的各种模型。

image-20210426112810092

  • 公式4:交叉模式注意的最大注意概率 MAP 公式。

4.3 Regularization of Attention Networks for Anomaly Detection

对注意力网络进行正则化,并结合数据集进行微调。同时,利用最大熵策略,将异常情况的 MAP 调整为接近 0,从而实现了通过 MAP 区分异常和正常样本。

image-20210426113154561

  • 公式5:注意力网络正则化。

5. Experiments

实验采用了 4 种 VQA 模型:BUTD, MHB + ATT, BAN, MCAN

数据集:VQA v2 数据集用来训练,MNIST, SVHN, FashionMNIST, CIFAR-10, Tiny-ImageNet 用来测试 OOD 图像。VNQ, ORPE 用来测试不相关的图像和问题。TinyImage, VNQORPE 用来训练注意力网络正则化。

image-20210426114006448

  • 表2:在加入异常输入的数据集中的 VQA 模型准确度。虽然加入异常检测后,模型精度小幅度下降,但是应对异常的效果比原模型提高了不少。

image-20210426114518004

  • 表3:对比各种异常检测效果。MSP, MSPT, OE-MSPT 都是传统方法。MAP, RA-MAPT 是本文提出的方法。

image-20210426114718572

  • 表4:不相关图片和问题异常检测效果。

image-20210426125044743

  • 表5:未定义答案异常检测效果。

image-20210426125112246

  • 表6:消融实验。

6. Related Work

本文首次在 VQA 等多模态任务中进行 OOD 检测,并通过实验表明 MSP 不能用于检测 OOD 输入。

7. Conclusion

为了使 VQA 系统得到进一步的应用,模型异常检测必须得到进一步研究。本文提出的方法有助于进行 VQA 异常检测,推动了这一领域研究进展。