论文地址:Multimodal Neural Graph Memory Networks for Visual Question Answering

这篇论文和视觉问答 VQA 相关。通过标记图像中的重要对象,并利用区块标题生成工具,就可以实现很好的视觉问答效果。

0. Abstract

本文介绍了一种用于视觉问答 VQA 的多模态神经图记忆网络 MN-GMN。

该模型使用具有不同区域特征的图结构作为节点属性,并通过图网络 GN 来推理场景上下文的对象和它们的交互。

MN-GMN 包含四步:

  • 输入:为图像生成一组视觉特征向量和一组编码的区域接地标题 RGC(也就是给每个区块生成一段描述性文字,这个工具还是很有趣的),RGC 可以捕获对象属性和之间的关系,每个视觉特征向量和 RGC 都用一个边界框界定。
  • GN:从输入模块构建两个 GN,GN 的每个节点迭代计算分配给它的视觉和文本信息的问题引导的上下文表示。
  • 外部空间内存:将两个 GN 的信息进行融合,将更新的表示写入对应记忆单元。
  • 输出:输入记忆单元的最终状态,并预测答案。

1. Introduction

image-20210329094550616

  • 图1:模型体系结构图。可以看到,第一部分是左边部分,利用工具对图片的对象加框,随后通过 CNN 和 RGC 编码器和解析器,获取视觉向量和描述性标题。随后将向量与问题向量结合,分别输入给两种 GN,生成问题引导的上下文表示。随后通过记忆单元,将两种 GN 的表示信息进行融合。最后利用记忆单元的最终状态进行答案预测。

2. Related Work

近期模型包括:

  • graph learner model
  • ReGAT
  • Relation Network

3. Our proposed Architecture

模型包括四个模块:

输入模块:

  • 输入模块包括两个组件,深度 CNN 模型,和基于区域的标题生成模型。为了提取视觉特征,还使用了自上而下的注意力模型。提取特征使用了快速 R-CNN 框架和 101 层的 ResNet 获得的。最后,用 GRU 和解析器对目标进行编码。

问题模块:

  • 问题模块,用 GRU 的最后隐藏状态 q 和用于生成区域标题的词典,对问题进行编码,从而将区域标题中的单词和问题中的单词相匹配。

多模态图记忆神经网络模块:

  • 多模态图记忆神经网络模块,给定一组视觉特征向量、一组编码的 RGC 和一个编码的问题,模块构建多模态、成对的节点网络,也就是对指定距离内的视觉和文本节点构建前向和后向的两条边,形成交互。超出指定距离的两个节点也可以通过路径进行交互。初始化视觉节点向量采用多模态紧凑双线性 MCB 将视觉向量与问题向量合并,初始化文本向量通过元素乘法将文本向量与问题向量合并。边缘向量初始化采用零向量。全局特征向量初始化采用 ResNet 101 层的最后一层得到的图像向量。通过三种不同的 GRU,实现边缘属性向量、节点属性向量和全局属性向量的更新。
  • image-20210329104611883
  • 公式1、2:图 / 文本边缘及节点属性向量更新。激活函数采用 sigmoid 和 tanh。
  • image-20210329104259903
  • 公式3、4:存储单元更新。

问答模块:

  • 问答模块采用外部空间内存单元作为节点,由于节点间存在边缘,因此支持图像远距离推理。
  • image-20210329105140945
  • 公式5:答案预测。

4. Experiments

数据集:

  • 图:VQA 2.0。

基线模型:

  • 基线模型包括:ReGAT、BAN、VCTREE、MuRel。

结果:

  • image-20210329105429312
  • 表1:结果图。N-GMN 为只采用视觉 GN 而不采用文本 GN 和外部内存网络(只用图像和问题就能达到这么好的效果吗?这里还挺神奇的),MN-GMN- 不采用外部内存空间。

5. Supplementary Materials

image-20210329105903408

  • 图:MN-GMN 在回答问答和采用区域标题中的效果。

image-20210329105913770

image-20210329105921665

  • 图:注意力机制在 MN-GMN 中的作用。

image-20210329105933871

  • 图:GC 算法

6. Conclusions

多模态神经存储网络 MN-GMN 采用一种新结构,利用多模态双向图网络实现信息交互和远距离推理。效果很好。不过只采用图像就能达到这样好的效果,可以看出来图像识别技术还是非常厉害的。