论文:DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

0. Abstract

这篇文章介绍了百度发布的 DuReader 数据集。该数据集是一种大规模开放领域的中文机器阅读理解数据集。该数据集的特点包括:

  • 数据源:百度搜索和百度知道提供问题和文档,答案由手工提取。
  • 问题类型:提供了 6 种数据类型,其中是否问题意见问题尤其有挑战性。
  • 数据量:提供了 200K 问题、420K 答案和 1M 文档。

1. Introduction

首先回顾了机器阅读理解数据集,并分析了相关问题。主要问题体现在:

  • 问答设置环节存在妥协,包括:完形填空问答、选择题问答以及人工构造问答。
  • 问题类型存在不足,更多是事实类问题。这导致跨度选择模型效果很好,但对文章的分析能力存在局限性。
  • 答案段落太少,一般只提供一个或几个段落。
  • 部分数据集数据量很小。

image-20210315084651337

  • 图1:百度 DuReader 数据集与其他数据集的对比。

相比之下,百度 DuReader 提供了:

  • 人工选择的答案。
  • 更丰富的问题类型。从而使得以前基于跨度的模型不能直接用于解决例如是否问题意见问题等内容,对模型提出了更高的要求。
  • 完整的包含答案的文档。文档包含大量段落,这也导致如何选择答案段落成为重要挑战。
  • 大量数据。

从而可以进一步推动机器阅读理解领域的研究进展。

2. Pilot Study

研究团队首先从百度搜索中提取了 1000 个问题,并进行了分析。分析将每个问题以手工标注的方式通过两步进行分类:

  • 第一步:问题是事实类的还是意见类的
  • 第二步:问题是实体类的描述类的还是是否类的

通过这两步,就可以将问题分为 6 类。

image-20210315085807000

  • 图2:问题分类样例。

先前的数据集基本为事实类实体问题事实类描述问题。通过统计,可以发现这两类占了约 58%。还有 42% 为意见类问题事实类是否问题

image-20210315090123682

  • 图3:数据分析结果,各类问题占比。

因此,先前的跨度选择模型在面对这两类新问题的时候会存在较大的局限性。需要探索新的方法。

3. Scaling up from the Pilot to DuReader

3.1 Data Collection and Annotation

3.1.1 Data Collection

DuReader 是 4 元组序列:{q, t, D, A},分别表示问题,问题类型,相关文档集合和答案集合。

通过分类器→手工标注→筛选,将问题从 1M 降到了 200K,得到了数据集。

问题来源包括百度知道和百度搜索。相关文档包括前 5 的文档。

3.1.2 Question Type Annotation

意见类问题事实类是否问题存在较大挑战性。

3.1.3 Answer Annotation

答案部分,如果文档中没有答案,就被手工标记为空答案。如果文档中包含多个答案,则被全部记录下来。当多个答案表达内容非常相似时,就合并为一个答案

image-20210315090927644

  • 图5:展示了问题、问题类型、答案集合和相关文档集合。可以看到,是否类问题的答案不仅仅是简单的是否,还要提供解释。

3.1.4 Quality Control

数据集通过多个途径保证质量。

3.1.5 Training, Development and Test Sets

数据按照 18:1:1 的比例,分配到训练集、验证集和测试集。

3.2 DuReader is (Relatively) Challenging

数据集的挑战性体现在三点:

  • 答案数量。答案有可能有多个,也可能一个都没有。
  • 编辑距离。人工生成答案和模型返回答案存在较大差异,因此通过最小编辑距离 MED 进行相似度度量,以评价模型效果。
  • 文档长度。问题平均长度 4.8 单词,答案平均长度 69.6 单词,文档平均长度 396 单词。

image-20210315091638616

  • 表1:答案数量分布。

image-20210315091702315

  • 表2:答案和源文件的编辑距离区间。可以看到,由于 DuReader 人工生成答案与源文件差别较大,因此跨度选择模型效果不会特别好。

4. Experiments

4.1 Baseline Systems

由于此前的模型更多是从单个或几个段落中寻找答案,因此首先设计了模型,从文档中检索最相关段落,再让基准模型寻找答案。

4.1.1 Paragraph Selection

训练阶段,首先寻找与人工生成答案有最大重叠的段落作为最相关段落,再将段落提供给基准模型寻找答案。

4.1.2 Answer Span Selection

选择的两个基线模型是:

  • Match-LSTM 模型:依次和动态将注意力加权问题表示的匹配聚合到段落的每个标记上,最后使用回答指针层在段落中找到答案跨度。
  • BiDAF 模型:使用上下文到问题注意和问题到上下文注意,突出问题和上下文的重要部分,随后使用注意力流层来融合所有重要信息,获得每个位置的向量表示。

随机初始化单词向量嵌入大小为 300,隐藏向量大小为 150,Adam 算法培训模型,初始学习率为 0.001,批量为 32。

4.2 Results and Analysis

评价指标为 BLEU-4% 和 Rouge-L%,这两种指标能够评价语言生成的质量。

image-20210315093000564

  • 表6:基线模型和人工的对比。可以看到,在百度知道问题上模型取得了更好的效果。这说明当前模型的开放领域问答不如问答领域问答。

image-20210315093312311

  • 表7:提供黄金段落后的模型效果。可以看到,虽然提供黄金段落提高了答案精度,但是不提供的能够提高模型寻找答案的能力。所以选择相关段落是需要解决的关键问题。

image-20210315093659580

  • 表8:各类问题效果1。是否类问题是更难的问题,因为答案类型太多。可能是单纯的是否,也可能是长篇大论。

4.3 Opinion-aware Evaluation

由于编辑距离区间还不够,例如不是的编辑距离很小,但是不能体现它们巨大的含义差别。所以引入了一个意见感知评价方法,将答案进行一个分类:是、否、依赖。

image-20210315093710070

  • 表9:各类问题效果2。通过意见感知评价方法,实现了更好的效果。

4.4 Discussion

当前存在的问题包括:

  • 一些问题没有被广泛研究。意见类问题是否类问题
  • 段落选择是关键问题。目前段落选择效果不是很好。
  • 如何生成更好的答案。目前跨度选择模型效果不是很好。

5. A Shared Task

通过竞赛,提高了效果。

6. Conclusion

DuReader 模型具有三大优势,是最大的中文机器阅读理解数据集,有待进一步探索。