论文:Look at the First Sentence Position Bias in Question Answering

EMNLP2020的一篇论文,涉及QA,有代码

pdf:https://arxiv.org/abs/2004.14602

github:https://github.com/dmis-lab/position-bias

0. Abstract

这篇文章提出了一个有趣的问题:答案分布可能在训练集中存在高度偏移,例如多个答案固定分布在第 k 句,这种偏移可能会误导模型。

文章首先在多个模型上验证了这种误导的确存在,随后用多种去偏移化方法训练模型。实验中发现,使用答案位置的先验分布为模型降低偏移效果非常有效。

1. Introduction

文章上来探讨了,以预测答案位置作为目标进行训练,可能因为答案位置分布存在偏移而造成最终模型预测的偏移。

image-20201125163509908

在偏移 SQuAD 数据集(k = 1)上进行培训,并进行测试,结果如下图所示,可以发现随机抽样示例训练效果要明显好于偏移 SQuAD 数据集。即,仅第一句有答案时,模型预测也会更依赖于第一句。

image-20201125163530641