论文:Look at the First Sentence Position Bias in Question Answering
EMNLP2020的一篇论文,涉及QA,有代码
pdf:https://arxiv.org/abs/2004.14602
github:https://github.com/dmis-lab/position-bias
0. Abstract
这篇文章提出了一个有趣的问题:答案分布可能在训练集中存在高度偏移,例如多个答案固定分布在第 k 句,这种偏移可能会误导模型。
文章首先在多个模型上验证了这种误导的确存在,随后用多种去偏移化方法训练模型。实验中发现,使用答案位置的先验分布为模型降低偏移效果非常有效。
1. Introduction
文章上来探讨了,以预测答案位置作为目标进行训练,可能因为答案位置分布存在偏移而造成最终模型预测的偏移。
在偏移 SQuAD 数据集(k = 1)上进行培训,并进行测试,结果如下图所示,可以发现随机抽样示例训练效果要明显好于偏移 SQuAD 数据集。即,仅第一句有答案时,模型预测也会更依赖于第一句。
本文贡献主要包含三个:
- 定义了位置偏移问题,证明了位置偏移会对问答模型产生不利影响。
- 研究了偏移模型的失效原因。
- 证明了答案位置的先验分布有助于建立位置去偏移模型,改善模型性能。
2. Analysis
2.1 合成数据集的位置偏移
选取SQuAD作为研究数据集,原因是大部分SQuAD大部分都可以用一句话解答。采用三种模型进行测试:BiDAF
、BERT
、XLNet
。分别测试第一句话样本和随机抽取样本,出现了第一句话样本组性能出现明显下降。
2.2 位置偏移的可视化
观察位置偏移如何在BERT
各层中传播,如下图 a 所示。
为避免学习单词位置和答案之间的直接相关性,对输入位置进行随机扰乱。方法是对 1 到 BERT 的最大序列长度内随机采样 t 个索引,随后按照索引序号重新排序这些单词,实现扰乱。
Comments | NOTHING