论文地址:NoiseQA: Challenge Set Evaluation for User-Centric Question Answering
发表在 EACL 2021 的一篇论文,主要涉及问答噪声,并提出了相应的数据集。
0. Abstract
问答系统实际部署时用户会采用各种接口进行问答,就会出现噪声问题。文章研究的就是这类问题。首先对噪声进行了分类。随后研究如何降低噪声对问答系统的影响,给出了数据集,并对相关工作进行了分析。
1. Introduction
此前很少有与问答系统噪声相关的研究。文章的贡献包括:
- 基于 SQuAD v1.1 的阅读理解问答模型,定义了三种噪声内容:语音识别噪声、键盘输入噪声和机器翻译噪声。随后对每种噪声,分别构建了合成数据集和自然数据集。
- 评估了先进方法在噪声数据集上的性能。
- 分析了噪声对下游任务的影响,研究了噪声处理策略,主要是数据增强和查询修复。
2. Motivation
3. Challenge Set Construction
文章将噪声添加到问题中,而不是上下文中,来实现对用户输入噪声的模拟。
选用 SQuAD v1.1 数据集构建问答,采用 90k/10k 构建训练集和验证集,并基于 XQuAD 构建三种挑战数据集。XQuAD 是 1190 个 SQuAD 开发集问题的子集,被专业翻译为 10 种语言。
随后文章介绍了三种挑战数据集的构建过程。每种挑战集都有两种类型:合成挑战集和自然挑战集。一个更接近机器效果,一个更接近人类效果。
3.1 MT Noise
机器翻译噪声数据集,使用英语作为问答系统语言,将英语上下文与非英语问题进行配对。
合成挑战集。采用了反向翻译技术 back-translation technique
,这种技术原本是用于数据增强的,但在这里用于模拟机器翻译噪声。这里的用法就是翻译再翻译,英语翻译成德语再翻译成英语。这里利用了 HuggingFace 的 MarianNMT 模型。
自然挑战集。为了让翻译噪声更接近真实用户翻译噪声,从人类产生的翻译数据集 XQuAD 中获取问题,将不同语言的内容采用谷歌翻译翻译为英语。
3.2 Keyboard Noise
合成挑战集。采用标准键盘格式下的字母邻域,采用 25% 的概率,随机替换单词中某个字母为邻域字符。还在单词数据中引入了维基百科统计的人类拼写错误,产生更自然的噪声,包括 1489 个英语单词的 1742 个拼写错误。
自然挑战集。让三个注释者重新输入 XQuAD 的问题,但不让他们看到自己的输入。
3.3 ASR Noise
合成挑战集。采用 Google Text-to-Speech (TTS) 生成语音,再通过 Google Speech-to-Text、Kaldi ASpIRE 和 ESPnet CommonVoice 获取问题文本。
自然挑战集。采用 SANTLR 语音注释工具集,获取三个注释者的语音输入,随后再用上述引擎获取问题文本。
- 表2:SQuAD 的不同语音识别噪声。
4. Experiments
实验选择了 SQuAD v1.1 上表现较好的 4 个 QA 模型,包括 BiDAF, BiDAF-ELMo, BERT 和 RoBERTa。
4.1 Results and Analysis
挑战集评价指标选择了字符错误率 CER,单词错误率 WER 和 BLEU 得分(文本相似度)。
- 表3:挑战集评价指标。翻译其实在一些语言上也是非常有挑战性的。
分析 QA 模型实验结果,可以发现键盘输入噪声和语音识别噪声影响最大。机器翻译噪声在一些语言上影响也非常大。同时发现,精度更高的 RoBERTa 模型应对噪声的效果反而不一定比 BERT 好,说明稳定性也很重要。
- 表4:QA 模型实验结果。
文章对每种噪声数据集的效果还进行了专门分析。
语音识别噪声,分析了标点符号具有重要作用,去除会造成性能下降。分析了问题类别。分析了语音、性别和熟练程度的影响。分析了语音识别 ASR 模型的影响。
- 图1:语音识别影响分析。美语口音的效果最好。
机器翻译噪声,分析了源语言的影响。
- 图2:机器翻译影响分析。
- 表5:翻译差异示例。
键盘输入噪声,分析了合成集和自然集的影响。
4.2 Mitigation Strategies
文章尝试了两种策略提高 QA 系统稳定性:修复问题和数据增强。
修复问题方法,只适用于特定领域 QA (如 SQuAD),而不适用于开放领域 QA。这种方法将单词视为存在噪声,选择上下文中最接近的单词替换它们。将距离度量作为错误率,将阈值设为 0.5,并采用两种修复策略:只修复命名实体,或修复内容词(名词和形容词)。结果显示,修复内容词效果更好。这种方法适用于键盘输入错误,不过对其他错误也可以采用修复方法,如对语音识别错误加注释,或者对键盘输入错误加拼写检查器。
数据增强方法,用合成数据集的噪声构建方法,在 SQuAD 的 90k 训练集中注入噪声,进行训练。实践证明能够提高稳定性,但是对干净数据集效果会下降一点。对三种噪声的增强方法也进行了分析,证明三种都有助于提高稳定性。也证明了合成数据集的噪声构建方法是有效的。
- 表6:提高问答系统稳定性的方法:修复问题和数据增强,以及对应的效果。
5. Related Work
介绍了问答系统的研究进展、语音和问答系统的交互、挑战集提高模型稳定性的研究进展。
6. Conclusion
本文研究了三种噪声,旨在评估问答系统的稳健性,从而提高问答系统的实用性。
文章对数据集构建及实验的内容非常清晰和详细,值得学习借鉴。同时,提高问答系统稳健性的研究也很有意义。
Comments | NOTHING