论文:Infusing Disease Knowledge into BERT for Health Question Answering, Medical Inference and Disease Name Recognition

EMNLP2020的一篇论文,涉及QA,有代码。

pdf: https://arxiv.org/abs/2002.09599

github: https://github.com/heyunh2015/diseaseBERT

0. Abstract

这篇论文其实是将KGQA的内容移植到了一个跨学科领域,医学知识图谱。

采用BERTBioBERTSciBERTClinicalBERTBlueBERTAlBERT作为预训练模型,结合医疗知识图谱,实现了多个医疗问答数据集的SOTA。

1. Introduction

首先文章介绍了知识对疾病自然语言处理任务具有重要作用。包括:

  • 消费者健康问题回答
  • 医学语言诊断
  • 疾病名称识别
image-20201125113956565

随后介绍了生物医学BERT模型,主要是BioBERT。它主要的问题是,模型训练的MLM策略是随机遮掩,不一定保证遮掩的是疾病知识,因此需要进行策略改进。

本文提出的策略就是一种新的疾病知识边缘注入训练方法,增强具有疾病知识关系的BERT模型。核心思想是训练BERT从疾病描述性文本(来自维基百科)中进行推理,获取相关疾病和章节。对一些没有提到疾病和章节的问题,在开头添加带有疾病和章节的辅助句子。随后,对疾病和章节进行遮掩,让BERT模型进行推断,以训练BERT模型将疾病文本与疾病和章节关联的能力。

  • 例如,下图(a),输入是消费者健康查询,输出是疾病(Covid-19)和章节(诊断)
image-20201125114023992