数据集:
bigbio/mednli
利用深度神经网络的最先进模型在学习从输入到输出的准确映射方面取得了非常好的成绩。然而,它们仍然缺乏对与训练过程中遇到的条件不同的情况的泛化能力。在专业和知识密集型领域,这个挑战更加困难,因为训练数据有限。为了填补这一差距,我们引入了MedNLI数据集-一份由医生注释的、基于患者病史的自然语言推理任务(NLI)的数据集。作为前提句的来源,我们使用了MIMIC-III。具体来说,为了最大程度地降低对患者隐私的风险,我们使用了与已故患者相关的临床笔记。我们团队的临床医生建议临床笔记中的个人病史部分是从中可以得出有用推断的最信息丰富的部分。
@misc{https://doi.org/10.13026/c2rs98, title = {MedNLI — A Natural Language Inference Dataset For The Clinical Domain}, author = {Shivade, Chaitanya}, year = 2017, publisher = {physionet.org}, doi = {10.13026/C2RS98}, url = {https://physionet.org/content/mednli/} }