数据集:

anukaver/EstQA

语言:

et
英文

爱沙尼亚问答数据集

  • 这是一个用于爱沙尼亚语抽取式问答的数据集。它基于维基百科文章,通过PageRank进行了预过滤。标注是由一个人完成的。
  • 训练集包括776个上下文-问题-答案三元组。每个问题都有多个可能的答案,每个答案都在一个单独的三元组中。不同的问题数量为512。
  • 测试集包括603个样本。每个样本包含一个或多个黄金答案。总共有892个黄金答案。

更新日志

测试集v1.1添加了一些额外的黄金答案。

参考文献

如果您在研究中使用了这个数据集,请引用以下论文:

@mastersthesis{mastersthesis,
  author       = {Anu Käver}, 
  title        = {Extractive Question Answering for Estonian Language},
  school       = {Tallinn University of Technology (TalTech)},
  year         = 2021
}