数据集:

NYTK/HuRC

任务:

问答

语言:

hu

计算机处理:

monolingual

批注创建人:

crowdsourced

源数据集:

extended|other

许可:

cc-by-4.0
英文

HuRC 数据集卡片

数据集概述

这是匈牙利阅读理解与常识推理数据集(HuRC)的数据集卡片,也是匈牙利语言理解评估基准套件HuLU的一部分。该数据集包含80,614个实例。每个实例由一个引语、一段文章和一个带有屏蔽实体的填空式查询组成。任务是选择在查询中被屏蔽的命名实体。数据是从Népszabadság在线新闻(nol.hu)自动收集而来。

语言

该数据集仅包含匈牙利语,其BCP-47代码为hu-HU。

数据集结构

数据实例

对于每个实例,有一个id、一个引语、一段文章、一个查询和一个MASK。例如:

{
 "id": "1",
 "lead": ["A Közigazgatási és Igazságügyi Minisztérium szerint a Bárka Színház esetében felmerült a felelőtlen gazdálkodás gyanúja, egyes értesülések szerint pedig ebben    \"a színház igazgatójának és gazdasági vezetőjének felelőssége is felmerül\""],
 "passage": [
            "A teátrumnak Navracsics Tibor közigazgatási és igazságügyi miniszterhez és Kocsis Máté VIII. kerületi polgármesterhez",
            "reagálva a tárca azt írta, hogy a felelőtlen gazdálkodás gyanújában \"egyes értesülések szerint a színház igazgatójának és gazdasági vezetőjének felelőssége is felmerül\". A KIM \"éppen ezért nagyon várja az Állami Számvevőszék készülő jelentését, hogy tiszta képet kaphasson a színház működéséről\".",
            "A minisztérium hangsúlyozta, hogy az elmúlt évben is mindent elkövetett azért, hogy a Bárka Színház \"valós, rangos művészeti térként\" működjön, és a továbbiakban is ez a szándéka, de jelenleg a társulat működtetését a minisztérium fenntartói támogatás formájában jogszerűen még nem tudja megoldani.",
            "A teátrum az átadás-átvétel elhúzódásának okát keresve tette közzé nyílt levelét, amelyben elmaradó fizetésekre, előadásokra és bemutatókra hívta fel a figyelmet, és jelezte, hogy várja a helyzet megoldását.",
            "A színház átadás-átvétele jelenleg zajlik, a folyamat végeztével a Bárka a józsefvárosi önkormányzattól állami tulajdonba, a tervek szerint a Közigazgatási és Igazságügyi Minisztérium fenntartásába kerül."
        ],
"query": "A KIM 2014-es költségvetésében szerepel a Bárka Színház, de amíg nem a minisztérium a [MASK] fenntartója, addig ez a költségvetési keret nem nyitható meg.",
"MASK": "Bárka",
}

数据字段

  • id:实例的唯一标识;
  • 引语:从源文本中提取的文章的简短摘要;
  • 文章:文章的3-6段文字内容;
  • 查询:一篇文章的最后一段,也是一种摘要或结论,在其中有一个被[MASK]屏蔽的命名实体;
  • MASK:被屏蔽的命名实体。

数据拆分

HuRC有3个拆分:训练集、验证集和测试集。

Dataset split Number of instances in the split Proportion of the split
train 64614 80%
validation 8000 10%
test 8000 10%

测试数据不包含MASK字段。要评估您的模型,请与我们联系或访问HuLU的网站进行自动评估(此功能目前正在建设中)。

数据集创建

源数据

初始数据收集和规范化

为了生成匈牙利语料,我们使用了Népszabadság Online的日常文章,这些文章都有标题和摘要。我们从每篇文章中选择了3-6段包含专有名词的段落作为主要部分和摘要。我们使用huBERT(Nemeskey 2021)训练了一个用于识别专有名词的NER模型。我们使用了NerKor(Simon és Vadász 2021)和Huggingface的令牌级分类库对模型进行了微调。我们的模型在测试材料上达到了90.18的F分数。最后,我们找到了主文和摘要中都存在的专有名词对。多篇文章中包含了多个这样的对,所以我们使用了多次。这样得到了一个包含88655个实例的数据库(来自49782篇文章)。

我们语料库的定量特性如下:文章数:88655不同文章数(类型):49782标记:27703631个类型:1115.260个文本平均长度(标记):249.42(中位数:229)平均问题长度(标记):63.07(中位数:56)。我们通过人工微调了语料库。

每100个单位的标注者检查和验证了数据集,并为此提供了我们自己的演示界面。检查了自动屏蔽和实体的前期出现情况。这样得到了一个包含80614个经过验证的条目的数据库。

附加信息

许可信息

HuRC在cc-by-4.0许可下发布。

引用信息

如果您使用了这个资源或其任何部分的文档,请引用:

Ligeti-Nagy, N., Ferenczi, G., Héja, E., Jelencsik-Mátyus, K., Laki, L. J., Vadász, N., Yang, Z. Gy. and Váradi, T. (2022) HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából [HuLU: Hungarian benchmark dataset to evaluate neural language models]. XVIII. Magyar Számítógépes Nyelvészeti Konferencia. (in press)

@inproceedings{ligetinagy2022hulu,
  title={HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából},
  author={Ligeti-Nagy, N. and Ferenczi, G. and Héja, E. and Jelencsik-Mátyus, K. and Laki, L. J. and Vadász, N. and Yang, Z. Gy. and Váradi, T.},
  booktitle={XVIII. Magyar Számítógépes Nyelvészeti Konferencia},
  year={2022}
}

贡献

感谢添加此数据集的 lnnoemi