数据集:
NYTK/HuRC
这是匈牙利阅读理解与常识推理数据集(HuRC)的数据集卡片,也是匈牙利语言理解评估基准套件HuLU的一部分。该数据集包含80,614个实例。每个实例由一个引语、一段文章和一个带有屏蔽实体的填空式查询组成。任务是选择在查询中被屏蔽的命名实体。数据是从Népszabadság在线新闻(nol.hu)自动收集而来。
该数据集仅包含匈牙利语,其BCP-47代码为hu-HU。
对于每个实例,有一个id、一个引语、一段文章、一个查询和一个MASK。例如:
{ "id": "1", "lead": ["A Közigazgatási és Igazságügyi Minisztérium szerint a Bárka Színház esetében felmerült a felelőtlen gazdálkodás gyanúja, egyes értesülések szerint pedig ebben \"a színház igazgatójának és gazdasági vezetőjének felelőssége is felmerül\""], "passage": [ "A teátrumnak Navracsics Tibor közigazgatási és igazságügyi miniszterhez és Kocsis Máté VIII. kerületi polgármesterhez", "reagálva a tárca azt írta, hogy a felelőtlen gazdálkodás gyanújában \"egyes értesülések szerint a színház igazgatójának és gazdasági vezetőjének felelőssége is felmerül\". A KIM \"éppen ezért nagyon várja az Állami Számvevőszék készülő jelentését, hogy tiszta képet kaphasson a színház működéséről\".", "A minisztérium hangsúlyozta, hogy az elmúlt évben is mindent elkövetett azért, hogy a Bárka Színház \"valós, rangos művészeti térként\" működjön, és a továbbiakban is ez a szándéka, de jelenleg a társulat működtetését a minisztérium fenntartói támogatás formájában jogszerűen még nem tudja megoldani.", "A teátrum az átadás-átvétel elhúzódásának okát keresve tette közzé nyílt levelét, amelyben elmaradó fizetésekre, előadásokra és bemutatókra hívta fel a figyelmet, és jelezte, hogy várja a helyzet megoldását.", "A színház átadás-átvétele jelenleg zajlik, a folyamat végeztével a Bárka a józsefvárosi önkormányzattól állami tulajdonba, a tervek szerint a Közigazgatási és Igazságügyi Minisztérium fenntartásába kerül." ], "query": "A KIM 2014-es költségvetésében szerepel a Bárka Színház, de amíg nem a minisztérium a [MASK] fenntartója, addig ez a költségvetési keret nem nyitható meg.", "MASK": "Bárka", }
HuRC有3个拆分:训练集、验证集和测试集。
Dataset split | Number of instances in the split | Proportion of the split |
---|---|---|
train | 64614 | 80% |
validation | 8000 | 10% |
test | 8000 | 10% |
测试数据不包含MASK字段。要评估您的模型,请与我们联系或访问HuLU的网站进行自动评估(此功能目前正在建设中)。
为了生成匈牙利语料,我们使用了Népszabadság Online的日常文章,这些文章都有标题和摘要。我们从每篇文章中选择了3-6段包含专有名词的段落作为主要部分和摘要。我们使用huBERT(Nemeskey 2021)训练了一个用于识别专有名词的NER模型。我们使用了NerKor(Simon és Vadász 2021)和Huggingface的令牌级分类库对模型进行了微调。我们的模型在测试材料上达到了90.18的F分数。最后,我们找到了主文和摘要中都存在的专有名词对。多篇文章中包含了多个这样的对,所以我们使用了多次。这样得到了一个包含88655个实例的数据库(来自49782篇文章)。
我们语料库的定量特性如下:文章数:88655不同文章数(类型):49782标记:27703631个类型:1115.260个文本平均长度(标记):249.42(中位数:229)平均问题长度(标记):63.07(中位数:56)。我们通过人工微调了语料库。
每100个单位的标注者检查和验证了数据集,并为此提供了我们自己的演示界面。检查了自动屏蔽和实体的前期出现情况。这样得到了一个包含80614个经过验证的条目的数据库。
HuRC在cc-by-4.0许可下发布。
如果您使用了这个资源或其任何部分的文档,请引用:
Ligeti-Nagy, N., Ferenczi, G., Héja, E., Jelencsik-Mátyus, K., Laki, L. J., Vadász, N., Yang, Z. Gy. and Váradi, T. (2022) HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából [HuLU: Hungarian benchmark dataset to evaluate neural language models]. XVIII. Magyar Számítógépes Nyelvészeti Konferencia. (in press)
@inproceedings{ligetinagy2022hulu, title={HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából}, author={Ligeti-Nagy, N. and Ferenczi, G. and Héja, E. and Jelencsik-Mátyus, K. and Laki, L. J. and Vadász, N. and Yang, Z. Gy. and Váradi, T.}, booktitle={XVIII. Magyar Számítógépes Nyelvészeti Konferencia}, year={2022} }
感谢添加此数据集的 lnnoemi 。