数据集:
NYTK/HuWNLI
这是以 Winograd 模式的匈牙利语翻译的数据集,格式为推理任务。 Winograd 模式是一对只有一个或两个单词不同的句子,这些句子中包含一个在两个句子中以相反方式解决的不明确性,需要使用世界知识和推理来解决(Levesque等,2012年)。该数据集也是匈牙利语言理解评估基准工具集 HuLu 的一部分。该语料库是通过翻译和手工编辑原始的英语 Winograd 模式创建的。NLI 格式是通过将含糊不清的代词替换为每个可能的指称来创建的(该方法在 GLUE 的论文中描述,Wang等人,2019年)。我们通过翻译与 Winograd 模式句子一起构成 GLUE 的 WNLI 数据集的句子对来扩展了从模式中派生的句子对的集合。
按照BCP-47规范,匈牙利语的代号是hu-HU。此数据集仅包含匈牙利语。
对于每个实例,都有一个 orig_id,一个 id,两个句子和一个标签。
一个示例:
{"orig_id": "4", "id": "4", "sentence1": "A férfi nem tudta felemelni a fiát, mert olyan nehéz volt.", "sentence2": "A fia nehéz volt.", "Label": "1" }
orig_id: 此句子对的原始id(更准确地说,是其英文对应项)在 GLUE 的 WNLI 数据集中;
id: 实例的唯一id;
sentence1: 前提;
sentence2: 假设;
label: 如果 sentence2 由 sentence1 推断得出,则为“1”,否则为“0”。
数据分为三个部分:训练集(562个)、开发集(59个)和测试集(134个)。这些拆分遵循 GLUE 的 WNLI 拆分,但由于许多句子对在翻译成匈牙利语时无法翻译,因此包含的实例较少。训练集和开发集是从匈牙利语 6 个 Winograd 模式的 nli 句子对中扩展而来的,这些模式被留在了原始 WNLI 数据集之外。HuWNLI的测试集的句子对是从 GLUE 的 WNLI 测试集翻译而来的。该数据集分发时没有标签。3个注释者对匈牙利语句子对进行了注释。HuWNLI的测试集也没有标签。要评估您的模型,请与我们联系,或查看HuLU的网站进行自动评估(此功能目前正在建设中)。
数据是英文 Winograd 模式和 GLUE 的 WNLI 的附加句子对的翻译。每个模式和句子对都是由人工翻译的。每个模式都经过语言专家的手动编辑。语言模式经过语言专家转换为 nli 格式。
在适应方法中,我们在 GLUE 的 WNLI 训练集中发现了两个错误的标签(id 347 和 id 464)。我们在数据集中进行了修正。
测试集的人类平均表现为92.78%(准确率)。
HuWNLI 在 Creative Commons Attribution-ShareAlike 4.0 International License 下发布。
如果您使用此资源或其任何部分,请参考:
Ligeti-Nagy, N., Héja, E., Laki, L. J., Takács, D., Yang, Z. Gy. 和 Váradi, T.(2023年)《Hát te mekkorát nőttél!- A HuLU első életéve új adatbázisokkal és webszolgáltatással [Look at how much you have grown! - The first year of HuLU with new databases and with webservice]》。 在:Berend,G.,Gosztolya,G.和Vincze,V.(eds),XIX. Magyar Számítógépes Nyelvészeti Konferencia。 Szeged,Szegedi Tudományegyetem,Informatikai Intézet。217-230。
@inproceedings{ligetinagy2023hulu, title={át te mekkorát nőttél! - A HuLU első életéve új adatbázisokkal és webszolgáltatással}, author={Ligeti-Nagy, N. and Héja, E. and Laki, L. J. and Takács, D. and Yang, Z. Gy. and Váradi, T.}, booktitle={XIX. Magyar Számítógépes Nyelvészeti Konferencia}, year={2023}, editors = {Berend, Gábor and Gosztolya, Gábor and Vincze, Veronika}, address = {Szeged}, publisher = {JATEPress}, pages = {217–230} }
Ligeti-Nagy, N., Ferenczi, G., Héja, E., Jelencsik-Mátyus, K., Laki, L. J., Vadász, N., Yang, Z. Gy. 和 Váradi, T. (2022)《HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából [HuLU: Hungarian benchmark dataset to evaluate neural language models]》。在:Berend, Gábor和Gosztolya, Gábor和Vincze, Veronika(eds),XVIII. Magyar Számítógépes Nyelvészeti Konferencia。JATEPress,Szeged.431-446。
@inproceedings{ligetinagy2022hulu, title={HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából}, author={Ligeti-Nagy, N. and Ferenczi, G. and Héja, E. and Jelencsik-Mátyus, K. and Laki, L. J. and Vadász, N. and Yang, Z. Gy. and Váradi, T.}, booktitle={XVIII. Magyar Számítógépes Nyelvészeti Konferencia}, year={2022}, editors = {Berend, Gábor and Gosztolya, Gábor and Vincze, Veronika}, address = {Szeged}, publisher = {JATEPress}, pages = {431–446} }
以及:
Levesque, Hector,Davis, Ernest,Morgenstern, Leora(2012)《The Winograd Schema Challenge》。 在: Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning。
@inproceedings{levesque2012winograd, title={The Winograd Schema Challenge}, author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora}, booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning}, year={2012}, organization={Citeseer} }
感谢 lnnoemi 添加了这个数据集。