数据集:

NYTK/HuWNLI

英文

HuWNLI 数据集卡片

数据集概要

这是以 Winograd 模式的匈牙利语翻译的数据集,格式为推理任务。 Winograd 模式是一对只有一个或两个单词不同的句子,这些句子中包含一个在两个句子中以相反方式解决的不明确性,需要使用世界知识和推理来解决(Levesque等,2012年)。该数据集也是匈牙利语言理解评估基准工具集 HuLu 的一部分。该语料库是通过翻译和手工编辑原始的英语 Winograd 模式创建的。NLI 格式是通过将含糊不清的代词替换为每个可能的指称来创建的(该方法在 GLUE 的论文中描述,Wang等人,2019年)。我们通过翻译与 Winograd 模式句子一起构成 GLUE 的 WNLI 数据集的句子对来扩展了从模式中派生的句子对的集合。

语言

按照BCP-47规范,匈牙利语的代号是hu-HU。此数据集仅包含匈牙利语。

数据集结构

数据示例

对于每个实例,都有一个 orig_id,一个 id,两个句子和一个标签。

一个示例:

{"orig_id": "4",
 "id": "4",
 "sentence1": "A férfi nem tudta felemelni a fiát, mert olyan nehéz volt.",
 "sentence2": "A fia nehéz volt.",
 "Label": "1"
}

数据字段

  • orig_id: 此句子对的原始id(更准确地说,是其英文对应项)在 GLUE 的 WNLI 数据集中;

  • id: 实例的唯一id;

  • sentence1: 前提;

  • sentence2: 假设;

  • label: 如果 sentence2 由 sentence1 推断得出,则为“1”,否则为“0”。

数据拆分

数据分为三个部分:训练集(562个)、开发集(59个)和测试集(134个)。这些拆分遵循 GLUE 的 WNLI 拆分,但由于许多句子对在翻译成匈牙利语时无法翻译,因此包含的实例较少。训练集和开发集是从匈牙利语 6 个 Winograd 模式的 nli 句子对中扩展而来的,这些模式被留在了原始 WNLI 数据集之外。HuWNLI的测试集的句子对是从 GLUE 的 WNLI 测试集翻译而来的。该数据集分发时没有标签。3个注释者对匈牙利语句子对进行了注释。HuWNLI的测试集也没有标签。要评估您的模型,请与我们联系,或查看HuLU的网站进行自动评估(此功能目前正在建设中)。

数据集创建

源数据

初始数据收集和规范化

数据是英文 Winograd 模式和 GLUE 的 WNLI 的附加句子对的翻译。每个模式和句子对都是由人工翻译的。每个模式都经过语言专家的手动编辑。语言模式经过语言专家转换为 nli 格式。

在适应方法中,我们在 GLUE 的 WNLI 训练集中发现了两个错误的标签(id 347 和 id 464)。我们在数据集中进行了修正。

其他信息

测试集的人类平均表现为92.78%(准确率)。

许可信息

HuWNLI 在 Creative Commons Attribution-ShareAlike 4.0 International License 下发布。

引用信息

如果您使用此资源或其任何部分,请参考:

Ligeti-Nagy, N., Héja, E., Laki, L. J., Takács, D., Yang, Z. Gy. 和 Váradi, T.(2023年)《Hát te mekkorát nőttél!- A HuLU első életéve új adatbázisokkal és webszolgáltatással [Look at how much you have grown! - The first year of HuLU with new databases and with webservice]》。 在:Berend,G.,Gosztolya,G.和Vincze,V.(eds),XIX. Magyar Számítógépes Nyelvészeti Konferencia。 Szeged,Szegedi Tudományegyetem,Informatikai Intézet。217-230。

@inproceedings{ligetinagy2023hulu,
  title={át te mekkorát nőttél! - A HuLU első életéve új adatbázisokkal és webszolgáltatással},
  author={Ligeti-Nagy, N. and Héja, E. and Laki, L. J. and Takács, D. and Yang, Z. Gy. and Váradi, T.},
  booktitle={XIX. Magyar Számítógépes Nyelvészeti Konferencia},
  year={2023},
  editors = {Berend, Gábor and Gosztolya, Gábor and Vincze, Veronika},
  address = {Szeged},
  publisher = {JATEPress},
  pages = {217–230}
}

Ligeti-Nagy, N., Ferenczi, G., Héja, E., Jelencsik-Mátyus, K., Laki, L. J., Vadász, N., Yang, Z. Gy. 和 Váradi, T. (2022)《HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából [HuLU: Hungarian benchmark dataset to evaluate neural language models]》。在:Berend, Gábor和Gosztolya, Gábor和Vincze, Veronika(eds),XVIII. Magyar Számítógépes Nyelvészeti Konferencia。JATEPress,Szeged.431-446。

@inproceedings{ligetinagy2022hulu,
  title={HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából},
  author={Ligeti-Nagy, N. and Ferenczi, G. and Héja, E. and Jelencsik-Mátyus, K. and Laki, L. J. and Vadász, N. and Yang, Z. Gy. and Váradi, T.},
  booktitle={XVIII. Magyar Számítógépes Nyelvészeti Konferencia},
  year={2022},
  editors = {Berend, Gábor and Gosztolya, Gábor and Vincze, Veronika},
  address = {Szeged},
  publisher = {JATEPress},
  pages = {431–446}
}

以及:

Levesque, Hector,Davis, Ernest,Morgenstern, Leora(2012)《The Winograd Schema Challenge》。 在: Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning。

@inproceedings{levesque2012winograd,
  title={The Winograd Schema Challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012},
  organization={Citeseer}
}

贡献者

感谢 lnnoemi 添加了这个数据集。