数据集:
NYTK/HuCoPA
这是匈牙利可选替代语料库(HuCoPA)的数据集卡,也是匈牙利语言理解评估基准套件HuLU的一部分。该语料库是通过翻译和重新注释原始的英文CoPA语料库(Roemmele等人,2011)而创建的。
'常识推理''问答'
本数据集仅包含匈牙利语,其BCP-47代码为hu-HU。
对于每个实例,都有一个id、一个前提、一个问题('cause'或'effect')、两个替代方案和一个标签(1或2)。
一个示例:
{"idx": "1", "question": "cause", "label": "1", "premise": "A testem árnyékot vetett a fűre.", "choice1": "Felkelt a nap.", "choice2": "A füvet lenyírták."}
HuCoPA有三个拆分:训练集、验证集和测试集。
Dataset split | Number of instances in the split |
---|---|
train | 400 |
validation | 100 |
test | 500 |
测试数据是没有标签的。要评估您的模型,请与我们联系,或查看HuLU的网站以进行自动评估(此功能目前正在建设中)。
该数据是CoPA语料库内容的翻译版本。每个句子都由人工翻译员进行翻译。每个翻译都经过人工检查并由另一位注释员进行进一步修正。
每个实例最初从CoPA数据集继承了原始标签。每个实例都由人工标注员进行注释。如果原始标签与人工标注员的标签不匹配,我们将手动编辑实例并为其分配最终标签。这一步骤是为了确保在翻译过程中因果关系没有被改变或丢失。
注释员是谁?翻译员是母语为匈牙利语且具备英语能力的人士。标注员是具有一定语言背景的大学生。
测试集的人类表现为96%(准确率)。
HuCoPA使用BSD 2-Clause许可证发布。
版权所有(c)2010年,南加州大学。保留所有权利。
在源代码和二进制形式下,无论是否修改,只要满足以下条件,即可复制、分发和使用:
必须保留上述版权声明、此条件列表和以下免责声明的源代码再分发行为中。
无论是在二进制形式还是在与分发的文档和/或其他材料中,都必须复制上述版权声明、此条件列表和以下免责声明。
本软件按原样提供,不附带任何明示或暗示的保证,包括但不限于适销性和特定用途适应性的保证。在任何情况下,版权所有人或贡献者均不对任何直接、间接、偶然、特殊、示例性或后果性损害(包括但不限于替代商品或服务的购买、使用、数据或利润损失或业务中断)承担责任,无论是以合同责任、严格责任或侵权行为(包括疏忽或其他原因)产生的,即使事先已被告知发生此类损害的可能性。
如果您使用此资源或其任何部分的文档,请引用:
Ligeti-Nagy, N., Ferenczi, G., Héja, E., Jelencsik-Mátyus, K., Laki, L. J., Vadász, N., Yang, Z. Gy.和Váradi, T.(2022年)“HuLU:magyar nyelvű benchmark adatbázi ki kptése a neurális nyelvmodellek kiértékelése céljából [HuLU:基于神经语言模型的匈牙利基准数据集]”。在:Berend, Gábor和Gábor Gosztolya和Veronika Vincze(编辑),第18届匈牙利计算语言学会议。JATEPress,塞格德。431–446。
@inproceedings{ligetinagy2022hulu, title={HuLU: magyar nyelvű benchmark adatbázis kiépítése a neurális nyelvmodellek kiértékelése céljából}, author={Ligeti-Nagy, N. and Ferenczi, G. and Héja, E. and Jelencsik-Mátyus, K. and Laki, L. J. and Vadász, N. and Yang, Z. Gy. and Váradi, T.}, booktitle={XVIII. Magyar Számítógépes Nyelvészeti Konferencia}, year={2022}, editors = {Berend, Gábor and Gosztolya, Gábor and Vincze, Veronika}, address = {Szeged}, publisher = {JATEPress}, pages = {431–446} }
和:
Roemmele, M.,Bejan,C.和Gordon,A.(2011)可选替代的选择:常识因果推理的评估。AAAI春季关于常识推理的逻辑形式化研讨会,斯坦福大学,2011年3月21日至23日。
@inproceedings{roemmele2011choice, title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning}, author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S}, booktitle={2011 AAAI Spring Symposium Series}, year={2011}, url={https://people.ict.usc.edu/~gordon/publications/AAAI-SPRING11A.PDF}, }
感谢 lnnoemi 添加这个数据集。