英文

COPA-HR数据集(克罗地亚的可行替代选择)是根据XCOPA数据集翻译方法( https://arxiv.org/abs/2005.00333 号)翻译的英文COPA数据集( https://people.ict.usc.edu/~gordon/copa.html 号)的一个翻译版本。该数据集包含1000个前提(我的身体在草地上投下了阴影),每个前提都有一个问题(是什么原因?)和两个选择(太阳升起了;草被割了),并使用标签对给定的选择进行编码,以表示哪个选择更合理(太阳升起了)。

该数据集被分为400个训练样本、100个验证样本和500个测试样本。它包括以下特征:'前提'、'选择1'、'选择2'、'标签'、'问题'、'是否更改'(布尔值)。

如果在您的工作中使用了该数据集,请引用:

@article{DBLP:journals/corr/abs-2104-09243,
 author    = {Nikola Ljube\\\\v{s}i\\\\'{c} and
              Davor Lauc},
 title     = {BERTi{\\\\'{c}} - The Transformer Language Model for Bosnian, Croatian,
               Montenegrin and Serbian},
 journal   = {CoRR},
 volume    = {abs/2104.09243},
 year      = {2021},
 url       = {https://arxiv.org/abs/2104.09243},
 archivePrefix = {arXiv},
}