数据集:
classla/copa_hr
COPA-HR数据集(克罗地亚的可行替代选择)是根据XCOPA数据集翻译方法( https://arxiv.org/abs/2005.00333 号)翻译的英文COPA数据集( https://people.ict.usc.edu/~gordon/copa.html 号)的一个翻译版本。该数据集包含1000个前提(我的身体在草地上投下了阴影),每个前提都有一个问题(是什么原因?)和两个选择(太阳升起了;草被割了),并使用标签对给定的选择进行编码,以表示哪个选择更合理(太阳升起了)。
该数据集被分为400个训练样本、100个验证样本和500个测试样本。它包括以下特征:'前提'、'选择1'、'选择2'、'标签'、'问题'、'是否更改'(布尔值)。
如果在您的工作中使用了该数据集,请引用:
@article{DBLP:journals/corr/abs-2104-09243, author = {Nikola Ljube\\\\v{s}i\\\\'{c} and Davor Lauc}, title = {BERTi{\\\\'{c}} - The Transformer Language Model for Bosnian, Croatian, Montenegrin and Serbian}, journal = {CoRR}, volume = {abs/2104.09243}, year = {2021}, url = {https://arxiv.org/abs/2104.09243}, archivePrefix = {arXiv}, }号