数据集:

pasinit/xlwic

计算机处理:

multilingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original
英文

XL-WiC

XL-WiC论文的Huggingface数据集 https://www.aclweb.org/anthology/2020.emnlp-main.584.pdf 。请参考官方 website 以获取更多信息。

配置

当加载XL-WSD数据集之一时,需要指定训练语言和目标语言(在该语言上进行开发和测试)。 请参考语言部分,查看可用的训练数据语言。例如,我们可以按以下方式加载以英语为训练语言,意大利语为目标语言的数据集:

from datasets import load_dataset
dataset = load_dataset('pasinit/xlwic', 'en_it')

语言

训练数据

  • en(英语)
  • fr(法语)
  • de(德语)
  • it(意大利语)

开发和测试数据

  • fr(法语)
  • de(德语)
  • it(意大利语)
  • bg(保加利亚语)
  • zh(中文)
  • hr(克罗地亚语)
  • da(丹麦语)
  • nl(荷兰语)
  • et(爱沙尼亚语)
  • fa(波斯语)
  • ja(日语)
  • ko(韩语)