数据集:
wili_2018
任务:
文本分类计算机处理:
multilingual大小:
100K<n<1M语言创建人:
found批注创建人:
no-annotation源数据集:
original预印本库:
arxiv:1801.07779许可:
odblWiLI-2018是维基百科语言识别基准数据集,包含235000段文本,涵盖235种语言。该数据集平衡且提供了训练集和测试集的划分。
[需要更多信息]
235种不同的语言
{ 'label': 207, 'sentence': 'Ti Turkia ket maysa a demokrata, sekular, unitario, batay-linteg a republika nga addaan ti taga-ugma a tinawtawid a kultura. Ti Turkia ket umadadu a naipatipon iti Laud babaen ti panagkameng kadagiti organisasion a kas ti Konsilo iti Europa, NATO, OECD, OSCE ken ti G-20 a dagiti kangrunaan nga ekonomia. Ti Turkia ket nangrugi a nakitulag ti napno a panagkameng iti Kappon ti Europa idi 2005, nga isu ket maysa idin a kumaduaan a kameng iti Europeano a Komunidad ti Ekonomia manipud idi 1963 ken nakadanon ti maysa a tulagan ti kappon ti aduana idi 1995. Ti Turkia ket nagtaraken iti asideg a kultural, politikal, ekonomiko ken industria a panakibiang iti Tengnga a Daya, dagiti Turko nga estado iti Tengnga nga Asia ken dagiti pagilian ti Aprika babaen ti panagkameng kadagiti organisasion a kas ti Turko a Konsilo, Nagsaupan nga Administrasion iti Turko nga Arte ken Kultura, Organisasion iti Islamiko a Panagtitinnulong ken ti Organisasion ti Ekonomiko a Panagtitinnulong.' }
[需要更多信息]
训练数据和测试数据各有175000行文本。
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是标注者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集最初由Thomas Martin创建
ODC Open Database License v1.0
@dataset{thoma_martin_2018_841984, author = {Thoma, Martin}, title = {{WiLI-2018 - Wikipedia Language Identification database}}, month = jan, year = 2018, publisher = {Zenodo}, version = {1.0.0}, doi = {10.5281/zenodo.841984}, url = {https://doi.org/10.5281/zenodo.841984} }
感谢 @Shubhambindal2017 添加了这个数据集。