数据集:
enwik8
enwik8 数据集是英文维基百科的 XML 转储的前 100,000,000 (100M) 个字节,采集于2006年3月3日,通常用于评估模型对数据的压缩能力。
可以在 paperswithcode 上找到字节级因果语言建模的排行榜。
英语(en)
{ "text": "In [[Denmark]], the [[Freetown Christiania]] was created in downtown [[Copenhagen]]....", }
数据字段在所有数据集中都相同。
enwik8dataset | train |
---|---|
enwik8 | 1128024 |
enwik8- raw | 1 |
[需要更多信息]
数据只是2006年3月3日的英文维基百科 XML 转储,enwik8 基于行拆分,enwik8-raw 则没有基于行拆分。
谁是数据源的语言生成者?[需要更多信息]
[需要更多信息]
谁是标注者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
数据集不属于任何出版物,因此无法引用。
感谢 @HallerPatrick 添加了这个数据集,感谢 @mtanghu 进行了更新。