数据集:

JeanKaddour/minipile

英文

MiniPile数据集卡片

数据集描述

The MiniPile Challenge for Data-Efficient Language Models

数据集摘要

MiniPile是 deduplicated The Pile corpus 的6GB子集。为了筛选MiniPile数据集,我们采取了一个简单的三步数据过滤过程:(1)推断Pile中所有文档的嵌入,(2)使用k-means算法对嵌入空间进行聚类,(3)过滤掉低质量的聚类。

筛选MiniPile的主要动机是:(i)各种预训练数据集(如Pile)往往对学术预算来说太大了,(ii)大多数小规模数据集相当同质化,从而不具有代表性的综合型语言模型。MiniPile致力于填补这一空白,从而促进对模型架构、训练过程、优化器等的数据高效研究。

有关MiniPile筛选过程的更多详细信息以及一些预训练结果请参见 MiniPile paper

关于Pile语料库的更多详细信息,请参阅 the Pile datasheet

语言

英语 (EN)

其他信息

数据集创建者

MiniPile是由Jean Kaddour策划的Pile子集。Pile的创建者是Leo Gao、Stella Biderman、Sid Black、Laurence Golding、Travis Hoppe、Charles Foster、Jason Phang、Horace He、Anish Thite、Noa Nabeshima、Shawn Presser和Connor Leahy。

许可信息

由于MiniPile是Pile的子集,因此适用同一MIT许可证。

引用信息

@article{kaddour2023minipile,
  title={The MiniPile Challenge for Data-Efficient Language Models},
  author={Kaddour, Jean},
  journal={arXiv preprint arXiv:2304.08442},
  year={2023}
}

@article{gao2020pile,
  title={The {P}ile: An 800{GB} dataset of diverse text for language modeling},
  author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others},
  journal={arXiv preprint arXiv:2101.00027},
  year={2020}
}