数据集:
JeanKaddour/minipile
The MiniPile Challenge for Data-Efficient Language Models
MiniPile是 deduplicated The Pile corpus 的6GB子集。为了筛选MiniPile数据集,我们采取了一个简单的三步数据过滤过程:(1)推断Pile中所有文档的嵌入,(2)使用k-means算法对嵌入空间进行聚类,(3)过滤掉低质量的聚类。
筛选MiniPile的主要动机是:(i)各种预训练数据集(如Pile)往往对学术预算来说太大了,(ii)大多数小规模数据集相当同质化,从而不具有代表性的综合型语言模型。MiniPile致力于填补这一空白,从而促进对模型架构、训练过程、优化器等的数据高效研究。
有关MiniPile筛选过程的更多详细信息以及一些预训练结果请参见 MiniPile paper 。
关于Pile语料库的更多详细信息,请参阅 the Pile datasheet 。
英语 (EN)
MiniPile是由Jean Kaddour策划的Pile子集。Pile的创建者是Leo Gao、Stella Biderman、Sid Black、Laurence Golding、Travis Hoppe、Charles Foster、Jason Phang、Horace He、Anish Thite、Noa Nabeshima、Shawn Presser和Connor Leahy。
由于MiniPile是Pile的子集,因此适用同一MIT许可证。
@article{kaddour2023minipile, title={The MiniPile Challenge for Data-Efficient Language Models}, author={Kaddour, Jean}, journal={arXiv preprint arXiv:2304.08442}, year={2023} } @article{gao2020pile, title={The {P}ile: An 800{GB} dataset of diverse text for language modeling}, author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others}, journal={arXiv preprint arXiv:2101.00027}, year={2020} }