数据集:
HuggingFaceM4/OBELISC
OBELISC 是一个开放、庞大且经过精心筛选的图像-文本交织网络文档集合,包含141M个文档、115B个文本标记和353M个图像。
该数据集可用于训练大型多模态模型,与仅以图像/文本对训练的模型相比,显著提高它们的推理能力。有关数据集构建、OBELISC 的定量和定性分析以及我们进行的实验等更多详细信息,请参阅我们的论文。
英语
有4个字段:images(图像)、texts(文本)、metadata(元数据)和general_metadata(通用元数据)。
对于每个示例,列中的数据images和texts是两个大小相同的列表,对于每个索引,只有一个元素不是None。
例如,对于 web 文档text,在images中,我们有[image_1,None,image_2],在texts中我们有[None,text,None]。
图像被它们的URL替代,用户需要自己下载它们,例如使用img2dataset库。
在metadata中,有一个可以转换为列表的字符串,可以使用json.loads(example["metadata"])转换。该列表与图像和文本的列表大小相同,并且对于每个存在图像的索引,都会有一个字典存在,而当存在文本时,会有一个None值。该字典将包含图像的元数据(原始来源文档,未格式化来源,如果存在,则为alt-text等)。
最后,在general_metadata中,有一个可以转换为字典的字符串,包含文档的URL以及关于其在Common Crawl数据中的位置的信息。
只有一个划分train,包含141,047,697个示例。
OBELISC 的图像被URL替代后,arrow格式的大小为666.6GB(不需要!),上传的parquet格式大小为377GB。
https://huggingface.co/spaces/HuggingFaceM4/obelisc_visualization
https://arxiv.org/abs/2306.16527
https://github.com/huggingface/OBELISC
使用此数据集即表示您同意遵守源内容的原始许可证以及数据集许可证(CC-BY-4.0)。此外,如果您使用此数据集来训练机器学习模型,在发布模型或使用该模型的ML应用程序时,您同意披露您对数据集的使用。
许可证 CC-BY-4.0。
如果您正在使用此数据集,请引用
@inproceedings{ lauren{\c{c}}on2023obe, title={OBELISC: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents}, author={Hugo Lauren{\c{c}}on and Lucile Saulnier and L{\'e}o Tronchon and Stas Bekman and Amanpreet Singh and Anton Lozhkov and Thomas Wang and Siddharth Karamcheti and Alexander M Rush and Douwe Kiela and Matthieu Cord and Victor Sanh}, year={2023} }。