数据集:

HuggingFaceM4/cm4-synthetic-testing

英文

此数据集旨在用于测试多模态文本/图像模型。它基于cm4-10k数据集。

当前的拆分是:['100.unique','100.repeat','300.unique','300.repeat','1k.unique','1k.repeat','10k.unique','10k.repeat']。

唯一性拆分确保文本条目之间的唯一性。

重复拆分重复使用相同的10个唯一记录:- 这对于内存泄漏调试非常有用,因为记录始终相同,因此从方程中消除了记录变化。

默认拆分是100.unique。

完整的数据集创建过程记录在cm4-synthetic-testing.py中。