数据集:

HuggingFaceM4/cm4-synthetic-testing-with-embeddings

英文

这个数据集旨在用于测试多模态文本/图像模型。它是从cm4-10k数据集派生而来。

当前的拆分为:['100.unique','100.repeat','300.unique','300.repeat','1k.unique','1k.repeat','10k.unique','10k.repeat']。

'unique' 确保文本条目之间的唯一性。

'repeat' 是重复使用相同的10个唯一记录:- 这对于内存泄漏调试非常有用,因为记录始终相同,从而消除了记录变化对方程的影响。

默认拆分是 '100.unique'。

创建该数据集的完整过程记录在 cm4-synthetic-testing.py 中。