数据集:

HuggingFaceM4/general-pmd-synthetic-testing

英文

此数据集旨在用于测试。它是从general-pmd/localized_narratives__ADE20k数据集中提取得出。

当前的拆分方式是:['100.unique', '100.repeat', '300.unique', '300.repeat', '1k.unique', '1k.repeat', '10k.unique', '10k.repeat']。

唯一的拆分方式确保了文本条目之间的唯一性。

重复的拆分方式是重复相同的10条唯一记录:这对于内存泄漏调试很有用,因为记录始终相同,因此排除了记录变化的影响。

默认的拆分方式是100.unique。

创建此数据集的完整过程,包括用于构建数据集的记录,都记录在 general-pmd-synthetic-testing.py 中。