数据集:

HuggingFaceM4/general-pmd-synthetic-testing-with-embeddings

英文

此数据集的设计用于测试。它的来源是 general-pmd/localized_narratives__ADE20k 数据集。

当前的拆分方式是:['100.unique','100.repeat','300.unique','300.repeat','1k.unique','1k.repeat','10k.unique','10k.repeat']。

unique 的拆分方式确保文本条目的独一无二。

repeat 的拆分方式是重复使用相同的 10 条记录:- 这对于内存泄漏调试很有用,因为记录始终相同,因此消除了记录变化的影响。

默认拆分方式为 100.unique。

创建此数据集的完整过程,包括使用哪些记录构建它,已在 general-pmd-synthetic-testing.py 中记录。