数据集:
codeparrot/codeparrot-valid-near-deduplication
这是一个来自Github的Python文件数据集。我们对这个数据集进行了近似去重,从 codeparrot-clean 个文件中筛选出了 codeparrot-clean-train 个文件。精确去重可能会错过相当数量的近似相同的文件。我们使用了MinHash和Jaccard阈值(默认为0.85)来创建重复的集群,然后根据精确的Jaccard相似度将这些集群缩减为唯一的文件。有关更多详细信息,请参阅这个链接。