数据集:

emrecan/nli_tr_for_simcse

英文

NLI-TR用于监督SimCSE的数据集

这个数据集是 NLI-TR 数据集的修改版本。它的预期用途是训练用于句子嵌入的监督 SimCSE 模型。生成此数据集的步骤如下所示:

  • 合并snli_tr和multinli_tr子集的训练部分。
  • 找到每个具有蕴含假设和矛盾假设的前提。
  • 将找到的三元组写入sent0(前提)、sent1(蕴含假设)、hard_neg(矛盾假设)的格式。
  • 请参阅此 Colab Notebook 了解在土耳其句子上的训练和评估。