数据集:

mteb/amazon_counterfactual

英文

亚马逊多语言反事实数据集

该数据集包含了从亚马逊产品评论数据集中抽样的句子,标注为反事实检测(CFD)二分类。反事实语句描述了未发生或无法发生的事件。反事实语句可以被识别为以下形式的陈述 - 如果p为真,则q为真(即前提(p)和结论(q)被认为是假的或未知的陈述)。

该数据集的关键特点包括:

  • 数据集是多语言的,包含英语、德语和日语的句子。
  • 标注由专业语言学家完成,确保了高质量。
  • 数据集补充了由专业语言学家制定的注释指南和定义。我们还提供了线索词列表,这些词列表对于反事实句子是典型的,并且用于初始数据过滤。线索词列表也是由专业语言学家编制的。

有关数据统计、数据收集和标注的详细描述,请参见 paper

GitHub存储库URL: https://github.com/amazon-research/amazon-multilingual-counterfactual-dataset

用法

您可以按如下方式加载每种语言:

from datasets import get_dataset_config_names

dataset_id = "SetFit/amazon_counterfactual"
# Returns ['de', 'en', 'en-ext', 'ja']
configs = get_dataset_config_names(dataset_id)
# Load English subset
dset = load_dataset(dataset_id, name="en")