数据集:
shibing624/sts-sohu2021
2021搜狐校园文本匹配算法大赛数据集
分为 A 和 B 两个文件,A 和 B 文件匹配标准不一样。其中 A 和 B 文件又分为“短短文本匹配”、“短长文本匹配”和“长长文本匹配”。 A 文件匹配标准较为宽泛,两段文字是同一个话题便视为匹配,B 文件匹配标准较为严格,两段文字须是同一个事件才视为匹配。
数据类型:
type | 数据类型 |
---|---|
dda | 短短匹配 A 类 |
ddb | 短短匹配 B 类 |
dca | 短长匹配 A 类 |
dcb | 短长匹配 B 类 |
cca | 长长匹配 A 类 |
ccb | 长长匹配 B 类 |
支持的任务:支持中文文本匹配任务,文本相似度计算等相关任务。
中文匹配任务的结果目前在顶会paper上出现较少,我罗列一个我自己训练的结果:
排行榜: NLI_zh leaderboard
数据集均是简体中文文本。
'train' 的一个示例如下所示。
# A 类 短短 样本示例 { "sentence1": "小艺的故事让爱回家2021年2月16日大年初五19:30带上你最亲爱的人与团团君相约《小艺的故事》直播间!", "sentence2": "香港代购了不起啊,宋点卷竟然在直播间“炫富”起来", "label": 0 } # B 类 短短 样本示例 { "sentence1": "让很多网友好奇的是,张柏芝在一小时后也在社交平台发文:“给大家拜年啦。”还有网友猜测:谢霆锋的经纪人发文,张柏芝也发文,并且配图,似乎都在证实,谢霆锋依旧和王菲在一起,而张柏芝也有了新的恋人,并且生了孩子,两人也找到了各自的归宿,有了自己的幸福生活,让传言不攻自破。", "sentence2": "陈晓东谈旧爱张柏芝,一个口误暴露她的秘密,难怪谢霆锋会离开她", "label": 0 }
标签: 0表示不匹配,1表示匹配。
所有拆分的数据字段相同。
> wc -l *.jsonl 11690 cca.jsonl 11690 ccb.jsonl 11592 dca.jsonl 11593 dcb.jsonl 11512 dda.jsonl 11501 ddb.jsonl 69578 total
作为中文NLI(natural langauge inference)数据集,这里把这个数据集上传到huggingface的datasets,方便大家使用。
Who are the source language producers?数据集的版权归原作者所有,使用各数据集时请尊重原数据集的版权。
Who are the annotators?原作者。
该数据集是作为评估文本的表示系统,特别是那些由表示学习方法引入的系统,在给定上下文中预测真实条件的基准而开发的。
在这样的任务中获得成功的系统可能在建模语义表示方面更加成功。
用于学术研究。
shibing624 上传了此数据集。