数据集:
flax-sentence-embeddings/stackexchange_math_jsonl
任务:
问答子任务:
closed-domain-qa语言:
en计算机处理:
multilingual语言创建人:
found批注创建人:
found源数据集:
original许可:
cc-by-nc-sa-4.0我们从 Stack Exchange 个网络中自动提取了问题和答案(Q&A)对。Stack Exchange聚集了来自50个在线平台的许多Q&A社区,包括著名的Stack Overflow和其他技术站点。每个月有1亿开发者访问Stack Exchange。该数据集是一个平行语料库,每个问题都映射到最高评分的答案。数据集按社区划分,涵盖了各种领域,包括3D打印、经济学、树莓派或Emacs等。所有社区的详尽列表可在 here 中找到。
Stack Exchange主要由英语(en)组成。
每个数据样本的结构如下:
{'title_body': 'How to determine if 3 points on a 3-D graph are collinear? Let the points $A, B$ and $C$ be $(x_1, y_1, z_1), (x_2, y_2, z_2)$ and $(x_3, y_3, z_3)$ respectively. How do I prove that the 3 points are collinear? What is the formula?', 'upvoted_answer': 'From $A(x_1,y_1,z_1),B(x_2,y_2,z_2),C(x_3,y_3,z_3)$ we can get their position vectors.\n\n$\\vec{AB}=(x_2-x_1,y_2-y_1,z_2-z_1)$ and $\\vec{AC}=(x_3-x_1,y_3-y_1,z_3-z_1)$.\n\nThen $||\\vec{AB}\\times\\vec{AC}||=0\\implies A,B,C$ collinear.', 'downvoted_answer': 'If the distance between |AB|+|BC|=|AC| then A,B,C are collinear.'}
此特定示例对应于 following page 。
数据集中包含以下信息的字段:
我们提供了三种数据拆分,只有在检索的字段结构上有所区别:
Number of pairs | |
---|---|
titlebody_upvoted_downvoted_answer | 17,083 |
title_answer | 1,100,953 |
titlebody_answer | 1,100,953 |
我们主要为了句子嵌入训练而设计了此数据集。确实,句子嵌入可以使用对比学习设置进行训练,其中模型被训练以将每个句子与其对应的多个候选句子中的一对相关联。这种模型需要大量的示例才能发挥效果,因此数据集的创建可能很繁琐。像Stack Exchange这样的社区网络允许我们半自动构建许多示例。
源数据来自 Stack Exchange 的转储。
Initial Data Collection and Normalization我们从数学社区收集了数据。
我们过滤掉标题或正文长度不到20个字符以及正文长度超过4096个字符的问题。在提取被赞最多的答案时,我们筛选了至少有100票差距的答案对。
Who are the source language producers?问题和答案是由Stack Exchange的社区开发者撰写的。
请参阅 https://archive.org/details/stackexchange 中的许可证信息。
@misc{StackExchangeDataset, author = {Flax Sentence Embeddings Team}, title = {Stack Exchange question pairs}, year = {2021}, howpublished = {https://huggingface.co/datasets/flax-sentence-embeddings/}, }
感谢Flax句子嵌入团队添加此数据集。