数据集:

flax-sentence-embeddings/stackexchange_math_jsonl

任务:

问答

语言:

en

计算机处理:

multilingual

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

数据集卡片创建指南

数据集概述

我们从 Stack Exchange 个网络中自动提取了问题和答案(Q&A)对。Stack Exchange聚集了来自50个在线平台的许多Q&A社区,包括著名的Stack Overflow和其他技术站点。每个月有1亿开发者访问Stack Exchange。该数据集是一个平行语料库,每个问题都映射到最高评分的答案。数据集按社区划分,涵盖了各种领域,包括3D打印、经济学、树莓派或Emacs等。所有社区的详尽列表可在 here 中找到。

语言

Stack Exchange主要由英语(en)组成。

数据集结构

数据实例

每个数据样本的结构如下:

{'title_body': 'How to determine if 3 points on a 3-D graph are collinear? Let the points $A, B$ and $C$ be $(x_1, y_1, z_1), (x_2, y_2, z_2)$ and $(x_3, y_3, z_3)$ respectively. How do I prove that the 3 points are collinear? What is the formula?',
 'upvoted_answer': 'From $A(x_1,y_1,z_1),B(x_2,y_2,z_2),C(x_3,y_3,z_3)$ we can get their position vectors.\n\n$\\vec{AB}=(x_2-x_1,y_2-y_1,z_2-z_1)$ and $\\vec{AC}=(x_3-x_1,y_3-y_1,z_3-z_1)$.\n\nThen $||\\vec{AB}\\times\\vec{AC}||=0\\implies A,B,C$ collinear.',
 'downvoted_answer': 'If the distance between |AB|+|BC|=|AC| then A,B,C are collinear.'}

此特定示例对应于 following page

数据字段

数据集中包含以下信息的字段:

  • title_body:问题的标题和内容的连接
  • upvoted_answer:被赞最多的答案的内容
  • downvoted_answer:被踩最多的答案的内容
  • title:问题的标题

数据拆分

我们提供了三种数据拆分,只有在检索的字段结构上有所区别:

  • titlebody_upvoted_downvoted_answer:包括问题的标题和内容以及被赞最多和被踩最多的答案。
  • title_answer:包括问题的标题以及被赞最多的答案。
  • titlebody_answer:包括问题的标题和内容以及被赞最多的答案。
Number of pairs
titlebody_upvoted_downvoted_answer 17,083
title_answer 1,100,953
titlebody_answer 1,100,953

数据集创建

策划理由

我们主要为了句子嵌入训练而设计了此数据集。确实,句子嵌入可以使用对比学习设置进行训练,其中模型被训练以将每个句子与其对应的多个候选句子中的一对相关联。这种模型需要大量的示例才能发挥效果,因此数据集的创建可能很繁琐。像Stack Exchange这样的社区网络允许我们半自动构建许多示例。

源数据

源数据来自 Stack Exchange 的转储。

Initial Data Collection and Normalization

我们从数学社区收集了数据。

我们过滤掉标题或正文长度不到20个字符以及正文长度超过4096个字符的问题。在提取被赞最多的答案时,我们筛选了至少有100票差距的答案对。

Who are the source language producers?

问题和答案是由Stack Exchange的社区开发者撰写的。

附加信息

许可信息

请参阅 https://archive.org/details/stackexchange 中的许可证信息。

引用信息

@misc{StackExchangeDataset,
  author = {Flax Sentence Embeddings Team},
  title = {Stack Exchange question pairs},
  year = {2021},
  howpublished = {https://huggingface.co/datasets/flax-sentence-embeddings/},
}

贡献

感谢Flax句子嵌入团队添加此数据集。