数据集:

so_stacksample

任务:

文生文

语言:

en

计算机处理:

monolingual

大小:

1M<n<10M

语言创建人:

crowdsourced

批注创建人:

no-annotation

源数据集:

original
英文

SO StackSample数据集卡片

数据集摘要

此数据集包含来自Stack Overflow编程问答网站的10%问题和答案的文本。

它以三个表的形式组织:

问题表包含非删除的所有Stack Overflow问题的标题、正文、创建日期、关闭日期(如果适用)、分数和所有者ID,其中id是10的倍数。答案表包含每个问题的答案的正文、创建日期、分数和所有者ID。ParentId列链接回问题表。标签表包含这些问题的标签。

支持的任务和排行榜

示例项目包括:

  • 从问题文本中识别标签
  • 根据问题文本预测问题是否会被点赞、踩或关闭
  • 预测问题的回答时间
  • 开放域问答

语言

英语(en)和编程语言。

数据集结构

数据实例

答案数据实例:

{
  "Id": { # Unique ID given to the Answer post
    "feature_type": "Value",
    "dtype": "int32"
  },
  "OwnerUserId": { # The UserID of the person who generated the Answer on StackOverflow. -1 means NA
    "feature_type": "Value",
    "dtype": "int32"
  },
  "CreationDate": { # The date the Answer was generated. Follows standard datetime format.
    "feature_type": "Value",
    "dtype": "string"
  },
  "ParentId": { # Refers to the `Id` of the Question the Answer belong to.
    "feature_type": "Value",
    "dtype": "int32"
  },
  "Score": { # The sum of up and down votes given to the Answer. Can be negative.
    "feature_type": "Value",
    "dtype": "int32"
  },
  "Body": { # The body content of the Answer.
    "feature_type": "Value",
    "dtype": "string"
  }
}

问题数据实例:

{
  "Id": { # Unique ID given to the Question post
    "feature_type": "Value",
    "dtype": "int32"
  },
  "OwnerUserId": { # The UserID of the person who generated the Question on StackOverflow. -1 means NA.
    "feature_type": "Value",
    "dtype": "int32"
  },
  "CreationDate": { # The date the Question was generated. Follows standard datetime format.
    "feature_type": "Value",
    "dtype": "string"
  },
  "ClosedDate": { # The date the Question was generated. Follows standard datetime format. Can be NA.
    "feature_type": "Value",
    "dtype": "string"
  },
  "Score": { # The sum of up and down votes given to the Question. Can be negative.
    "feature_type": "Value",
    "dtype": "int32"
  },
  "Title": { # The title of the Question.
    "feature_type": "Value",
    "dtype": "string"
  },
  "Body": { # The body content of the Question.
    "feature_type": "Value",
    "dtype": "string"
  }
}

标签数据实例:

{
  "Id": { # ID of the Question the tag belongs to
    "feature_type": "Value",
    "dtype": "int32"
  },
  "Tag": { # The tag name
    "feature_type": "Value",
    "dtype": "string"
  }
}

`

数据字段

答案数据字段:- ID:答案帖子的唯一ID OwnerUserId:在Stack Overflow上生成答案的用户ID。-1表示NA" CreationDate:"生成答案的日期。遵循标准的日期时间格式。" ParentId:"引用答案所属问题的ID。" Score:"答案获得的赞和踩的总数。可以为负数。" Body:"答案的正文内容。

问题数据字段:

  • ID:问题帖子的唯一ID。
  • OwnerUserId:在Stack Overflow上生成问题的用户ID。-1表示NA。
  • CreationDate:生成问题的日期。遵循标准的日期时间格式。
  • ClosedDate:生成问题的日期。遵循标准的日期时间格式。可能为空。
  • Score:问题获得的赞和踩的总数。可能为负数。
  • Title:问题的标题。
  • Body:问题的正文内容。

标签数据字段:

  • ID:标签所属问题的ID。
  • Tag:标签名称。

数据拆分

数据集有3个拆分:

  • 答案
  • 问题
  • 标签

数据集创建

策划理由

Kaggle上还有所有R语言问题和所有Python问题的数据集,但是这个数据集特别适用于跨多种语言进行分析。

数据来源

初始数据收集和规范化

[需要更多信息]

谁是数据源的语言生成者?

StackOverflow的用户。

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

此数据包含可能识别StackOverflow个人用户的信息。这些信息是自报告的。

[需要更多信息]

使用数据的注意事项

数据集的社会影响

StackOverflow的答案不能保证是安全、可靠或正确的。一些答案可能故意不安全,如用户 zys 在答案 https://stackoverflow.com/a/35571883/5768407 中展示的目的是绕过Google Play商店安全检查的解决方案。这样的答案可能导致使用这些数据的偏见模型,并进一步传播不安全和不可靠的编程实践。

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

所有Stack Overflow用户的贡献都在CC-BY-SA 3.0许可下,要求署名。

引用信息

内容来自Stack Overflow。

贡献

感谢用户 @ncoop57 添加此数据集。