数据集:
lewtun/github-issues
预印本库:
arxiv:2005.00614GitHub Issues是一个包含与? Datasets相关的GitHub问题和拉取请求的数据集。它旨在用于教育目的,并可用于语义搜索或多标签文本分类。每个GitHub问题的内容都以英语撰写,涉及自然语言处理、计算机视觉等领域。
对于每个被标记标签的任务,提供标签的简要描述、度量标准和建议的模型(如果有HuggingFace实现链接)。对于未涵盖的结构化标签集相关任务,提供类似的描述(将任务类别标签替换为其他合适的任务名称)。
简要概述数据集中所代表的语言。描述关于语言特性的相关细节,例如是否为社交媒体文本、非裔美国英语等。
如果适用,请提供 BCP-47 codes ,其中包括 primary language subtag (文本描述)、 script subtag 和/或 region subtag (如果有)。
提供数据集中典型实例的JSON格式示例和简要描述。如果有的话,提供进一步示例的链接。
{ 'example_field': ..., ... }
提供其他未在其他部分涵盖的任何其他信息。特别描述数据点之间的关系以及这些关系是否明确。
列出并描述数据集中存在的字段。提及它们的数据类型,以及它们是否在数据集当前支持的任何任务中用作输入或输出。如果数据具有跨域指数,请描述它们的属性,例如它们是在字符级别还是词级别,它们是否连续等。如果数据集包含示例ID,请说明它们是否具有固有含义,例如与其他数据集的映射或指向数据点之间的关系。
注意,可以使用Make Generator Data Fields的Show Markdown Data Fields输出来初始化描述,然后只需完善生成的描述即可。
如果存在多个拆分,请描述并命名数据集中的拆分。
如果使用了数据拆分的标准,请描述。如果拆分之间存在差异(例如,如果训练注释是由机器生成的,并且开发和测试注释是由人工创建的,或者如果不同的注释者为每个示例贡献了不同的注释),请在此处描述它们。
提供每个拆分的大小。如适用,提供特征的任何描述性统计信息,例如平均长度。例如:
Tain | Valid | Test |
---|---|---|
Input Sentences | ||
Average Sentence Length |
是什么需求推动了创建此数据集?将其组合的主要原因有哪些?
本节描述源数据(例如新闻文本和标题、社交媒体帖子、翻译句子等)
初始数据收集和规范化描述数据收集过程。描述对数据选择或筛选的任何标准。列出使用的关键词或搜索词。如果可能,请包含收集过程的运行时信息。
如果数据是从其他预先存在的数据集中收集的,请在此处链接到源数据,并链接到它们的 Hugging Face version 。
如果数据在收集后进行了修改或规范化(例如,如果数据是词汇标记化的),请描述处理过程和使用的工具。
谁是源语言出品方?注明数据是由人类还是机器生成的。描述最初创建数据的人员或系统。
如果可用,请提供源数据创建者的自报的人口统计信息或身份信息,但避免推断此信息。相反,请声明此信息是未知的。有关使用身份类别作为变量(特别是性别)的信息,请参见 Larson 2017 。
描述创建数据的条件(例如,如果制作人是群体劳动者,则说明使用了哪个平台;如果找到数据,则说明在哪个网站上找到数据)。如果提供了补偿,请在此处包含该信息。
描述在数据中表示或提到的其他人。如可能,请提供关于这些信息的参考资料。
如果数据集包含的注释不属于初始数据收集的一部分,请在以下段落中描述它们。
注释过程如果适用,请描述注释过程和使用的任何工具,或者另请说明。描述注释的数据量,如果没有全部。描述或引用提供给标注者的注释指南。如果可用,请提供标注者之间的注释者统计信息。描述任何注释验证过程。
注释者是谁?如果为源数据收集(例如类别标签或句法解析)收集了注释,请说明注释是由人类还是机器生成的。
描述最初创建注释的人员或系统,以及适用的选择标准(如果有)。
如果可用,请提供注释者的自报的人口统计信息或身份信息,但避免推断此信息。相反,请声明此信息是未知的。有关使用身份类别作为变量(特别是性别)的信息,请参见 Larson 2017 。
描述创建数据注释的条件(例如,如果注解者是众包工作者,则说明使用了哪个平台;如果找到数据,则说明在哪个网站上找到数据)。如果提供了补偿,请在此处提供该信息。
状态数据集是否使用身份类别,并描述该信息的使用方式。描述此信息的来源(例如自报、从个人资料收集、推断等)。有关使用身份类别作为变量(特别是性别)的信息,请参见 Larson 2017 。说明数据是否与个人相关联,并且能否直接或间接地通过数据集(即与其他数据结合在一起)识别出这些个体。
说明数据集是否包含可能被视为敏感的其他数据(例如,显示种族或族裔起源、性取向、宗教信仰、政治观点或工会会员身份的数据;金融或健康数据;生物特征或基因数据;政府识别表单,例如社会安全号码;犯罪历史)。
如果对数据进行了匿名处理,请描述匿名化过程。
请讨论您认为使用此数据集将如何影响社会的方式。
该陈述应包括积极的观点,例如概述通过使用该数据集开发的技术可能如何改善人们的生活,并讨论相关风险。这些风险可能涉及使受技术影响的人们对重要决策的理解不够透明,加强现有的有害偏见(偏见的具体细节应在下一节中讨论)等等。
还在此部分描述如果所提议的数据集中包含低资源或低代表性的语言。如果是这种情况或该任务对未服务社区产生任何影响,请在此详细说明。
提供可能在数据中反映的特定偏差的描述,并说明是否采取了任何措施来减少其影响。
对于维基百科文本,请参见例如 Dinan et al 2020 on biases in Wikipedia (esp. Table 1) ,或 Blodgett et al 2020 供你参考有关该主题的更广泛讨论。
如果已进行分析以量化这些偏差,请在此处添加简要摘要和研究链接。
如果数据集的研究描述了数据集的其他限制,例如注释工件,请在此处概述并引用它们。
列出收集数据集的人员及其所属机构。如果已知资助信息,请在此处包含。
提供许可证和许可证网页的链接(如果有)。
提供数据集的 BibTex 格式引用。例如:
@article{article_id, author = {Author List}, title = {Dataset Paper Title}, journal = {Publication Venue}, year = {2525} }
如果数据集有一个 DOI ,请在此处提供。
感谢 @lewtun 添加此数据集。