数据集:

edarchimbaud/news-sp500

英文

"news-sp500" 数据集卡片

数据集概述

"news-sp500" 数据集提供了与标普500指数中的公司相关的新闻文章。

支持的任务和排行榜

该数据集可用于各种自然语言处理任务,如文本分类、情感分析、信息提取等。它没有与之关联的特定排行榜。

语言

该数据集包含多种语言的新闻文章。

数据集结构

数据实例

该数据集由[1563]个数据实例组成。

数据字段

  • symbol (字符串): 代表用于标识公司的股票代码或缩写。
  • body (字符串): 新闻文章的主要内容。
  • publisher (字符串): 出版商或新闻机构的名称。
  • publish_time (时间戳[ns, tz=GMT]): 表示新闻文章的发布时间,以GMT时区为准。
  • title (字符串): 新闻文章的标题。
  • url (字符串): 原始新闻文章的URL或链接。
  • uuid (字符串): 新闻文章的唯一标识符。

数据分割

该数据集只有一个名为“train”的数据集切分。

数据集创建

策划理由

"news-sp500" 数据集的创建是为了提供与标普500指数中的公司相关的新闻文章的集合,以供研究和分析目的使用。

源数据

初始数据收集和标准化

数据来源于各种在线新闻来源,并经过标准化处理保持一致。

注释

注释过程

[N/A]

注释者是谁?

[N/A]

个人和敏感信息

[N/A]

使用数据时的注意事项

数据集的社会影响

[N/A]

对数据偏差的讨论

[N/A]

其他已知限制

[N/A]

附加信息

数据集策划者

"news-sp500" 数据集由 https://edarchimbaud.substack.com 收集。

许可信息

"news-sp500" 数据集使用 MIT License 授权。

引用信息

https://edarchimbaud.substack.com ,"news-sp500" 数据集,GitHub 仓库, https://github.com/edarchimbaud

贡献

感谢 @edarchimbaud 添加了该数据集。