数据集:

times_of_india_news_headlines

英文

Times of India新闻标题数据集卡片

数据集摘要

这个新闻数据集是一个从2001年初到2020年中印度子大陆的重要事件的持久历史档案,由印度记者实时记录。它包含大约330万个Times of India发布的事件。Times Group作为一个新闻机构,覆盖了亚洲广泛的受众,在每天英文文章的数量上超过了其他机构。由于多年来每天的大量发布,这个数据提供了对印度社会、其优先事项、事件、问题和讨论要点及其随时间发展的深入了解。可以根据一个或多个方面,将这个数据集切分成更小的部分进行更加专注的分析。

支持的任务和排行榜

[需要更多信息]

语言

数据集中的文本为英文。

数据集结构

数据实例

 {
    'publish_date':  '20010530',
    'headline_category': city.kolkata,
    'headline_text': "Malda fake notes"
 }

数据字段

  • publish_date: 发布日期,格式为yyyyMMdd
  • headline_category: 事件类别,ASCII编码,点分隔的值
  • headline_text: 文章标题,英文(2020-07-10)

数据分割

这个数据集没有被分割。

数据集创建

策划理由

[需要更多信息]

数据来源

初始数据收集和规范化

[需要更多信息]

谁是源语言的制作者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

数据集由Rohit Kulkarni创建。

许可信息

数据根据 CC0: Public Domain

引用信息

@data{DVN/DPQMQH_2020,
author = {Kulkarni, Rohit},
publisher = {Harvard Dataverse},
title = {{Times of India News Headlines}},
year = {2020},
version = {V1},
doi = {10.7910/DVN/DPQMQH},
url = {https://doi.org/10.7910/DVN/DPQMQH}
}

贡献

感谢 @tanmoyio 添加了这个数据集。