数据集:

CShorten/ML-ArXiv-Papers

许可:

afl-3.0
英文

该数据集包含了带有"cs.LG"标签的ArXiv论文子集,该标签表示该论文是关于机器学习的。

核心数据集是从Kaggle上托管的完整ArXiv数据集( https://www.kaggle.com/datasets/Cornell-University/arxiv )中筛选出来的。原始数据集包含大约200万篇论文。经过分类筛选后,该数据集包含大约10万篇论文。

该数据集通过向ArXiv API发出请求来进行维护。

目前的数据集版本仅包含论文的标题和摘要。

ArXiv数据集包含其他一些特征,我们可能会在未来的发布版本中考虑将其包含在内。我们在路线图中已经突出显示了要集成的前两个特征:

  • 作者
  • 更新日期
  • 提交者
  • 评论
  • 期刊参考
  • doi
  • 报告编号
  • 类别
  • 许可证
  • 版本
  • 解析作者