ccdv/arxiv-classification | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

数据集:

ccdv/arxiv-classification

任务:

文本分类

子任务:

multi-class-classification topic-classification

语言:

大小:

10K<n<100K

其他:

long context long+context

数据集介绍文件清单

英文

Arxiv分类：Arxiv论文的分类（11个类别）。

该数据集用于长文本分类（文档长度超过4k个标记）。从《通过循环注意力学习从局部词语缀影中进行长文档分类》中复制。

@ARTICLE{8675939,
  author={He, Jun and Wang, Liqun and Liu, Liu and Feng, Jiao and Wu, Hao},
  journal={IEEE Access}, 
  title={Long Document Classification From Local Word Glimpses via Recurrent Attention Learning}, 
  year={2019},
  volume={7},
  number={},
  pages={40707-40718},
  doi={10.1109/ACCESS.2019.2907992}
  }

查看： https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8675939
查看： https://github.com/LiqunW/Long-document-dataset

含有11个略微不平衡的类别，33k篇Arxiv论文分为3个部分：训练集（28k）、验证集（2.5k）和测试集（2.5k）。

2个配置：

默认
no_ref，去除文档内对类别的引用（例如：[cs.LG] -> []）

与 run_glue.py 脚本兼容：

export MODEL_NAME=roberta-base
export MAX_SEQ_LENGTH=512

python run_glue.py \
  --model_name_or_path $MODEL_NAME \
  --dataset_name ccdv/arxiv-classification  \
  --do_train \
  --do_eval \
  --max_seq_length $MAX_SEQ_LENGTH \
  --per_device_train_batch_size 8 \
  --gradient_accumulation_steps 4 \
  --learning_rate 2e-5 \
  --num_train_epochs 1 \
  --max_eval_samples 500 \
  --output_dir tmp/arxiv

作者:

ccdv

数据集大小:

1.87 GB