数据集:

ccdv/arxiv-classification

英文

Arxiv分类:Arxiv论文的分类(11个类别)。

该数据集用于长文本分类(文档长度超过4k个标记)。从《通过循环注意力学习从局部词语缀影中进行长文档分类》中复制。

@ARTICLE{8675939,
  author={He, Jun and Wang, Liqun and Liu, Liu and Feng, Jiao and Wu, Hao},
  journal={IEEE Access}, 
  title={Long Document Classification From Local Word Glimpses via Recurrent Attention Learning}, 
  year={2019},
  volume={7},
  number={},
  pages={40707-40718},
  doi={10.1109/ACCESS.2019.2907992}
  }

含有11个略微不平衡的类别,33k篇Arxiv论文分为3个部分:训练集(28k)、验证集(2.5k)和测试集(2.5k)。

2个配置:

  • 默认
  • no_ref,去除文档内对类别的引用(例如:[cs.LG] -> [])

run_glue.py 脚本兼容:

export MODEL_NAME=roberta-base
export MAX_SEQ_LENGTH=512

python run_glue.py \
  --model_name_or_path $MODEL_NAME \
  --dataset_name ccdv/arxiv-classification  \
  --do_train \
  --do_eval \
  --max_seq_length $MAX_SEQ_LENGTH \
  --per_device_train_batch_size 8 \
  --gradient_accumulation_steps 4 \
  --learning_rate 2e-5 \
  --num_train_epochs 1 \
  --max_eval_samples 500 \
  --output_dir tmp/arxiv