数据集:
ccdv/arxiv-classification
Arxiv分类:Arxiv论文的分类(11个类别)。
该数据集用于长文本分类(文档长度超过4k个标记)。从《通过循环注意力学习从局部词语缀影中进行长文档分类》中复制。
@ARTICLE{8675939, author={He, Jun and Wang, Liqun and Liu, Liu and Feng, Jiao and Wu, Hao}, journal={IEEE Access}, title={Long Document Classification From Local Word Glimpses via Recurrent Attention Learning}, year={2019}, volume={7}, number={}, pages={40707-40718}, doi={10.1109/ACCESS.2019.2907992} }
含有11个略微不平衡的类别,33k篇Arxiv论文分为3个部分:训练集(28k)、验证集(2.5k)和测试集(2.5k)。
2个配置:
与 run_glue.py 脚本兼容:
export MODEL_NAME=roberta-base export MAX_SEQ_LENGTH=512 python run_glue.py \ --model_name_or_path $MODEL_NAME \ --dataset_name ccdv/arxiv-classification \ --do_train \ --do_eval \ --max_seq_length $MAX_SEQ_LENGTH \ --per_device_train_batch_size 8 \ --gradient_accumulation_steps 4 \ --learning_rate 2e-5 \ --num_train_epochs 1 \ --max_eval_samples 500 \ --output_dir tmp/arxiv