数据集:
ccdv/patent-classification
专利分类:专利和摘要的分类(9个类别)。
该数据集用于长文本分类(非摘要文档的长度超过512个标记)。数据采样自"Eva Sharma、陈立和王鹿"的《BIGPATENT:一个用于抽象和连贯摘要的大规模数据集》。
包含9个不平衡类别,共35,000个专利和摘要,分为3个部分:训练集(25,000)、验证集(5,000)和测试集(5,000)。
请注意,文档是非大写的,并且由作者分隔开(通过空格)。
与 run_glue.py 脚本兼容:
export MODEL_NAME=roberta-base export MAX_SEQ_LENGTH=512 python run_glue.py \ --model_name_or_path $MODEL_NAME \ --dataset_name ccdv/patent-classification \ --do_train \ --do_eval \ --max_seq_length $MAX_SEQ_LENGTH \ --per_device_train_batch_size 8 \ --gradient_accumulation_steps 4 \ --learning_rate 2e-5 \ --num_train_epochs 1 \ --max_eval_samples 500 \ --output_dir tmp/patent