数据集:

ccdv/patent-classification

英文

专利分类:专利和摘要的分类(9个类别)。

该数据集用于长文本分类(非摘要文档的长度超过512个标记)。数据采样自"Eva Sharma、陈立和王鹿"的《BIGPATENT:一个用于抽象和连贯摘要的大规模数据集》。

包含9个不平衡类别,共35,000个专利和摘要,分为3个部分:训练集(25,000)、验证集(5,000)和测试集(5,000)。

请注意,文档是非大写的,并且由作者分隔开(通过空格)。

run_glue.py 脚本兼容:

export MODEL_NAME=roberta-base
export MAX_SEQ_LENGTH=512

python run_glue.py \
  --model_name_or_path $MODEL_NAME \
  --dataset_name ccdv/patent-classification  \
  --do_train \
  --do_eval \
  --max_seq_length $MAX_SEQ_LENGTH \
  --per_device_train_batch_size 8 \
  --gradient_accumulation_steps 4 \
  --learning_rate 2e-5 \
  --num_train_epochs 1 \
  --max_eval_samples 500 \
  --output_dir tmp/patent