数据集:

pszemraj/scientific_lay_summarisation-plos-norm

英文

科学通俗摘要 - PLOS - 标准化

这个数据集是对 tomasg25/scientific_lay_summarization 进行了修改,包含了经过预处理的科学通俗摘要。预处理包括修复标点符号和空白问题,并使用T5模型的分词器计算每个文本样本的标记长度。

原始数据集详细信息:

数据清理

对“article”和“summary”列中的文本进行了处理,以确保标点符号和空白一致。对每个文本样本应用了fix_punct_whitespace函数,其中包括:

  • 去除标点符号前的空格(括号除外)
  • 如果标点符号后缺失空格,则添加空格(括号除外)
  • 处理括号周围的空格
  • 如果闭括号后跟着一个词或开括号,则在闭括号后添加空格
  • 处理引号周围的空格
  • 处理单引号周围的空格
  • 处理数字中的逗号

分词

使用T5分词器按标记计算每个文本样本的长度。使用calculate_token_length函数对每个文本样本进行编码,并返回生成的标记数量。将生成的标记长度添加为数据框的新列。

数据格式

处理后的结果数据文件以Apache Parquet格式存储,并可以使用pandas库或Hugging Face Transformers软件包中的datasets库加载。用于摘要的相关列名和数据类型为

DatasetDict({
    train: Dataset({
        features: ['article', 'summary', 'section_headings', 'keywords', 'year', 'title', 'article_length', 'summary_length'],
        num_rows: 24773
    })
    test: Dataset({
        features: ['article', 'summary', 'section_headings', 'keywords', 'year', 'title', 'article_length', 'summary_length'],
        num_rows: 1376
    })
    validation: Dataset({
        features: ['article', 'summary', 'section_headings', 'keywords', 'year', 'title', 'article_length', 'summary_length'],
        num_rows: 1376
    })
})

使用方法

使用pandas或datasets加载所需的parquet文件。下面是使用pandas的示例:

# download the dataset files by clicking on 'use in datasets' and cloning 
import pandas as pd

# Load train set
df = pd.read_parquet("scientific_lay_summarisation-plos-norm/train.parquet")
print(df.info())

下面是使用datasets的示例:

from datasets import load_dataset

dataset = load_dataset("pszemraj/scientific_lay_summarisation-plos-norm")
train_set = dataset['train']
# Print the first few samples
for i in range(5):
    print(train_set[i])

标记长度

对于训练集: