数据集:
pszemraj/scientific_lay_summarisation-plos-norm
这个数据集是对 tomasg25/scientific_lay_summarization 进行了修改,包含了经过预处理的科学通俗摘要。预处理包括修复标点符号和空白问题,并使用T5模型的分词器计算每个文本样本的标记长度。
原始数据集详细信息:
对“article”和“summary”列中的文本进行了处理,以确保标点符号和空白一致。对每个文本样本应用了fix_punct_whitespace函数,其中包括:
使用T5分词器按标记计算每个文本样本的长度。使用calculate_token_length函数对每个文本样本进行编码,并返回生成的标记数量。将生成的标记长度添加为数据框的新列。
处理后的结果数据文件以Apache Parquet格式存储,并可以使用pandas库或Hugging Face Transformers软件包中的datasets库加载。用于摘要的相关列名和数据类型为
DatasetDict({ train: Dataset({ features: ['article', 'summary', 'section_headings', 'keywords', 'year', 'title', 'article_length', 'summary_length'], num_rows: 24773 }) test: Dataset({ features: ['article', 'summary', 'section_headings', 'keywords', 'year', 'title', 'article_length', 'summary_length'], num_rows: 1376 }) validation: Dataset({ features: ['article', 'summary', 'section_headings', 'keywords', 'year', 'title', 'article_length', 'summary_length'], num_rows: 1376 }) })
使用pandas或datasets加载所需的parquet文件。下面是使用pandas的示例:
# download the dataset files by clicking on 'use in datasets' and cloning import pandas as pd # Load train set df = pd.read_parquet("scientific_lay_summarisation-plos-norm/train.parquet") print(df.info())
下面是使用datasets的示例:
from datasets import load_dataset dataset = load_dataset("pszemraj/scientific_lay_summarisation-plos-norm") train_set = dataset['train'] # Print the first few samples for i in range(5): print(train_set[i])
对于训练集: