比较分析各种日常文档的概述模型
数据集主机/上传 SummComparer 。这只是一个托管页面,请查看最新信息的存储库。
在基本的数据探索之外 colab notebook 一些由pandas-profiling驱动的静态网站:
注意:**数据集的当前版本仍然基本处于“原始”格式。已进行了一些基本清理,但将来可能需要更多清理。
在存储库中,数据集分为两个不同的表。一个包含带有长文本和ID等的原始文档,另一个包含其他所有内容。
如果要将它们连接在一起,请使用source_doc_id进行连接。在这里,它们已经为您合并。您可以从这里加载并使用数据集:
from datasets import load_dataset dataset = load_dataset("pszemraj/summcomparer-gauntlet-v0p1",) dataset
输出应该为(对于v0.1.2):
DatasetDict( { train: Dataset( { features: [ "GAUNTLET_PATH", "file_name", "summary", "min_length", "max_length", "no_repeat_ngram_size", "encoder_no_repeat_ngram_size", "repetition_penalty", "num_beams", "num_beam_groups", "length_penalty", "early_stopping", "do_sample", "model_name", "date", "length", "format", "extractiveness", "temperature", "token_batch_length", "penalty_alpha", "top_k", "batch_stride", "max_len_ratio", "directory-topic-tag", "runtime", "source_doc_filename", "source_doc_id", "source_doc_domain", "document_text", ], num_rows: 2043, } ) } )
此数据集包含由GPT-4和GPT-3.5-turbo生成的参考摘要。虽然这对于分析而非训练不应该成问题,但请注意,OpenAI生成的文本受其使用条款的约束。
如有必要/相关,此数据可以进行过滤/丢弃,以便符合您对数据的使用要求。