比较分析各种日常文档的概述模型
数据集主机/上传 SummComparer 。这只是一个托管页面,请查看最新信息的存储库。
在基本的数据探索之外 colab notebook 一些由pandas-profiling驱动的静态网站:
注意:**数据集的当前版本仍然基本处于“原始”格式。已进行了一些基本清理,但将来可能需要更多清理。
在存储库中,数据集分为两个不同的表。一个包含带有长文本和ID等的原始文档,另一个包含其他所有内容。
如果要将它们连接在一起,请使用source_doc_id进行连接。在这里,它们已经为您合并。您可以从这里加载并使用数据集:
from datasets import load_dataset
dataset = load_dataset("pszemraj/summcomparer-gauntlet-v0p1",)
dataset
输出应该为(对于v0.1.2):
DatasetDict(
{
train: Dataset(
{
features: [
"GAUNTLET_PATH",
"file_name",
"summary",
"min_length",
"max_length",
"no_repeat_ngram_size",
"encoder_no_repeat_ngram_size",
"repetition_penalty",
"num_beams",
"num_beam_groups",
"length_penalty",
"early_stopping",
"do_sample",
"model_name",
"date",
"length",
"format",
"extractiveness",
"temperature",
"token_batch_length",
"penalty_alpha",
"top_k",
"batch_stride",
"max_len_ratio",
"directory-topic-tag",
"runtime",
"source_doc_filename",
"source_doc_id",
"source_doc_domain",
"document_text",
],
num_rows: 2043,
}
)
}
)
此数据集包含由GPT-4和GPT-3.5-turbo生成的参考摘要。虽然这对于分析而非训练不应该成问题,但请注意,OpenAI生成的文本受其使用条款的约束。
如有必要/相关,此数据可以进行过滤/丢弃,以便符合您对数据的使用要求。