数据集:

pszemraj/summcomparer-gauntlet-v0p1

语言:

en

大小:

1K<n<10K

其他:

gauntlet

许可:

cc-by-4.0
英文

SummComparer - v0.1 版本

比较分析各种日常文档的概述模型

数据集主机/上传 SummComparer 。这只是一个托管页面,请查看最新信息的存储库。

  • 这是一项正在进行中的工作,将随着时间的推移进行更新。
  • 此卡片上的PRs/讨论已禁用,但欢迎讨论/想法/分析等,请在 github repo discussions 中发布,以便所有内容都在一个地方。
  • 请注意,此数据集旨在分析不同模型的摘要质量,而不是用来训练更多的模型。

EDA链接

在基本的数据探索之外 colab notebook 一些由pandas-profiling驱动的静态网站:

使用数据集

注意:**数据集的当前版本仍然基本处于“原始”格式。已进行了一些基本清理,但将来可能需要更多清理。

在存储库中,数据集分为两个不同的表。一个包含带有长文本和ID等的原始文档,另一个包含其他所有内容。

  • input_documents.parquet:此文件包含了参照gauntlet_master_data.json中定义的元数据/ID字段的gauntlet的输入文档。
  • gauntlet_summaries.parquet:此文件包含了gauntlet的输出摘要,具有超参数/模型作为列。所有摘要(行)都通过以source_doc为前缀的列与其源文档(列)进行映射。

如果要将它们连接在一起,请使用source_doc_id进行连接。在这里,它们已经为您合并。您可以从这里加载并使用数据集:

from datasets import load_dataset

dataset = load_dataset("pszemraj/summcomparer-gauntlet-v0p1",)
dataset

输出应该为(对于v0.1.2):

DatasetDict(
    {
        train: Dataset(
            {
                features: [
                    "GAUNTLET_PATH",
                    "file_name",
                    "summary",
                    "min_length",
                    "max_length",
                    "no_repeat_ngram_size",
                    "encoder_no_repeat_ngram_size",
                    "repetition_penalty",
                    "num_beams",
                    "num_beam_groups",
                    "length_penalty",
                    "early_stopping",
                    "do_sample",
                    "model_name",
                    "date",
                    "length",
                    "format",
                    "extractiveness",
                    "temperature",
                    "token_batch_length",
                    "penalty_alpha",
                    "top_k",
                    "batch_stride",
                    "max_len_ratio",
                    "directory-topic-tag",
                    "runtime",
                    "source_doc_filename",
                    "source_doc_id",
                    "source_doc_domain",
                    "document_text",
                ],
                num_rows: 2043,
            }
        )
    }
)

OpenAI使用条款通知

此数据集包含由GPT-4和GPT-3.5-turbo生成的参考摘要。虽然这对于分析而非训练不应该成问题,但请注意,OpenAI生成的文本受其使用条款的约束。

如有必要/相关,此数据可以进行过滤/丢弃,以便符合您对数据的使用要求。