数据集:

BramVanroy/chatgpt-dutch-simplification

任务:

文生文

子任务:

text-simplification

语言:

计算机处理:

monolingual

大小:

1K<n<10K

许可:

cc-by-nc-sa-4.0

数据集介绍文件清单

英文

ChatGPT荷兰语简化数据集卡片

数据集摘要

该数据集是由Charlotte Van de Velde作为她在KU Leuven人工智能硕士课程中的研究生论文的一部分创建的。Charlotte的导师是Vincent Vandeghinste和Bram Vanroy。该数据集包含荷兰语原句和用ChatGPT生成的对齐的简化句子。所有的拆分加起来，该数据集有1267个条目。

Charlotte使用了以下提示的gpt-3.5-turbo：

Schrijf een moeilijke zin, en daarna een simpele versie ervan. De simpele versie moet makkelijker zijn om te lezen en te begrijpen. Schrijf "Moeilijke zin: " aan het begin van de moeilijke zin, en "Simpele versie: " aan het begin van de simpele versie.

参数：

温度=0.9
最大令牌数=1000
top p=1
频率惩罚=0.1
存在惩罚=0

Bram Vanroy没有参与数据收集，只是生成了数据拆分，并将数据集以原样提供在此在线平台上。拆分是使用 the following script 生成的。

支持的任务和排行榜

用于文本到文本的生成，具体而言是文本简化。

语言

荷兰语

数据集结构

数据实例

{
    "source": "Het fenomeen van acquisitie van taalkennis vindt plaats door middel van het opdoen van ervaringen met de taal in diverse contexten.",
    "target": "Je leert een taal door de taal te gebruiken in verschillende situaties."
}

数据字段

source: 荷兰语中的"更困难"句子
target: 简化的荷兰语句子

数据拆分

训练集：1013个
验证集：126个
测试集：128个

有关数据使用的免责声明

此文本（部分或全部）是使用GPT-3（gpt-3.5-turbo）生成的，该模型是OpenAI的大规模语言生成模型。在生成草稿语言后，作者对语言进行了审查、编辑和修订，对此出版物的内容负有最终责任。

如果您使用了这个数据集，您还必须遵守 Sharing 和 Usage 政策。

如他们明确在他们的 Terms of Use 中所述，特别是2c.iii，"[您不能]使用服务的输出建立与OpenAI竞争的模型"。这意味着您不能使用此数据集来构建旨在与OpenAI商业竞争的模型。 As far as I am aware ，这是一个特定的限制，应作为当前许可证的附录。

作者:

BramVanroy

数据集大小:

325.2 KB

ChatGPT荷兰语简化 数据集卡片