数据集:

BramVanroy/chatgpt-dutch-simplification

任务:

文生文

语言:

nl

计算机处理:

monolingual

大小:

1K<n<10K
英文

ChatGPT荷兰语简化 数据集卡片

数据集摘要

该数据集是由Charlotte Van de Velde作为她在KU Leuven人工智能硕士课程中的研究生论文的一部分创建的。Charlotte的导师是Vincent Vandeghinste和Bram Vanroy。该数据集包含荷兰语原句和用ChatGPT生成的对齐的简化句子。所有的拆分加起来,该数据集有1267个条目。

Charlotte使用了以下提示的gpt-3.5-turbo:

Schrijf een moeilijke zin, en daarna een simpele versie ervan. De simpele versie moet makkelijker zijn om te lezen en te begrijpen. Schrijf "Moeilijke zin: " aan het begin van de moeilijke zin, en "Simpele versie: " aan het begin van de simpele versie.

参数:

  • 温度=0.9
  • 最大令牌数=1000
  • top p=1
  • 频率惩罚=0.1
  • 存在惩罚=0

Bram Vanroy没有参与数据收集,只是生成了数据拆分,并将数据集以原样提供在此在线平台上。拆分是使用 the following script 生成的。

支持的任务和排行榜

用于文本到文本的生成,具体而言是文本简化。

语言

荷兰语

数据集结构

数据实例

{
    "source": "Het fenomeen van acquisitie van taalkennis vindt plaats door middel van het opdoen van ervaringen met de taal in diverse contexten.",
    "target": "Je leert een taal door de taal te gebruiken in verschillende situaties."
}

数据字段

  • source: 荷兰语中的"更困难"句子
  • target: 简化的荷兰语句子

数据拆分

  • 训练集:1013个
  • 验证集:126个
  • 测试集:128个

有关数据使用的免责声明

此文本(部分或全部)是使用GPT-3(gpt-3.5-turbo)生成的,该模型是OpenAI的大规模语言生成模型。在生成草稿语言后,作者对语言进行了审查、编辑和修订,对此出版物的内容负有最终责任。

如果您使用了这个数据集,您还必须遵守 Sharing Usage 政策。

如他们明确在他们的 Terms of Use 中所述,特别是2c.iii,"[您不能]使用服务的输出建立与OpenAI竞争的模型"。这意味着您不能使用此数据集来构建旨在与OpenAI商业竞争的模型。 As far as I am aware ,这是一个特定的限制,应作为当前许可证的附录。