数据集:
BramVanroy/chatgpt-dutch-simplification
该数据集是由Charlotte Van de Velde作为她在KU Leuven人工智能硕士课程中的研究生论文的一部分创建的。Charlotte的导师是Vincent Vandeghinste和Bram Vanroy。该数据集包含荷兰语原句和用ChatGPT生成的对齐的简化句子。所有的拆分加起来,该数据集有1267个条目。
Charlotte使用了以下提示的gpt-3.5-turbo:
Schrijf een moeilijke zin, en daarna een simpele versie ervan. De simpele versie moet makkelijker zijn om te lezen en te begrijpen. Schrijf "Moeilijke zin: " aan het begin van de moeilijke zin, en "Simpele versie: " aan het begin van de simpele versie.
参数:
Bram Vanroy没有参与数据收集,只是生成了数据拆分,并将数据集以原样提供在此在线平台上。拆分是使用 the following script 生成的。
用于文本到文本的生成,具体而言是文本简化。
荷兰语
{ "source": "Het fenomeen van acquisitie van taalkennis vindt plaats door middel van het opdoen van ervaringen met de taal in diverse contexten.", "target": "Je leert een taal door de taal te gebruiken in verschillende situaties." }
此文本(部分或全部)是使用GPT-3(gpt-3.5-turbo)生成的,该模型是OpenAI的大规模语言生成模型。在生成草稿语言后,作者对语言进行了审查、编辑和修订,对此出版物的内容负有最终责任。
如果您使用了这个数据集,您还必须遵守 Sharing 和 Usage 政策。
如他们明确在他们的 Terms of Use 中所述,特别是2c.iii,"[您不能]使用服务的输出建立与OpenAI竞争的模型"。这意味着您不能使用此数据集来构建旨在与OpenAI商业竞争的模型。 As far as I am aware ,这是一个特定的限制,应作为当前许可证的附录。