数据集:

sadrasabouri/ShahNegar

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

machine-generated

源数据集:

original

许可:

mit
英文

ShahNegar(沙吉玛的绘图版本)

此数据集是使用DALL-E Mini(也称为 craiyon )生成的费尔多斯的《沙吉玛》(一组深受推崇的古老波斯诗歌)的绘图版本。您可以使用以下代码使用此数据集:

\
from datasets import load_dataset

dataset = load_dataset("sadrasabouri/ShahNegar")

数据集摘要

该数据集包含超过30,000张与《沙吉玛》中的相应文本对应的图像。对于每个《沙吉玛》段落,我们最多生成9张图像。与同一段落相对应的图像具有相同的id字段。在数据集中还进行了人工注释后处理,从中删除了一些有害/私有的生成图像。最终,我们得到了30,000多张256 * 256像素的图像。

支持的任务和排行榜

开源此数据集的主要目的是因为其艺术价值,但它还可以用于以下任务:

  • 文本到图像
  • 图像到文本(图像描述)

语言

《沙吉玛》通常用波斯语(波斯语)写成,但我们为此数据集使用的翻译版本- satoor 完全用英语编写,没有与相应的波斯诗歌对齐。我们计划尽快为数据集条目添加另一个字段,即相应的波斯诗歌。

数据集结构

数据字段

以下是我们数据集的一个实例:

\
{
    "image": <PIL Image Bytes>,
    "id": 0,
    "text": "He took up his abode in the mountains, and clad himself and his people in tiger-skins, and from him sprang all kindly nurture and the arts of clothing, till then unknown."
}
  • image:给定文本的图像。
  • id:文本的id(不用于图像)。
  • text:图像的英文文本。

数据拆分

此数据集仅有一个拆分(训练拆分)。

数据集创建

《沙吉玛》的翻译版本通常来自于 satoor 网站。我们首先从PDF中提取文本。然后,我们将段落分成句子,并将每个句子传递给DALL-E Mini模型的在线API。它为每个句子生成了九个图像。经过一些注释,我们得到了30,000多个图像。

注释

注释过程

在图像生成的过程中,我们注意到DALL-E模型对“伊朗”一词有偏见。它有一个偏见,即每个带有这个给定词的句子都会有来自伊朗政治人物的图片,这通常完全与上下文无关。注释过程主要用于处理这些图片。我们删除了那些似乎对这些人物有害和/或与上下文无关的图像。

谁是标注者?

标注此数据集的人是Mahsa Namdar和Sadra Sabouri。

个人和敏感信息

由于文本数据可以轻松下载,图片是通过图像生成模型生成的,因此此数据集中不应包含任何个人信息。如果不幸发现有害或侵犯个人信息的内容,请告诉我们。我们将尽快采取适当的行动。

使用数据的注意事项

数据的社会影响

此数据集主要是为了其艺术价值而发布的。为《沙吉玛》(这是最重要的波斯诗歌之一)生成图像的过程是我们宝贵的贡献。该数据集不仅可用于此目的,还可用作图像到文本和文本到图像任务的数据集。

偏见讨论

数据集的可能偏见将来自DALL-E Mini的偏见。实际上,检查数据集条目以找到该模型中的偏见是一个好的实践。其中一个值得一提的是DALL-E Mini模型对“伊朗”一词的偏见,几乎总是出现伊朗政治人物的图片。

其他已知限制

关于机器生成数据集的限制,文献中存在着持续的争论。有人认为,由于现今的模型并不完美-因此它们的输出也不完美,将这些人工生成的数据集作为新模型的输入并不是一个好主意。他们认为,这样做实际上是通过模型的准确性来限制我们的准确性,而模型的准确性是由提供原始数据集的模型确定的。

其他信息

数据集策划者

  • Emad Fatemizadeh:他最早提出了将波斯诗歌制作成图形版本的想法。
  • Sadra Sabouri:他查找了《沙吉玛》的翻译版本,从中提取和分词了诗歌,并使用在线的DALL-E Mini API从诗歌生成了图像。
  • Mahsa Namdar:她负责数据的注释后处理过程。

许可信息

MIT

引用信息

[需要更多信息]

贡献

感谢 @sadrasabouri 添加了此数据集。