数据集:

nateraw/midjourney-texttoimage

许可:

cc0-1.0
英文

Midjourney用户提示和生成的图像(250k)数据集卡片

数据集摘要

常规背景

Midjourney 是一个独立的研究实验室,其广泛任务是“探索新的思维方式”。2022年,他们推出了一个文本到图像的服务,该服务根据自然语言提示生成与描述相符的视觉表达。他们的服务可通过公共 Discord server 进行访问,用户可以通过与 Midjourney bot 进行交互来使用。当使用自然语言进行查询时,机器人会返回四个低分辨率的图像,并提供进一步的选项,例如升级或重新生成原始图像的变体。

该数据集是通过在为期四周的时间(2022年6月20日至2022年7月17日)内从公共Discord服务器上抓取消息获取的。作者与Midjourney无关,并且仅出于促进文本生成图像模型研究的目的发布此数据(请参见下面的示例用途部分)。

Midjourney的Discord服务器

下面是在Discord上与Midjourney机器人互动的情况:

  • 发出初始提示:

  • 升级左下角的图像:

  • 请求左下角图像的变体:

  • 数据集格式

    通过在"general"类别(即没有专门主题的类别)下的十个公共Discord频道上进行抓取,生成了该数据集。文件名遵循 channel-name_yyyy_mm_dd.json 的模式。每个JSON文件中的 "messages" 字段包含一个 Message 对象的列表,每个用户查询一个对象。消息包括用户发出的提示的信息,生成图像的链接和其他元数据。参见 the companion notebook ,其中包含提取此类信息的实用工具。

    User Prompt Generated Image URL
    anatomical heart fill with deers, neon, pastel, artstation 1239321
    anatomical heart fill with jumping running deers, neon, pastel, artstation 12310321
    12311321 cat with many eyes floating in colorful glowing swirling whisps, occult inspired, emerging from the void, shallow depth of field 12312321

    数据集统计

    数据集包含:

    • 来自10个公共Discord频道的268k条消息,收集时间为28天。
    • 248k个用户生成的提示及其关联的生成图像,其中:
      • 60%是请求新的图像(对先前生成的图像的初始请求或变体请求),以及
      • 40%是对先前生成的图像进行升级的请求。

    提示分析

    下面是用户生成的文本提示中最突出的短语:

    提示长度从1到60个以空格分隔的标记不等,众数约为15个标记:

    有关用户如何控制生成图像的各个方面(光照、分辨率、摄影元素、艺术风格等)的详细分析,请参见 the companion notebook

    示例用途

    利用这个数据集的一种方式是帮助解决以下问题:使用文本到图像模型进行艺术创作的艺术家需要花费大量时间来精心制作文本提示。我们通过从Midjourney用户发出的查询中进行学习,构建了一个用于自动完成提示的附加模型。 This notebook 演示了如何从Discord消息中提取自然语言提示并创建一个用于训练的HuggingFace数据集。处理后的数据集可以在 succinctly/midjourney-prompts 找到,而提示生成器(一个在提示上进行微调的GPT-2模型)位于 succinctly/text2image-prompt-generator 处。

    下面是我们的模型如何帮助头脑风暴创造性提示并加快提示工程的速度的方式:

    作者

    该项目是 Iulia Turc Gaurav Nemade 的合作。我们最近离开了Google Research,开始了一项新的工作。欢迎在Twitter上与我们互动,或关注我们的进展 succinctly.ai

    有趣发现

    下面是一些引起我们注意的生成图像:

    12325321 12326321 12328321 12330321 12332321
    User Prompt Generated Image
    12324321 Historic Ensemble of the Potala Palace Lhasa, japanese style painting,trending on artstation, temple, architecture, fiction, sci-fi, underwater city, Atlantis , cyberpunk style, 8k revolution, Aokigahara fall background , dramatic lighting, epic, photorealistic, in his lowest existential moment with high detail, trending on artstation,cinematic light, volumetric shading ,high radiosity , high quality, form shadow, rim lights , concept art of architecture, 3D,hyper deatiled,very high quality,8k,Maxon cinema,visionary,imaginary,realistic,as trending on the imagination of Gustave Doré idea,perspective view,ornate light --w 1920 --h 1024
    a dark night with fog in a metropolis of tomorrow by hugh ferriss:, epic composition, maximum detail, Westworld, Elysium space station, space craft shuttle, star trek enterprise interior, moody, peaceful, hyper detailed, neon lighting, populated, minimalist design, monochromatic, rule of thirds, photorealistic, alien world, concept art, sci-fi, artstation, photorealistic, arch viz , volumetric light moody cinematic epic, 3d render, octane render, trending on artstation, in the style of dylan cole + syd mead + by zaha hadid, zaha hadid architecture + reaction-diffusion + poly-symmetric + parametric modelling, open plan, minimalist design 4k --ar 3:1
    12327321 fantasy art, hyperdetailed, panoramic view, foreground is a crowd of ancient Aztec robots are doing street dance battle , main part is middleground is majestic elegant Gundam mecha robot design with black power armor and unsettling ancient Aztec plumes and decorations scary looking with two magical neon swords combat fighting::2 , background is at night with nebula eruption, Rembrandt lighting, global illumination, high details, hyper quality, unreal negine, octane render, arnold render, vray render, photorealistic, 8k --ar 3:1 --no dof,blur,bokeh
    12329321 in side a Amethyst geode cave, 8K symmetrical portrait, trending in artstation, epic, fantasy, Klimt, Monet, clean brush stroke, realistic highly detailed, wide angle view, 8k post-processing highly detailed, moody lighting rendered by octane engine, artstation,cinematic lighting, intricate details, 8k detail post processing, --no face --w 512 --h 256
    12331321 whimsically designed gothic, interior of a baroque cathedral in fire with moths and birds flying, rain inside, with angels, beautiful woman dressed with lace victorian and plague mask, moody light, 8K photgraphy trending on shotdeck, cinema lighting, simon stålenhag, hyper realistic octane render, octane render, 4k post processing is very detailed, moody lighting, Maya+V-Ray +metal art+ extremely detailed, beautiful, unreal engine, lovecraft, Big Bang cosmology in LSD+IPAK,4K, beatiful art by Lêon François Comerre, ashley wood, craig mullins, ,outer space view, William-Adolphe Bouguereau, Rosetti --w 1040 --h 2080

    支持的任务和排行榜

    [需要更多信息]

    语言

    [需要更多信息]

    数据集结构

    数据实例

    [需要更多信息]

    数据字段

    [需要更多信息]

    数据分割

    [需要更多信息]

    数据集创建

    策划原因

    [需要更多信息]

    源数据

    初始数据收集和标准化

    [需要更多信息]

    谁是源语言的生产者?

    [需要更多信息]

    注释

    注释过程

    [需要更多信息]

    谁是注释者?

    [需要更多信息]

    个人和敏感信息

    [需要更多信息]

    使用数据的注意事项

    数据的社会影响

    [需要更多信息]

    偏见讨论

    [需要更多信息]

    其他已知限制

    [需要更多信息]

    附加信息

    数据集维护者

    该数据集由 @succinctlyai 分享

    许可信息

    此数据集的许可证是cc0-1.0

    引用信息

    [More Information Needed]
    

    贡献

    [需要更多信息]