文本到图像模型

介绍

此页面提供了 funNLP 仓库中引用的文本到图像模型的概述。文本到图像模型是根据文本描述生成视觉内容的 AI 系统，是多模态大型语言模型 (LLM) 的关键组成部分。这些模型能够让应用程序连接自然语言理解和视觉内容生成。

有关语音处理和视觉问答等其他多模态功能的信息，请参阅相关页面语音和音频处理和视觉问答。

仓库中的模型

funNLP 仓库引用了几个著名的文本到图像模型

DeepFloyd IF

DeepFloyd IF 是一个具有强大语言理解能力的开源文本到图像模型。其技术架构包括：

一个冻结的文本编码器
三个在不同分辨率下工作的连续像素扩散模块
在 COCO 数据集上具有零样本 FID 分数 6.66 的卓越性能指标

Stable Diffusion

Stable Diffusion 是一个广泛使用的开源文本到图像模型，它采用了潜在扩散技术。它因其在质量和计算效率之间的平衡而广受欢迎，使其能够在消费级硬件上运行。

DALL-E

DALL-E 是 OpenAI 开发的开创性文本到图像模型之一。它展示了根据详细的文本描述生成多样化且富有创意的视觉内容的能力，有助于确立文本到图像生成领域。

Dalle-mini

Dalle-mini（现称为 Craiyon）是 DALL-E 的一个更小、更易于访问的版本，它以降低的计算要求从文本提示生成图像，使其更容易被广泛使用。

来源：README.md313-314 README.md1012

提示生成工具

text2image-prompt-generator

该仓库包含一个专门用于为文本到图像模型生成高质量提示的工具

text2image-prompt-generator: A small model based on GPT-2 trained on 250,000 Midjourney prompts that can generate high-quality prompts for Midjourney

该工具可帮助用户创建更有效的输入描述，从而获得更高质量的生成图像。

来源：README.md316-317

免费文本到图像服务

该仓库列出了除 Midjourney 之外的几项易于访问的文本到图像服务

服务名称	描述
Bing Image Creator	微软的 AI 图像生成工具
Playground AI	用户友好的 AI 图像创建平台
DreamStudio	Stable Diffusion 的官方接口
Pixlr	具有 AI 生成功能的图像编辑器
Leonardo AI	用于生成艺术和插图的 AI 工具
Craiyon	以前称为 Dalle-mini，易于使用的图像生成

这些服务提供了用户友好的文本到图像生成界面，无需本地计算资源或技术专长。

来源：README.md317-318

技术架构

通用文本到图像扩散模型架构

该图说明了类似 Stable Diffusion 的现代文本到图像扩散模型的典型架构。该过程始于对文本提示进行编码，该编码对扩散模型进行条件约束，扩散模型将随机噪声输入迭代地去噪，生成所需图像的潜在表示，然后将其解码为最终的视觉输出。

来源：README.md313-314

与多模态 LLM 的集成

文本到图像模型构成了仓库中引用的多模态 LLM 生态系统的关键组成部分

此图显示了文本到图像模型如何在更广泛的多模态 AI 生态系统中发挥作用。它们是多模态 LLM 的一项功能，与语音处理和视觉问答等其他模态并列。

来源：README.md310-324

提示工程流程

该图说明了使用 text2image-prompt-generator 等专用工具的提示工程流程。这些工具有助于将基本的用户提示转换为增强的、更有效的提示，从而从文本到图像模型中获得更好的结果。