菜单

使用 DALL-E 生成图像

相关源文件

本文档涵盖了使用OpenAI的DALL-E模型进行图像生成的内容,包括较新的GPT图像模型、提示工程技术以及图像处理能力。有关图像理解和分析的信息,请参阅图像理解与视觉

目的与范围

本页面提供了使用OpenAI图像生成API生成和编辑图像的技术指导。它涵盖了从文本提示到图像创建的工作流程、针对特定视觉效果的高级提示策略,以及包括使用遮罩进行修复(inpainting)和扩展(outpainting)在内的图像编辑技术。

核心图像生成工作流程

图像生成过程遵循提示创建、API调用和图像处理的标准模式

基本图像生成

基本工作流程使用 client.images.generate() 方法和 gpt-image-1 模型

来源: examples/Generate_Images_With_GPT_Image.ipynb131-136

图像处理管道

生成的图像以Base64编码的JSON格式返回,并通过PIL进行优化

来源: examples/Generate_Images_With_GPT_Image.ipynb146-153

高级 Prompt 技术

详细角色规范

GPT图像模型擅长根据复杂详细的提示进行角色创作。

来源: examples/Generate_Images_With_GPT_Image.ipynb98-119

复杂场景的提示结构

针对 gpt-image-1 模型的有效提示遵循分层结构

组件目的示例
主体定义主要角色/对象"Blobby Alien Character"
物理特性材质和纹理"Semi-translucent, bio-luminescent goo"
视觉细节颜色、特征、比例"Iridescent lavender with neon pink veins"
行为特征动作和姿态"Constant wiggling, leaves glowing trails"
环境背景设置和交互"Can stick to walls and ceilings"

来源: examples/Generate_Images_With_GPT_Image.ipynb98-119

图像编辑与处理

基于遮罩的编辑

图像编辑需要创建遮罩来指定修改区域。

遮罩类型及应用

系统支持不同遮罩格式以适应各种编辑场景。

遮罩类型文件格式用例Alpha通道
Alpha遮罩带透明度的PNG平滑边缘混合必填
二值遮罩黑白PNG锐利边缘编辑可选
像素级遮罩高分辨率PNG精细细节编辑支持

来源: examples/imgs/mask_alpha.png examples/imgs/mask.png examples/imgs/mask_edit.png

图像编辑工作流程

文件管理与优化

目录结构

图像生成工作流程使用标准化的目录结构。

来源: examples/Generate_Images_With_GPT_Image.ipynb76-78

图像优化参数

生成的图像使用PIL参数进行优化。

参数目的
大小(300, 300)减小文件大小
重采样Image.LANCZOS高质量缩放
格式JPEG压缩效率
质量80平衡大小/质量
优化True额外压缩

来源: examples/Generate_Images_With_GPT_Image.ipynb151-153

API集成模式

客户端配置

OpenAI客户端设置遵循标准模式。

来源: examples/Generate_Images_With_GPT_Image.ipynb64-66

响应处理

图像生成响应需要对Base64数据进行特殊处理。

来源: examples/Generate_Images_With_GPT_Image.ipynb147-151

模型能力与限制

GPT图像模型特性

gpt-image-1 模型比以前的DALL-E版本提供了增强的功能。

功能功能实现
指令遵循复杂提示遵循详细角色规范
照片级真实感高质量真实图像增强的训练数据
世界知识上下文理解广泛知识整合
精细细节控制精确特征指定分层提示

来源: examples/Generate_Images_With_GPT_Image.ipynb16-21

尺寸和格式选项

标准图像生成支持特定的尺寸配置。

来源: examples/Generate_Images_With_GPT_Image.ipynb135