本文档涵盖了使用OpenAI的DALL-E模型进行图像生成的内容,包括较新的GPT图像模型、提示工程技术以及图像处理能力。有关图像理解和分析的信息,请参阅图像理解与视觉。
本页面提供了使用OpenAI图像生成API生成和编辑图像的技术指导。它涵盖了从文本提示到图像创建的工作流程、针对特定视觉效果的高级提示策略,以及包括使用遮罩进行修复(inpainting)和扩展(outpainting)在内的图像编辑技术。
图像生成过程遵循提示创建、API调用和图像处理的标准模式
基本工作流程使用 client.images.generate() 方法和 gpt-image-1 模型
来源: examples/Generate_Images_With_GPT_Image.ipynb131-136
生成的图像以Base64编码的JSON格式返回,并通过PIL进行优化
来源: examples/Generate_Images_With_GPT_Image.ipynb146-153
GPT图像模型擅长根据复杂详细的提示进行角色创作。
来源: examples/Generate_Images_With_GPT_Image.ipynb98-119
针对 gpt-image-1 模型的有效提示遵循分层结构
| 组件 | 目的 | 示例 |
|---|---|---|
| 主体定义 | 主要角色/对象 | "Blobby Alien Character" |
| 物理特性 | 材质和纹理 | "Semi-translucent, bio-luminescent goo" |
| 视觉细节 | 颜色、特征、比例 | "Iridescent lavender with neon pink veins" |
| 行为特征 | 动作和姿态 | "Constant wiggling, leaves glowing trails" |
| 环境背景 | 设置和交互 | "Can stick to walls and ceilings" |
来源: examples/Generate_Images_With_GPT_Image.ipynb98-119
图像编辑需要创建遮罩来指定修改区域。
系统支持不同遮罩格式以适应各种编辑场景。
| 遮罩类型 | 文件格式 | 用例 | Alpha通道 |
|---|---|---|---|
| Alpha遮罩 | 带透明度的PNG | 平滑边缘混合 | 必填 |
| 二值遮罩 | 黑白PNG | 锐利边缘编辑 | 可选 |
| 像素级遮罩 | 高分辨率PNG | 精细细节编辑 | 支持 |
来源: examples/imgs/mask_alpha.png examples/imgs/mask.png examples/imgs/mask_edit.png
图像生成工作流程使用标准化的目录结构。
来源: examples/Generate_Images_With_GPT_Image.ipynb76-78
生成的图像使用PIL参数进行优化。
| 参数 | 值 | 目的 |
|---|---|---|
| 大小 | (300, 300) | 减小文件大小 |
| 重采样 | Image.LANCZOS | 高质量缩放 |
| 格式 | JPEG | 压缩效率 |
| 质量 | 80 | 平衡大小/质量 |
| 优化 | True | 额外压缩 |
来源: examples/Generate_Images_With_GPT_Image.ipynb151-153
OpenAI客户端设置遵循标准模式。
来源: examples/Generate_Images_With_GPT_Image.ipynb64-66
图像生成响应需要对Base64数据进行特殊处理。
来源: examples/Generate_Images_With_GPT_Image.ipynb147-151
gpt-image-1 模型比以前的DALL-E版本提供了增强的功能。
| 功能 | 功能 | 实现 |
|---|---|---|
| 指令遵循 | 复杂提示遵循 | 详细角色规范 |
| 照片级真实感 | 高质量真实图像 | 增强的训练数据 |
| 世界知识 | 上下文理解 | 广泛知识整合 |
| 精细细节控制 | 精确特征指定 | 分层提示 |
来源: examples/Generate_Images_With_GPT_Image.ipynb16-21
标准图像生成支持特定的尺寸配置。