AI 绘画技术背景与主流模型对比
最近几年,AI 绘画技术发展迅速,从生成模糊图像到创作细节丰富的艺术作品,变化巨大。开发者在集成 AI 绘图功能前,需了解市面上的工具及其特点。
目前主流的 AI 绘画模型主要分为两类:闭源 API 服务型(如 OpenAI DALL·E)和开源可本地部署型(如 Stable Diffusion)。选择取决于项目需求。
1. DALL·E 系列 (OpenAI) 这是 OpenAI 推出的文本生成图像模型,主流版本为 DALL·E 2 和 DALL·E 3。
- 优点:生成质量高,DALL·E 3 在细节、文本遵循度和艺术感上表现优异。通过简单 API 调用,无需关心底层算力,集成快,适合快速原型或高质量生产应用。
- 缺点:闭源服务,按调用收费。无法微调模型,内容受使用政策限制。
2. Stable Diffusion (Stability AI) 这是一个开源的扩散模型。
- 优点:完全开源免费,社区活跃。可本地运行,拥有控制权,支持微调(LoRA/Checkpoint),无直接调用成本(仅硬件成本)。
- 缺点:部署维护有门槛,需 GPU 资源。效果依赖提示词工程和参数调整,新手需更多调试。
选择建议:
- 若目标是快速上线稳定功能且愿意付费,选 DALL·E API。
- 若需要高度定制、特定风格或对隐私/成本有极端要求,且有技术能力,选 Stable Diffusion。
本文聚焦于使用 OpenAI 的 DALL·E API,因其接入路径最快捷。
OpenAI DALL·E API 调用详解
1. 前期准备:认证与密钥 需在 OpenAI 平台创建 API Key。Key 用于身份验证,切勿硬编码在客户端代码中,尤其是前端项目。
2. 核心 API:图像生成端点
接口地址:https://api.openai.com/v1/images/generations。发送 POST 请求并附带参数。
关键请求参数解析:
model: 指定模型,如dall-e-2或dALL-e-3。prompt: 文本描述。越详细具体越好。n: 生成数量。DALL·E 3 仅支持n=1。size: 尺寸。DALL·E 2 支持256x256,512x512,1024x1024;DALL·E 3 支持1024x1024,1792x1024,1024x1792。quality: (仅 DALL·E 3)standard或hd。style: (仅 DALL·E 3)vivid或natural。response_format:url(临时链接) 或b64_json(Base64 字符串)。
3. 响应处理
API 返回 JSON。url 格式含临时链接(一小时失效);b64_json 格式含 Base64 字符串,可直接解码保存。
完整的 Python 实战代码示例
以下 Python 脚本演示从生成到保存的全过程。确保已安装 openai 和 库。

