AIGC 实战笔记：文字、图像、音频和视频的生成流程

以实践视角梳理 AIGC 在文字、图像、音频和视频生成中的流程和工具，结合代码示例（OpenAI API、简易生成网络）展示技术原理，并讨论工具应用和伦理注意事项。

星河入梦发布于 2026/6/23更新于 2026/7/12 浏览

生成式 AI（AIGC）正在改变内容生产的方方面面，从写文案到画图，从作曲到剪视频，都有了自动化的可能。它不是魔法，而是大量数据训练出来的模型在背后工作。这里聊聊我在实践中看到的流程和坑。

文字生成：不只是聊天机器人

自然语言生成（NLG）现在很成熟了。以 GPT 为例，你可以用它写文章、营销文案甚至代码注释。实际工作中，我常用 Python 调用 OpenAI 的 API：

import openai

openai.api_key = 'your-api-key'

response = openai.Completion.create(
    engine="text-davinci-003",
    prompt="写一篇关于 AI 在营销中的应用的小文章",
    max_tokens=300
)
print(response.choices[0].text.strip())

生成速度很快，但内容往往偏通用，需要你根据特定场景再加料润色。如果你让它理解更长的上下文，效果会更好些——这背后是自然语言理解（NLU）在起作用。

图像生成：设计门槛正在降低

DALL·E、MidJourney 这类工具让非设计人员也能快速产出不错的视觉素材。广告创意、海报设计、社交媒体配图都可以用 AI 先出一版，再人工微调。像 Canva、Adobe Firefly 已经把 AI 集成到编辑器里，你用不着写代码。

但从技术原理看，底层通常是 GAN 或扩散模型。为了直观理解，可以看一个极简的生成网络，它把随机噪声映射到像素空间：

from keras.models import Sequential
from keras.layers import Dense
import numpy as np

model = Sequential()
model.add(Dense(256, input_shape=(100,)))
model.add(Dense())
model.add(Dense())
model.add(Dense(, activation=))

noise = np.random.normal(, , (, ))
generated_image = model.predict(noise)
(, generated_image)