跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

Midjourney 使用指南:从原理到操作详解

Midjourney AI 绘图工具的基本概念、算法原理及操作指南。涵盖 GAN 与扩散模型基础,Discord 环境配置,常用指令如/imagine、/blend 等,以及参数后缀--ar、--s、--v 等的详细解析。旨在帮助用户掌握图像生成技巧,优化创作流程。

SparkGeek发布于 2026/4/6更新于 2026/5/2027 浏览
Midjourney 使用指南:从原理到操作详解

一、认识 Midjourney

Midjourney是由 David Holz 2022 年 3 月推出的一款 AI 制图工具。处于聊天软件 Discord 中,主要功能涵盖图像生成、风格化、变体生成、图生图等,且提供高级工具精细控制生成过程。使用上需创建账户、获邀请后通过 Discord 频道输入文字提示来操作。相比于 SD(Stable Diffusion),MJ 随机性更大,细节处理精度不够。

二、Midjourney 算法原理

MJ 基于深度学习中的生成对抗网络(GAN)和扩散模型等技术。

  • 生成对抗网络(GAN):由生成器和判别器组成。生成器的任务是根据输入的随机噪声和文本描述等信息,生成尽可能逼真的图像;判别器则负责判断输入的图像是真实的还是由生成器生成的。在训练过程中,生成器和判别器相互博弈,不断优化自身的参数,以提高生成图像的质量和判别器的准确性,最终使生成器能够生成足以'欺骗'判别器的高质量图像。
  • 扩散模型:扩散模型通过逐步向数据中添加噪声,然后学习如何去噪来生成新的数据。在图像生成中,它从一个完全随机的噪声图像开始,经过多个扩散步骤,逐渐调整图像的像素值,使其接近真实图像。每一步都根据当前的图像和一些条件信息(如文本提示)来预测下一步的图像,最终生成符合条件的高质量图像。

三、Midjourney 基本操作指南

1. 环境准备

Midjourney 为国外模型,需确保网络可访问 Discord 服务。

登录成功后建立服务器,点击左下角绿色的 + 号,点击亲自创建,点击仅供我和我的朋友使用,上传头像和名字,完成服务器建立。点击左下角小眼睛,去发现搜索 MJ 机器人,并将其添加到自己的服务器。

文章配图

文章配图

文章配图

下载 Discord 下载官网。

文章配图

2. 使用演示及基本分区讲解

使用演示

首先找到我们自己的服务器,在对话框中先输入'/',就会弹出常用栏,白色帆船生成较为写实的作品,绿色帆船生成偏向于动漫风格的作品。(我们可以根据下图理解一下两种风格的差异)

文章配图

文章配图

基本分区讲解
  • 重绘:可以在新的界面对原来的提示词进行加工再次生成新的图像。如下图,点击重绘标识,弹出黑框进行对原来的关键词进行修改加上'in the room'(所有输入都应在英文状态下,不然会报错)。

文章配图

文章配图

这时我们发现,我们用这个重绘图标进行重绘时,确实加入房子的元素,但是改变了小狗的人物一致性,如何在不改变小狗人物一致性的基础上加入房间的元素呢?后续会详细讲解。

  • U1 U2 U3 U4:一次操作可以生成四张图,如何查看单张图呢?如何单张图放大呢?这时我们需要用到第一行的按钮。

文章配图

当我们要查看第一张图片,点击 U1,则会出现以下界面。

文章配图

功能区解析:

Upscale(Subtle) 和 Upscale (Creative):1:1 放大。Subtle 细节变精细 & Creative 细节少量修改。

文章配图

文章配图

文章配图

Vary(Subtle) 和 Vary(Creative):图片变化,点击按钮,修改提示词,进行变化。

  • Subtle:调整较为细微,如微调颜色、光影,或对图像细节进行优化,使图像更精致,整体风格和构图基本不变。
  • Creative:会较大幅度地改变图像元素、构图、颜色等,能为图像添加或移除元素,创造出与原图不同风格或效果的新图像。

效果图如下:

文章配图

文章配图

Vary (region):局部重绘,选中需要修改的位置,改变关键词,从而在不改变其他部分的前提下对所选中区域局部重绘。

效果图如下:

文章配图

文章配图

辨析:Vary(Subtle)&Vary(Creative) 和 Vary (region) 的不同

作用范围

  • Vary Subtle 和 Vary Creative:是对整个图像进行变化,在原图基础上生成一张新图,不过变化程度不同,Vary Subtle 变化微弱,Vary Creative 变化强烈。
  • Vary Region:针对图像的特定区域进行修改,仅重绘选定区域,其余部分保持不变,能实现局部的精细调整。

变化程度

  • Vary Subtle:调整较为细微,如微调颜色、光影,或对图像细节进行优化,使图像更精致,整体风格和构图基本不变。
  • Vary Creative:会较大幅度地改变图像元素、构图、颜色等,能为图像添加或移除元素,创造出与原图不同风格或效果的新图像。
  • Vary Region:变化程度取决于输入的修改指令和选定区域大小,可从细微调整到较大改变,如将人物手中物品替换是小变化,改变人物姿态表情等则是较大变化。

适用场景

  • Vary Subtle:适用于对原图像整体满意,只需小幅度优化细节,或希望在保持原有风格基础上增强细腻感的情况。
  • Vary Creative:适用于希望对原图像进行大幅度修改或重新构思,探索不同创作方向,以获得全新视觉效果的情况。
  • Vary Region:适用于对图像整体满意但局部需修改,如人物服装、配饰、背景元素等,可在不影响其他部分的前提下进行局部创意调整。

扩图:Zoom out 1.5x、2.0x 与 Custom zoom

Zoom out 1.5x、2.0x:固定倍数扩图,不改变原图。 Custom zoom:自定义扩图,通过改变关键词--ar 后的图片比例,修改扩图倍数。

文章配图

文章配图

文章配图

文章配图

箭头延展画布:选定画布延展方向,添加关键词,丰富画布内容,对原主体形象不改变。

文章配图

文章配图

文章配图

文章配图

文章配图

辨析 Zoom Out 扩图和箭头扩图的不同:

扩展方向

  • Zoom Out:是对图像的整体边界进行向外扩展,可同时向图像的四周填充细节,使画面内容更丰富,展现更广阔场景。
  • 箭头扩图:只能沿上、下、左、右四个特定方向对图像进行扩展,每次扩展区域的大小是原图大小的 1/3,以原图为中心点往箭头所指方向延伸。

扩展比例

  • Zoom Out:提供了 1.5 倍、2 倍以及 1.0 到 2.0 之间的自定义缩放选择,用户能更灵活地控制图像的扩展程度。
  • 箭头扩图:无法直接控制每次扩展的具体比例,扩展的距离相对固定,为原图大小的 1/3,但可通过多次点击箭头来持续扩展。

适用场景

  • Zoom Out:适合用于需要对图像整体进行放大以展现更多细节或扩展场景的情况,如将一幅风景图扩展成更广阔的画面,或把人物半身像扩成全身像等,常用于生成壁纸等需要更大尺寸图像的创作。
  • 箭头扩图:更适用于需要在某个特定方向上延伸图像内容的情况,比如想查看图像中某个元素在该方向上的延续场景,或是构建具有方向性的连续画面等。

对原图像的依赖程度

  • Zoom Out:主要依据原图像的内容和风格,按照一定的算法填充扩展区域的细节,使新生成的部分与原图像在风格和细节上保持较好的连贯性和一致性。
  • 箭头扩图:同样依赖原图像,但由于是单方向扩展,若在扩展方向上原图像的内容信息较少,可能需要更明确具体的 Prompt 来指导新增区域的内容生成,以避免出现画面不协调或内容不连贯的情况。
  • V1 V2 V3 V4:生成图片变体。点击 V1、V2、V3、V4 按钮,会分别以对应的图片为基础,重新生成一组四张与之相似但又有细节变化的新图片,帮助用户对不满意的图片进行微调、优化和二次创作,以获得更符合需求的图像。

效果图如下:

文章配图

文章配图

3. 命令解析

使用 MJ 时,我们首先要进入自己的服务器。输入命令时要先输入'/',任何命令一定要在英文状态下!

/settings 设置:输入'/settings'后,点击回车则会出现以下界面:

文章配图

选择你要查看的大模型。

文章配图

文章配图

文章配图

文章配图

原始模式:raw mode -与其他具有较高风格化设置的模式相比,raw mode 生成的图像不会过度修饰或添加额外的艺术化处理,更注重呈现提示词所表达的真实场景、物体或概念。

  • 临时启用可在输入提示词后添加'--style raw'参数;若想永久启用,则需进入设置界面,点击 raw mode 按钮来激活。 -生成的图像具有高度真实感和自然度,类似真实拍摄或写实绘画的效果时,raw mode 是较好的选择,如生成自然风景、人物肖像等主题的图像。

风格化设置:Stylize low/med/high/very high

  • stylize low:生成的图像与提示词关联性强,较为贴近原始描述,但艺术性相对较弱,如--s 50。
  • stylize med:默认设置,能在遵循提示词的基础上提供适当的图像变化和艺术感,如--s 100。
  • stylize high:图像变化较大,艺术性增强,与提示词的关联性有所降低,如--s 250。
  • stylize very high:图像变化非常大,更具艺术性和创意性,但可能与提示词的联系不紧密,如--s 750。

个性化图像:Personalization 生成一定数量的图片后,Midjourney 会记录用户喜欢的图像类型,并在后续生成时参考这些喜好。

公共模式与隐身模式:Public mode

  • 公共模式:默认开启,用户生成的图片会出现在'MJ 画廊'中,其他用户可见。
  • 隐身模式:专业版或企业版会员用户可关闭公共模式切换至此,开启后生成的图片不会出现在公共画廊中。

混音模式:Remix mode 对生成的图片进行微调时,会弹出'修改提示词'的窗口,可通过修改提示词来控制图片的效果,达到改变图片设置、光线、主体进化或实现复杂构图等目的。

变化模式:Strong Variation / Subtle Variation Mode

  • Strong Variation Mode:生成的 4 张图片差异性大,能为用户提供更多不同风格和细节的图像选择。
  • Subtle Variation Mode:生成的 4 张图片差异性小,更适合在已有喜欢的图像基础上进行微调或获取相似但略有不同的变体。

出图速度:mode

  • Turbo mode:涡轮模式,出图速度是放松模式的 4 倍,一般专业会员才能使用。
  • Fast mode:快速模式,出图速度是放松模式的 2 倍,基础会员可以使用,但有时间限制。
  • Relax mode:放松模式,可以无限出图,但所需时间较长。

重置设置:reset settings 可将所有修改后的设置恢复成默认设置,即使用最新模型(v6)和中等风格化设置,而公共/隐身模式、混音、变化和生成速度等偏好不受影响。

/imagine 创作:通过输入关键词,创作图像

输入'/'选择风格机器人模型,prompt 后加关键词

文章配图

文章配图

关键词写法:主题 + 场景 + 风格 + 画质 + 设置

文章配图

/info 查询:可查询账号基本信息

输入/info,选择模型,即可查看基本信息

文章配图

文章配图

/help 帮助手册:查看使用教程

输入/help,选择机器人,即可查看用户手册,了解使用指南。

文章配图

文章配图

/blend 溶图:融合多张图片风格和元素,生成一组新图

输入/blend 指令,选择机器人模型,添加溶图图片

文章配图

文章配图

文章配图

/show 查看曾经图片

输入/show +job id 即可查看原来图片

文章配图

文章配图

文章配图

job id 获取方式:

文章配图

文章配图

文章配图

/prefer auto_dm:开始自动发送保存 job id

文章配图

文章配图

文章配图

这一功能可以帮我们随时找到自己的作品,方便修改,相当于一个源文件。

/describe 描述:通过图片描绘关键词

输入/describe 选择大模型,选择插入图片的方式,插入图片,回车即可查看模型写的四组关键词。

文章配图

文章配图

文章配图

这个功能可以通过图片,反向推断关键词。从而可以自主创作出自己喜欢的图片。

/shorten 精简关键词:使关键词更精简,更有效

文章配图

文章配图

文章配图

/prefer suffix 提示词预设

输入指令,点击 new_value + 预设提示词+imagine 生成图片,再次输入指令 回车 则关闭这一功能。

文章配图

文章配图

文章配图

文章配图

文章配图

4. 后缀解析

  1. --niji:指定使用 Niji 模型,用于生成动漫风格等特定类型的图像,无严格取值范围,有 niji4、niji5、niji6 等版本。
  2. --video:用于生成与初始图像网格生成过程相关的短视频,无严格取值范围。在图片生成结束后,点击小信封,Midjourney 机器人会将视频通过私信发送给用户,只对四张图拼起来的网格图片有效。
  3. --sref:样式参考指令,需在后面加上图片的链接,让生成的图像参考指定图片的风格,无严格取值范围。
  4. --cref:角色参考指令,用于保持角色在不同图像中的一致性,后面需加图片链接,只用于 v6 和 niji6 版本,无严格取值范围。

--cw:内容权重参数,需配合 --cref 使用。取值范围是 0-100,默认值是 100。值越高,生成图像越注重参考图中角色的整体特征。--cref 空格 + 链接 + 空格--cw 数值

文章配图

--sw:风格强度参数,需配合 --sref 使用。取值范围是 0-1000,默认值是 100。数值越高,生成图像的风格越接近参考图像。--sref 空格 + 链接 + 空格--sw 数值

文章配图

--r:用于重复任务。取值为正整数,默认是 1。在 --fast 和 --turbo 模式下使用,设置 --r 值后,会按同一套参数运行 r 次,每次生成 4 张图片。

文章配图

--tile:创建无缝平铺的图案或纹理,可用于生成壁纸、包装纸等。无严格取值范围限制,在 Midjourney 的 5、5.1、5.2 和 6 等版本上可用。

文章配图

--no:去除画面中的某些元素,后面可跟多个英文单词,词与词之间用逗号隔开,没有严格的取值范围限制。如 --no flower,dog 可让生成的图像中不出现'花'和'狗'。

文章配图

--seed:设置随机数种子。取值范围理论上是 0-4294967295,使用相同的 seed 值和完全一样的提示词,将产生相似的初始四宫格图像。若不设置该参数,系统会默认下发一个随机数值.

文章配图

--iw:调整垫图对生成图片的影响程度,只用在图生图。取值范围是 0-2,默认值是 1。值越大,参考图对生成图片的影响越大。垫图步骤:复制图片链接,/imagine + 链接 + 空格 + 提示词 + 空格 +--iw

文章配图

文章配图

文章配图

--stop:用于提前停止图像生成任务。取值范围是 10-100,默认值为 100。若设置为较低的值,如 --stop 30,可提前停止生成,获得较模糊、细节较少的图像。

文章配图

--q:控制图片质量。取值范围一般为 0.25、0.5、1、2,默认值是 1。数值越大,图片质量越高,细节越丰富,生成速度越慢。

文章配图

--s:控制图片的风格化程度。取值范围一般认为是 0-1000,默认值是 100。数值越高,Midjourney 的默认美学风格越强,与 prompt 描述的联系可能越低。

文章配图

--c:控制一次生成的 4 张图片的区别程度,即混沌值。取值范围是 0-100,默认值是 0。值越大,4 张图片的风格和构图差异越大。

文章配图

--ar:用于调整生成图像的宽高比,格式为 --ar 宽:高,取值可为任意整数比,默认值是 1:1。

文章配图

注意:使用后缀时格式应为:提示词 + 空格 +--后缀 + 空格 + 数值

总结

MJ 作为目前顶尖图像生成模型,在图像创作上有很大优势。但 Midjourney 也有不足。面对超精细机械结构等复杂场景,算法易丢细节;小众艺术风格模仿,精准度欠佳,难完美复刻;中文语义理解存漏洞,易引发结果偏差。但总体瑕不掩瑜,为创作者带来诸多可能。

目录

  1. 一、认识 Midjourney
  2. 二、Midjourney 算法原理
  3. 三、Midjourney 基本操作指南
  4. 1. 环境准备
  5. 2. 使用演示及基本分区讲解
  6. 使用演示
  7. 基本分区讲解
  8. 3. 命令解析
  9. 4. 后缀解析
  10. 总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 通过仓库互动学习 Git 和 GitHub 协作
  • 4090 显卡实测:圣光艺苑 AI 绘画工具生成古典名画效果展示
  • 企业微信群通知机器人添加点击链接方法(图文与 Markdown)
  • C++ 轻量级搜索引擎实战:正/倒排索引设计与实现
  • 遥感时序视觉语言模型:技术原理与应用综述
  • ADB logcat 实时监控移动端 Web AI 模型日志
  • Python dotenv 库 load_dotenv() 使用指南:从 .env 文件读取并注入环境变量
  • Dify MCP Server 插件:将工作流发布为第三方可调用服务
  • GitHub Copilot 在 VS Code 中无法使用的关键解决步骤
  • 毕业就业信息管理系统:SpringBoot 后端+Vue 前端+MySQL 实现
  • Vue3 与 TypeScript 前端高频面试题解析
  • MySQL 常用命令速查表
  • 标准 Python 项目结构
  • GitHub Copilot 学生认证申请流程与常见问题解答
  • 如何在 Windows 本地部署开源大语言模型:基于 Ollama 与 Open WebUI
  • Java 全栈面试题及答案汇总
  • 本地大模型部署指南:Ollama 安装与 Python 调用
  • Python Wheel (.whl) 文件安装实战指南
  • Hugging Face 免费开放四门 AI 课程(支持中文),适合大模型初学者
  • 大模型高效微调:LoRA 技术原理与实战经验总结

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online