今年图片和视频领域的发展比 LLM 有趣不少, 感觉很多文档都是在介绍这方面, 而这就是又一篇 😂  最近对图片生成的兴趣比较大

而公司有制作年度台历的活动,于是参加了一下~ 最后在同事们投票下获得了第一名 挺让人高兴 于是想分享一下制作过程中素材的生成 另外涉及公司信息的部分就打码了 (比如我其实在每张图里都 p 入了不同风格的 logo 融合进画面作为彩蛋)

--- 正文 ⬇️

Midjourney 介绍

MJ (Midjourney) 和 DALL-E 以及 Stable Diffusion 一样, 都是非常流行的图像生成的 AI ,  MJ 不是开源的, 而是通过不同价格的订阅计划 提供在线的图像生成服务, 来获得收入和迭代产品的

DALL-E → Midjourney → Stable Diffusion 上手难度逐渐增大, 但上手难度增加也提供了更多复杂的掌控能力

如果说 ChatGPT 的 DALL-E 是最容易上手的图片生成方式的话, 那么 Midjourney 会稍微复杂一点, 但给予了我们更多控制生成图片结果的手段, MJ 相比 Stable Diffusion 这样的开源方案, 没有一堆复杂的插件要寻找和需要自己部署等门槛

之所以要介绍它, 是因为这次 2025 年的台历就想尝试用 AI 来生成不同季节的图片作为素材 这样可能比在网上找图片更能统一主题, 于是首先尝试了 DALL-E , 虽然很方便 但分辨率和各种定制程度都还不够好,难以满足需求,  图片质量本身比起不断迭代的 Midjourney 也有些差距, 所以最终选择了使用 Midjourney 来生成全部台历素材

下面是我尝试分别使用 DALL-E (上) 和 Midjourney (下) 生成的多个四个季节的图片素材然后挑选后拼接后的草稿,  DALL-E 的虽然还不错 但画面空白的地方不够纯净 也缺少图片扩大等功能 难以满足质感,只使用图片的一部分时的分辨率等要求

DALL-E (上)  虽然像素风格还不错,但仔细看海边的云朵和雪山上就能看到这种本应该比较纯净的地方也有很多噪点,这也是放弃使用它的最大原因

价格

既然是付费的订阅服务,那么也大概介绍一下价格

从最便宜的 10 刀到120 刀不等,最大的区别就是提供了不同的 GPU 时间

我们购买的本质上生图所需要的GPU的时间, Fast 模式下基础计划3.3小时/月,标准计划15小时/月,Pro会计划30小时/月,Relax 模式下标准和Pro会员则是无限时间(无限生成), 生成的图片都是可以商用的

所以比较推荐的是购买 30 刀一月的标准计划,因为可以在 GPU 时间用完后Relax 模式排队生成图片

Fast 模式就是优先生成图片的模式,会很快就拿到结果

Relax 模式可以无限制地生成图像 不消耗额度,但需要等待一段时间后拿到结果(相当于排队了), 但基础计划不支持这个模式, 但如果只是想尝试的话, 可以先订阅最便宜的基础计划, 随时可以升级到更贵的计划 (会折算剩余的生成额度)

基础的是一个月 70 人民币 (10 刀) 左右的基础计划, 可以生成 200 次图片(一次四张), 然后因为接入的 stripe ,通过支付宝就可以轻松付款 (建议随便选个美国免税州地址) , 记得不需要后取消订阅! 建议只是随便尝试的话订阅这个, 但做台历来说的话一张素材要生成很多次, 所以最后发现实际 200 次是远远不够用的!

订阅后就可以在官网开始生图了, 它最开始是在 Disrocd 频道提供机器人上来生成的, 现在有官网后操作更加直观和方便了, 所以本文介绍也使用官网而不是 Disrocd 来说明 (如果需要的话网络上应该有一堆 Disrocd 上使用 MJ 的视频教程)

不过不想升级计划的话 在 GPU 时间用完后也可以购买 Fast Hours, 1 hour 的额度大概可以生成 60 次图片

提示词

Midjourney的提示词风格介于 DALL·E 的自然语言描述和 Stable Diffusion 的参数化指令之间. 我们可以使用自然语言描述图像内容, 同时通过添加特定参数来控制生成结果

所以如果不想自己写提示词的话,让 ChatGPT 代劳也是一样可以的

提示词需要遵循的基本规则, 可以参考官方的说明, 另外它也只支持英语提示词

提示技巧! Midjourney 最适合简短的描述性短语。避免冗长的要求和指令列表

比如不要这样写:"给我画很多盛开的玫瑰花,让它们明亮鲜艳的红色,用彩铅的插画风格来画" (Show me a picture of lots of blooming roses, make them bright, vibrant red, and draw them in an illustrated style with colored pencils)

而应该这样写:"明亮红色的玫瑰,彩铅画风" (Bright red roses drawn with colored pencils)

提示说明用词选择 提示词都是英语,所以用词很重要, 在许多情况下, 更具体的同义词效果更好。比如与其用"大的(big)",不如用"巨大的"、"庞大的"、"宏伟的"或"浩瀚的" (huge, gigantic, enormous, or immense)

复数词和集合名词 复数词会带来很多不确定性。试着使用具体的数字。"三只猫(Three cats)"比"猫(Cats)"更具体。集合名词也很有用,比如用"一群鸟(flock of birds)"而不是"鸟(birds)"

专注于你想要的 描述你想要什么比描述你不想要什么更好。**如果你要求一个"没有蛋糕"的派对,你的图片可能反而会包含蛋糕。**要确保某个物体不出现在最终图像中,请尝试使用 --no 参数的高级提示

提示长度和细节 提示可以很简单。单个词或表情符号就够了。但是,简单的提示会依赖 Midjourney 的默认风格,让它发挥创意填充未指定的细节。在提示中包含对你来说重要的任何元素。细节越少意味着变化越多但控制越少

请明确说明对你重要的任何背景或细节。考虑以下方面:

  • 主体: 人物、动物、角色、地点、物体 (person, animal, character, location, object)
  • 媒介: 照片、绘画、插画、雕塑、涂鸦、挂毯 (photo, painting, illustration, sculpture, doodle, tapestry)
  • 环境: 室内、室外、月球上、水下、城市中 (indoors, outdoors, on the moon, underwater, in the city)
  • 光线: 柔和、环境光、阴天、霓虹、摄影棚灯光 (soft, ambient, overcast, neon, studio lights)
  • 颜色: 鲜艳、柔和、明亮、单色、多彩、黑白、粉彩 (vibrant, muted, bright, monochromatic, colorful, black and white, pastel)
  • 情绪: 平静、安宁、喧闹、充满活力 (sedate, calm, raucous, energetic)
  • 构图: 肖像、头像、特写、鸟瞰图 (portrait, headshot, closeup, birds-eye view)

Midjourney同样支持广泛的艺术风格,所以在提示词加入这些风格的要求也更容易达到你想要的效果

更多请参考: https://docs.midjourney.com/docs/explore-prompting

总之它支持非常广泛的艺术效果 (所以选择像素风 只是因为我比较喜欢这种)

素材生成尝试

先尝试生成了一些樱花的场景, 画风总感觉有些古早

pixel art spring scene, cherry blossom trees, falling pink petals, soft pastel colors, clear light blue sky, gentle clouds, pixel style, 16-bit aesthetic, peaceful atmosphere --ar 16:9 --style raw --v 6.1

然后当然是调整提示词, 不过最重要的是 MJ 提供两类模型,一种是标准的Midjourney Model 另一种是在动漫方面表现比较好的 Niji Model, 简单的说就是更二次元, 对于我们想要的像素风来说肯定是比较好的选择

在调整了提示词和模型为 Niji 后

A pixel art scene representing spring, with soft pastel colors. The foreground features several cherry blossom trees with pink petals falling gently from the branches. The background shows a clear sky with a light blue hue, and some soft clouds drifting by. Scattered petals cover the ground, adding to the tranquil atmosphere. A few green hills are visible in the distance, and the overall setting is peaceful, evoking the fresh and gentle feeling of spring. --ar 16:9 --niji 6

后终于得到了比较理想的效果

当然做台历肯定不能使用这样的大图,于是调整图片比例和进一步更改提示词得到了最终的理想图片

比较成功的表现出了对应月份的氛围感 🩷

建议就是多尝试和修改, 可能需要相当多的尝试之后才能得到满意的图片

(一小部分的尝试⬆️)

如果风格合适的话,就可以在对应的基础上细微地修改提示词,以及通过 MJ提供的变体功能来生成更多相似的图片,变体分为强和弱,强的变体会提供更大的变化的图片结果

例如这样一张图,我比较满意,但细节不太对 可以通过变体功能得到相似的图片

然后在得到喜欢的图后,如果分辨率要求比较高也可以使用他的放大功能来得到更高分辨率的图片

他还支持你对局部进行修改

涂抹月亮后输入提示词,就得到了一张中秋🥮 和 万圣节🎃结合的图像 是不是挺有意思呢 (虽然最后没用)

结语

总之 MJ 能尝试的东西还蛮多, 也不是很难上手, 主要是想介绍一下现在的 AI 大概能做些什么/能做到什么程度, 另外 AI 更像是一个副驾驶, 需要有明确的想法 然后它才能帮你实现, 使用 AI 并不代表可以直接就出现结果, 依然需要构思想要的效果后多次的抽卡和调整提示词等才能得到满意的结果, 当然它的出现大大降低了我们做很多东西的门槛 让原本不可能或者难以做到的事情变成了可能