ChatGPT 终于能原生画图了，我们能用它做点什么？(GPT-4o 原生图片输出能力介绍)

4o 的生图工终于在公布差不多1 年后,终于开放使用了,看看我们能利用这个模型实际做一些什么 (因为这篇主要是为了向同事介绍这个模型,因此不少图用了公司 logo,所以这里的分享会对 logo打码)

不过从简单的说就是和 SD 这样的扩散生图的模型不同, 4o 的生图采用了自回归的方式也是和生成对话一样有顺序的生成的,因此能获得比较精确的效果

首先 4o 的图片输出能力真的大幅的超出我的预期,相信看完后你也会惊讶!

另外免费用户现在每天也可以生成 3 次哦,所以你也可以亲自上手体验看看!

接下来我们会从简单到复杂的实际使用的例子来介绍它, 主要介绍一些以前的难以做到的东西和它还有什么有意思的甚至可以用于实际工作的方法

隐喻:掌握不同风格的绘画王者

🌱 1. 「一句话生图」简单的生成一张数量准确图

首先我们可以要求它生成一些有意思的图

比如"一个办公室里,只有六只打扮不同的熊猫在讨论软件开发的工作"

以前的 AI很容易搞不清楚数量,比如 DALLE 就画了不只是 6 只熊猫. 另外我们也能感觉到不管是画面还是细节上 4o 的表现都要好很多

👥 2. 「图片一致性」：对图片修改且保持风格

另外在文字上的提升也非常巨大,比如在刚刚这张熊猫图的基础上

我可以进一步的要求它进行修改,加入一段对话的笑话

传统的的 AI可能可以做到修改但画风完全不一样

比如我给出上面生成的图片并要求

"熊猫1： “It works!” 熊猫2： “…on your machine.” 画面上随便选择两只熊猫, 添加以上对话气泡保持原图的一致性不要改变其他部分"

就得到这样的结果,可以看到文字被成功添加了,画面也没有说明大的改变(仔细看能看到一点细微差别,但整体都保持了)

当然你可能还好奇它是否支持中文

整体上是支持的,但文字比较小和字数多的话可能有一些错误例如下面这张图可能需要多生成几次来搞定文字的缺陷

对于英语来说的话可以参考 OpenAI 这种官方的示例,多试几次后黑板上这么一大段的手写英语也呈现得很好, 就像真实的照片的感觉,连拍摄者的倒影都呈现了

🎨 3. 「连续修改,多张图片合并」

接下来我还是提供这张图,但是我给出了公司的 logo ,并让他加到了图片里

值得注意的是我们经过了多轮的更改,图片还是保持了大体的相同

另外在这几天的使用中发现,他生成图片时发散思维不够,你需要给他越直接的描述越好, 所以可以看到对话中第二次的修改我让他自己想了一下怎么改比较好,然后再生成的,这时候的图片就让人满意多了

(打码掉了公司的 logo)

🧩 4. 「艺术风格切换」

另外他支持各种各样的画风且能再这样的画风下保持一致

例如将刚刚这幅画变成像素,剪纸,手绘,洛可可,赛博朋克等风格

甚至中国风也不在话下 ⬇️

所有图片都经过了一定的修改提示,不是直接说换画风,比如印章的样式背景的字等

📚 5. 「漫画创作」

当然漫画创作也不在话下,比如《减肥失败记》一只发誓减肥的熊猫忍不住把每周三根的目标换成每日三根,最终失败了的故事

当然也可以拿其他先有的图片来制作一个漫画(可以看到第四格形象没有成功保持,当然也说明它不是完美的)

其他示例

当然大概的例子介绍完后我们也来看看官方和来自网络上的大家发现的用例吧,比如你可能觉得他只是卡通画风表现比较好,或者不太会修改你给出的图片

例如我随意拍一张台历(之前也介绍过的我制作的台历的实物!!) 甚至没有刻意对齐或者充足打光, 让它给我制作一个简单的但风格统一的宣传海报

把同事的企业微信头像变成不同的表情漫画格子⬇️(他答应了)

例如在现实照片添加涂鸦装饰 (用蓝色画笔画一些可爱的涂鸦与画面主体产生互动，可以是人物也可以是动物或者其他东西，生成 2:3 图片，笔触的质感强一些)

或者对一个照片的吐槽涂鸦 (打印出这个并添加不受控制的红色墨水手写注释、涂鸦、潦草的字迹，如果你愿意的话还可以加一些小剪贴。)
生成游戏使用的无缝的材质贴图

给照片换上不同的衣服或者发型
把你和你的宠物制作成拓麻歌子 (将这个人画成一个复古视频游戏角色，放在一个真实的玩具数码宠物里，前景是一只手拿着这个数码宠物)

将不同的家具商品图组合到一个场景里

制作夸张复古的宣传海报
风格迁移生成新的 logo

官方的例子推荐去 https://openai.com/index/introducing-4o-image-generation/ 查看

最后4o 的图片生成只是一个开始, 远没有达到完美,但 LLM 现在已经从单纯的文字处理转向了多模态,在图像识别和输出和音频识别和输出都有了长足的进步,也会越来越多的改变我们的生活和工作, 但实际使用除了惊喜也有很多限制和不完美的地方,和就像最开始 GPT-3.5 到现在的 GPT-4.5 对文字处理的提升, 相信多模态方面也会不断的提升也会越来越强大,帮助我们做到更多难以完成的事情,当然也会带来比如 deepfake 之类的安全问题,让你眼见和耳听都不一定为实了

Huhu's blog