情人节到了, 也许大家想要向喜欢的人准备贺卡和祝福?
今天来介绍一下由 Google 推出的生图工具 Whisk (刚好也有情人节特别版) 也许可以帮到你
我们在使用生图工具时,可能经常要面临写提示词很麻烦,不知道怎么写的问题, 而Google Labs推出的这个实验项目Whisk 就能让我们不输入一个字来生图, 相比使用冗长详细的文字提示来生成图像, Whisk让你可以用图像来提示。只需拖入参考图片, 就可以开始创作。Whisk允许你输入图像作为主体、场景和风格。然后,你可以重新组合它们来创造独特的图像作品, 比如生成从毛绒玩具到珐琅徽章或贴纸的图片等 它的目的是以新的创造性方式探索想法, 也就是说以好玩为主,不是太严肃的生产力工具
使用介绍

https://labs.google/fx/zh/tools/whisk (可能有地区限制)
进入网站后我们就能看到这个简约的设计,第一部分就是你想要的图片的样式,第二部分就是你作为提示的图片 就像简单的算数一样,两者结合就有生成结果
比如为你喜欢的人制作一个他/她的毛绒玩具
进阶
当然,我们还能进行进一步的编辑,比如上一张生成的毛绒玩具并不是中分的发型,所以我们可以选择"在工具中打开"来进一步手动的编辑它,点击后会来到这样的一个页面, 上面两张是之前自动生成的图片,然后我们输入发型要求后,它会再次进行生成,就得到了下面两张符合我们要求的图片了

除了让它自动根据我们要求修改外,我们还可以点开图片详细的用于模型生成图片的提示词,进行更细致的修改

接下来我们可以看到左边其实还有更多的可以让我们拖动图片参考的地方
例如加入更多人物和指定场景 (不一定需要图片输入,你也可以只提供文字来生成图片作为参考)


提供狗作为主角,咖啡馆作为场景,以及使用漫画风格的三种图片的生成结果
实现介绍
介绍它其实还有一个原因,就是目前很多AI 工具的形态都是基于文字, 比如 ChatGPT 这样聊天的,或者 SD,MJ 这样要你输入复杂的提示词的, 但将现有的 AI 技术结合在一起 也许就能做出更适合普通用户, 容易上手的工具
比如 Whisk 的底层其实就是 Google 新推出的高质量的图形生成模型 Imagen 3 , 再加上 Google 的 Gemini 模型生成提示词实现的

所以 Whisk 其实是通过 Gemini 将你提供的主题,场景,风格的图片结合,生成一段准确的英语提示词, 然后再给 Imagen 3 这个模型生成图片, 虽然原理很简单, 但可能让我们开拓一下想法, 也就是 AI 产品并不是一定要给你一个文字输入框然后再进行各种编辑, 而是做到润物无声的用 AI 驱动一个有趣的应用
如果你想要直接使用 Imagen 3 模型的话, 也可以直接在https://labs.google/fx/zh/tools/image-fx 上写提示词进行生成
例如"鸭绒毛公仔走在埃菲尔铁塔下,一位专业摄影师拍摄,模糊的背景柔和的阳光。"