AI 仿写我还在继续测试,今天先换个方向,说说文生图的重大升级。

三个月前,谷歌 Gemini 上了一个新功能,号称只需通过一句话,就能帮你完成复杂的图像修改任务。

但实际效果呢,我玩了两下,就丢掉了。

因为它的效果是这样的——

比如我让它把这个袋子颜色改一下,虽然 Gemini 把袋子颜色改了,不过里面的小袋子颜色却改错了,袋子的带子颜色也没改过来。

而且袋子上的文字改得模糊不清,你 Gemini 对中文不熟悉我知道,但你也不能瞎改啊。

让它替换英文单词,而替换单词虽然把单词换了,就是上下两条横线也都给去了,问题是我提示词里没说这个要求啊,擅作主张。

看到了吧,没让改的地方也给你改了。这哪里是 P 图?明明就是根据参考图重新生图,这离我们想要的那种「用嘴 P 图」的效果可是差远了,完全没办法当成生产力工具来用。

而且我已经照顾谷歌,入乡随俗,用的是英文指令了。

事实上,除了谷歌的 Gemini,其他大模型的文改图功能也都是如此,改后的图总会在各种细节上产生变化。

确实没法正经用,直到最近豆包跳出来说,我也有了这个功能:

所以,对这个功能我说实话,一开始期望真不大。

但试了两次后,我发现我这次错得离谱了。。。

还是用刚才那两张图来试:

完美啊!

豆包不仅完美的更改了包装的颜色,甚至连袋子中的小袋子颜色也没放过,最重要的是袋子上面的文字也没有任何改变,完整的保留了下来。

而且这个红色的处理还考虑了光线的影响,它是有明暗变化的,并不是一红到底,这样处理就非常真实有质感。

没让它改的地方一点都没动,真够稳。

这张修改文本的测试图,豆包也完成得非常好,不仅按提示词要求把单词换了,而且上下两条横线完整保留,笔迹也是基本一样。

如果非要鸡蛋里挑点骨头,那就是改后笔迹如果加入一些轻重笔触的变化,就会更符合原图粉笔字的真实书写效果。

完全没想到,豆包的一句话 P 图效果出乎意料的好,精准修图,指哪打哪儿。

这下我就来劲了,那就多整点图,看看它这次的能耐到底有多大。


我决定一开始就给它上难度,改变一下风景照片里的大面积元素。

提示词:把这条路改成沥青路

豆包交出的作业:

你看,豆包「修」的这条路简直天衣无缝,与路边的尘土和青草浑然一体,就像是刚修完路拍的验收照片一样,周围的环境也没有任何变动。

连那几根若隐若现的电线也完整保留了下来。

好家伙,豆包一句话,乡村振兴直接给实现了,这不得给豆包倒个鱼头酒。

再看 Gemini 的图: 

这效果不评也罢,你糊弄鬼呢,坐小孩那桌去吧。

继续加难度,这次帮老乡们们把庄稼一键收割了好不好?

提示词:把这条路改成沥青路,路左边加上一排白色路灯,每 10 米一个路灯,并把田地里的麦子改为平整的土地,所有树木的树叶全部去掉,只留树干。

这一次的要求堪称高难度,毕竟大面积的麦田,中间还夹着树干遮挡物,可比把无障碍物的路变为沥青路复杂多了。

但豆包竟然还是完成了,生成的图也非常自然,不过这次由于改动比较大,所以能看到树木的数量和位置发生了变化,所以是重新生成的。

但是,我观察到,远方的树林,因为没有提出要求,豆包也没做出变动,包括横在上空的电线也没有变化。

所以整体的效果非常自然,符合逻辑。

至于 Gemini 2.5 嘛——

我都怀疑是它在网上随意搜了照片来糊弄我。

看来 Gemini 是真搞不定这个,我们下面就专心评测豆包就够了。


这张照片大家还没忘记吧,上次评测豆包的时候,她就出场过,现在就拿她来试一下。

老师,我要换个发型!

你瞅瞅这卷儿,烫得多自然,光影过渡跟原图一模一样,背景里的 KFC 标志连个像素都没错位。

最关键的是,人还是那个人,脸型、五官完全没崩!这手艺,Tony 老师看了都得递根烟。

老板,给我换件衣服!

豆包直接给换上了一件碎花吊带裙,大家注意看细节,衣服的褶皱、光影,甚至吊带在肩膀上的感觉都 P 得明明白白。

这不比那些 P 图软件里生硬的「一键换装」强一百倍?

它知道这是个生活场景,所以换的衣服也很日常,而不是搞个晚礼服上去,这就叫智能!

看这里!看镜头!

说实话,方向是扭过来了,确实在看镜头了。但仔细一瞅,眼神稍微有点「对眼」,哈哈哈,呆呆得还有点可爱。

再见 PS,豆包一句话 P 图成了!

不过瑕不掩瑜,能让人物「活」过来,已经相当离谱了。这要是再优化优化,以后拍照眼神乱飘再也不怕了。

路人都给我退!

这效果也太干净了吧?大家仔细看,豆包不光是把周围的路人全 P 掉了,最牛的是,它把被路人挡住的栏杆都给「脑补」出来了,而且补得严丝合缝,比起一般的修图工具,完全没有涂抹感,这就很难得了。

搞点不走寻常路的

同样,只有美女的着装有变化,旁边那么多游客的动作也没有任何改变,真心不错。

只是不知道穿着比基尼在上海外滩有没有人管。


同学,你的书拿一下!

豆包做到了,书的质感、光影都没问题。

但是,我把图放大一看,抓着书的手指头稍微有点糊了,细节处理上还有进步空间。不过,这也说明豆包是真指哪打哪,让你 P 书,绝不动别的地方。

考虑到手部是全部重新生成,改动要考虑到手和书的交互,有点复杂,这个效果还是可以接受的。

阿祖,别端着了,整口可乐吧

黑白照片里,一个鲜红的可乐罐就这么无缝衔接地 P 上去了。

罐体的反光、阿祖握着它的手势,都处理得天衣无缝。不过在黑白场景中,这个色调这么亮,也太像广告了吧。

简单,让它继续改呗!

依然稳得很!

当然,如果你想再玩点不一般的,也不是不行:

不过,这是不是人家原来的脸那就不保真了。


帮移动买栋楼

还是随手拍的一张照片,建筑上有几个字。

更骚的操作来了!豆包不光把「保利」换成了「移动」,还特别「懂事」地把保利的 logo 也给换成了移动的 logo !这主观能动性,我要是老板当场给它加薪!

这里给大家提个醒,根据我的测试和官方的说法,改字的时候,提示词里的文字最好加上引号,比如“中国移动”,这样成功率更高。

分手吧,别爱了

豆包不仅把文字完整的替换,字的字体和大小也基本一致,其它部分也未做任何变动。

只不过改后的字迹相比原图没有那么自然,过于清晰。

黑板报该换啦!

这张图背景这么花里胡哨,又是粉笔画,又是各种颜色,我本来以为 AI 肯定要翻车。

结果呢?豆包精准地找到了「开学季」三个字,完美替换成了「毕业季」,周围的粉笔涂鸦一根线都没动 。

怎么用

测到这里已经差不多了,看了这些效果你们一定会问,在哪里用?

豆包一句话 P 图的入口,就是在电脑客户端主页点击「图像生成」。

然后上传参考图,再输入提示词就可以了。

至于为什么要用电脑客户端,是因为我在实测中发现,同样的提示词,P 同一张图,只有电脑客户端的效果最好。

这是豆包电脑客户端的 P 图效果。

这是豆包官网的 P 图效果。

这是豆包手机客户端的 P 图效果。

而且电脑、手机客户端都是最新版本。

还有一个情况也得说明一下,豆包似乎还没有把这个功能全量推送,因为我试了两个抖音号,有一个是可以实现稳定改图的,有一个改图的时候还会动到其他地方,用的是同一版本,

所以,大家如果改图没能实现文中效果,就换个号试试看。

结语

这么一圈实测下来,结论已经很明显了。

P 图这门手艺,正式从过去的「技术活」,变成了现在的「语文学」。你不再需要去记那些复杂的快捷键和图层,你只需要把你的需求,清清楚楚地告诉AI,它就能给你变出来。

豆包这「指哪打哪」的精准度,没得说。让它换发型,绝不给你 P 个新眉毛;让它 P 掉路人,绝不会把旁边的电线杆也顺走。

当然,现在的豆包也不是万能的。它最大的短板就是一次只能处理一张参考图。后续如果能像 Gemini 那样加入多图融合的话,那离「干翻 Photoshop 」的日子就真的不远了。

一句话,AI 已经从「好玩」正式进化到「好用」了。