https://mp.weixin.qq.com/s/CiMt_6lI3h3bulvrQwhqRA

「锦秋AI实验室」

这是一档专注于探索和评测AI产品在实际场景中应用效果的栏目。

我们正在用AI 解锁100个效率场景。

下一个场景会是什么?

你一定也遇到过这种时刻:

🤔拍到一张几乎完美的照片,只想让AI帮你“去掉旁边那个路人”。

🤔一键修图后,路人没了,你的腿也被顺手擦掉了,光线被重画,连天空都换了个颜色。

我们也被这些“修崩”的时刻折磨过。

所以,这次我们决定认真测一测:21款AI修图工具,6个真实场景,统一提示词,一轮一轮地比。

我们想知道,在AI修图这件事上,谁真的听懂了“帮我修一下”这句话?而谁还停留在“帮我重新画一张”的阶段?

这里是我们的过往「锦秋AI实验室」笔记合集,欢迎点击查看!

我们是如何把中国最会搞AI的一群人,做成手办礼物送给他们的|Jinqiu Scan
我们大胆做了个决定,大会所有音乐bgm由AI生成,这部分预算可以省了!|Jinqiu Scan
16个AI的锦秋CEO大会海报比稿大战,谁能拿到设计费?
AI翻译PDF工具大PK:内容OK,格式崩?| Jinqiu Scan
让AI来邀请AI科学家田渊栋博士加入锦秋基金,这事儿靠谱吗?|Jinqiu Scan
AI们给锦秋基金的写稿建议,我们要不要听? | Jinqiu Scan
OpenAI Atlas 深度测评:饼画得很大,但……|Jinqiu Scan

*需要说明的是,我们此系列的测评以年轻普通用户的实用视角和审美进行测评,于AI产品持有相对积极的评价态度。

这里也插播一下未来的测评预告:近期我们还将会进行AI小游戏制作、AI知识库、AI画布、AI陪伴类产品的测评。如果你对这些AI产品方向的测评感兴趣,也欢迎私信或者评论区告诉锦秋基金(微信公号:锦秋集;微信ID:jqcapital)。


01

21款工具和测评思路

横评模型汇总

测评思路

测评共六轮,每轮测试我们均采用相同的提示词进行图片修图,所有模型均采用最新版默认配置(如最新版本不支持,将会逐步降级),不调整任何参数。

通用测评维度共3组

视觉一致性:整体格局是否统一、有没有“违和感”。

局部质量:材质细节是否保持完善 、身份/元素稳定、文字/Logo 正确。

内容一致性:语义与指令是否符合、是否有擅自改动。

评分标尺(每列 0–5)

0 失败/不可用:目标没完成或严重破坏画面/强幻觉

1 问题严重:大面积伪影/错透视/强违和;文本或身份错误

2 问题较多:能用但违和明显;边缘粗糙;光色差异明显

可用:有小问题但整体可信;文本/身份大体正确

优秀:细节少量问题;色彩/光照基本统一;边缘大体干净

专业级:几乎无可见问题;局部与整体都自然可信

 我们选用了6个贴近日常生活的测试题,全方位的评测模型的图像修改能力。

图片擦除/修补

2 图片抠图

图片替换

4 图片合成

5 图上文字修改

6 画质增强/修复

02

测评过程

Round 1   局部擦除/修补

🏆提示词:除图片中主要人物以外(身处中心的女生),请去除图片中其他所有人物,其余元素保持不变。

基于男大学生同事对图片的主观、客观感受,我们简单排了序。

👉右滑更多精彩

可以看到,在第一轮测评中:

01

同事给了腾讯元宝,美图秀秀和Qwen Image edit 15,认为其不仅完美满足提示词的要求,而且图片还变得更清晰了,毫无违和感。

👉右滑更多精彩

02

同事给了Nanobanana,Sora,Lovart,Manus,Runway 14分

认为,他们的问题基本都在同一个点,就是图片检索能力还有待加强,基本都是因为没有完全消除干净人物所扣分。例如Nanobanana去除大部分人物,整体图片元素保留较好,但仍有少量在台阶上的人物。

我们也可以看到新初创企业LibLibAI创建的Lovart完成度较高,人物有轻微改动稍显违和感,总体格局保持较好,没有删减东西,不过角落里两个人未成功消除,并且人物头像上移,挡住了部分背景。

而像Manus这种做通用型Agent的产品,在图片修改编辑模式保持了较高的水准,去除大部分人物,但仍有在台阶上的人物,整体图片元素保留较好。

03

同事给了即梦4.0,醒图,像素蛋糕,Genspark 10左右的打分。

同事认为这部分的产品能较好的完成提示词的需求,但会出现较为明显的错误。可以看到两个专门进行修图的软件也在这个档位,这些产品虽然专做修图这一垂直赛道,但对于新时代AI的技术能力明显把控不足,例如醒图中选择消除笔-魔法消除,涂抹人物所在区域后图片会有较大违和感,但可以成功消除其他无关人物。

像素蛋糕选择的功能为AI祛路人,能完全选中所有路人并消除,但图片中仍会出现部分乱码和模糊,产生违和感,还有较强的提升空间。

Genspark人物形象有较大改动,其他人物全部消除,但总体格局进行了延长改变,删除了部分原有背景的元素。

即梦比较“有意思”,在本轮当中综合表现较好,去除了所有的人物,但缺点存在两个,第一,整个图的格局进行了改动放大,导致原图中其他的景色没有完全包含,而是拿主人公的图像覆盖了背景部分,第二,最高层台阶有部分马赛克模糊,并不是纯粹的去除人物。

04

同事给了Kling Image 2.0,文心一言,Grok,智谱清言,天工 5分左右的打分

由于KlingAI的最新版2.1需要至少提供2张图片,所以只能用相对较差的1.5进行该轮测评,本次测评当中,Kling将图中主人公提取出来,换了个海洋的背景,虽去除了其他所有人物,但与原意不符并且人物部分特征如头发,姿势也进行了改动。

文心一言,智谱清言和天工这三个产品的效果大致一样,都是提取了图中主人公,去除了其他人物,但是图中主人公并不是女生原图,而是AI自己生成了一个人物,没有完成我们想要“修图”的任务。

Grok中心依旧存在少量人物,台阶存在大量人物未删除,并且图片格局和人物面貌也进行了改动。

05

最后剩下的产品,均没有完成我们所要的需求,会出现严重不符的问题,CanvaAI,Pixlr, SenseMirageCanvaAI和 SenseMirage整张图片,进行了卡通/动漫化,基本不符合要求。Pixlr完全不符合要求,随机生成了一个图像(过于敷衍

)。

Round2  图片抠图

🏆提示词:请把图片中所有手持红色手绢的宇树科技机器人做前景提取,放置在纯白色背景图上,保持原画布尺寸与坐标不变。

基于男大学生同事对图片的主观、客观感受,我们简单排了序

👉右滑更多精彩

01

本轮Round2测评中,同事给了Qwen Image edit与 Genspark 15分满分。

认为Genspark更是本轮唯一一个完全使用“抠”图的技术,保持原图的全部格局与元素和细节。

👉右滑更多精彩

02

同事给出的第二梯队包括:Nano banana,即梦4.0,腾讯元宝,美图秀秀,Lovart,Manus,天工,Runway

认为多数产品都是少提取或者多提取了一个机器人,例如Nano banana,腾讯元宝,Lovart,Manus,Runway

即梦天工都是构图有轻微改动,但总体完成度较高。

美图秀秀是“多干了一些事情”,把“直播”两个字,还有春晚的Logo也进行了提取。

03

同事给到的第三梯队的分数直接来到了4-7分之间,都有较大较为明显的问题,Kling Image 2.0,CanvaAI,Grok,文心一言,SenseMirage,智谱清言

Grok以外,这部分的所有产品都是直接生成了动漫图没有满足“修图or抠图”的需求,并且也存在较大问题如Kling仅仅生成了一个机器人,红色手绢变成了红色拳套。

CanvaAI图片背景有大幅度改动。

文心一言图片背景均有改动,并且多生成了一个机器人。

SenseMirage其中一个人形机器人产生了三个手臂,很违和的感觉。

智谱清言仅保留了机器人和红色手绢的元素。

Grok基本保持原格局,但生成多个机器人,没有进行抠图动作,没有满足提示词要求。

04

其余产品例如醒图,像素蛋糕没有这部分的功能,所以不进行测评,Pixlr依旧完全随机生成图片。

Round3 图片替换

🏆提示词:请对我上传的锦秋基金投资人照片进行修图:在不改面貌与光线的前提下,干净去除所有绳子及阴影并重建细节,将服装自然更换为合身的蒙古传统服饰。

基于男大学生同事对图片的主观、客观感受,我们简单排了序。

👉右滑更多精彩

01

在该回合测评图片替换中,同事给了这几个产品最高分:即梦4.0,腾讯元宝,Qwen Image edit,Manus,Runway等5个产品。

👉右滑更多精彩

02

同事认为,第二梯队的产品有Nano banana,美图秀秀,Lovart,天工

Nano banana天工扣分点在于绳子没有清楚,不过其他需求完成较好。

美图秀秀Lovart综合表现尚可,但人物面部特征有改变发生了改变,其他元素均按照提示词修改生成。

我们用21款AI修图工具修了100张图:谁才是真正的“修图神器”?|Jinqiu Scan

03

第三梯队的产品如Round2一样,从4-7,并无10分左右产品。分别为Kling Image 2.0,文心一言,Sora,Grok, Genspark,智谱清言

Kling换了蒙古服饰,但原主人和背景也完全被替换了,而且没有老鹰元素。

文心一言Sora智谱清言都仅保留了女性和老鹰特质,但人物发生了改变,相当于生成了一张符合描述的新图片。

04

而剩下产品均产生严重错误或完全不符合要求,CanvaAIPixlr, SenseMirage

Round4  图片合成

🏆提示词:将年轻时期的乔布斯和当时的苹果电脑(图片人物与电脑),与现在的雷军和小米的车同框(图片人物与黄色车辆)。放到Google的公司里。

基于男大学生同事对图片的主观、客观感受,我们简单排了序。

👉右滑更多精彩

01

本轮Round4测评,鉴于AI参考的元素较多,生成的图片路程较为复杂,所以并没有满分的产品出现。

02

完成最好的是Sora与Runway。

Sora整体不错,仅有雷军的脸有些变形,其他部分很符合要求。

Runway的效果很好,微微有点违和感。

03

第三梯队13分的有Nano banana,即梦4.0和Manus

Nano banana虽然完整的贴上去了,但是很违和,就像抠图硬贴一样

Manus即梦同样也有违和感,Manus生成的乔布斯坐在“空气”,除此之外乔布斯和雷军的脸都发生了形变。即梦生成的图片中雷军面貌发生了改变。

04

第四梯队10分左右的有如下产品:Qwen Image edit,Lovart,智谱清言,天工

Qwen生成的图片中出现了两辆小米Su7,雷军的面貌发生了改变,乔布斯没有生成出来。

Lovart违和感较高,且没有生成雷军,其他元素完成度较好。

智谱清言有小米Su7和苹果电脑,但人物生成的部分很差,跟参考图完全不一样。

天工生成的雷军在苹果电脑旁边,保留了Su7 苹果电脑 谷歌的元素,但乔布斯没生成,反而生成了一个其他的人物。

05

第五梯队的有Kling Image 2.0, Genspark

Kling生成的只有雷军,而且雷军的脸还是AI生成的,整体图片格局和效果不太违和,但是没有按照要求和上传的图片来完成。

反之则是Genspark,割裂感很高,有Su7和苹果电脑,但人物生成的部分很差。

06

最后的是CanvaAI,文心一言,Grok

Canva生成的人是老人,汽车看不出来是Su7。

文心一言生成的图片像个海报,生成的不太相关

Grok生成的图片不符合要求,一个老人和一个生成的年轻人面庞,苹果和小米的Logo,但是电脑和车的元素都不是提供的图片,也没有出现谷歌。

Round5  图上文字修改

🏆提示词:请在不改动版式与位置的前提下,将图片中“锦秋基金”四字改为纯黑(#000000)、除“CEO”外的所有英文改为纯白(#FFFFFF)、将时间改为2025/1/1、将地点从“北京市”改为“京北市”、并在左下角底部新增“欢迎大家来参加”。

基于男大学生同事对图片的主观、客观感受,我们简单排了序。

👉右滑更多精彩

01

在本轮测评中所有产品均不达预期。

02

第一梯队为11-12.5分,分别为Nano banana,即梦4.0,美图秀秀,Qwen Image edit,Manus,天工,Runway

每个产品的缺分原因如下:

Nano Banana:英文没有改变,时间没有改变,左下角乱码。

即梦4.0英文“welcome”改成了纯黑(错误),时间没有改变,地点没有改变,“大会”被改成纯黑色。

美图秀秀锦秋基金颜色没改变,英文没有纯白,左下角欢迎大家来参加正确,但同时有相同的字符乱码,这部分给0.5分。

Qwen Image edit英文没有识别完全,并且CEO也被改成了白色,地址成功改成了 京北市,但生成了两次,这部分加0.5分,整体完成度挺好,但是细节处理还是有不足。

Manus英文,地点,左下角错误乱码。

天工:英文除了“welcome”其他要求都满足,时间没有改变,地点没有改变。

Runway:英文被删除,地点没有改变,排版布局发生了变化,从竖版变成了横版。

03

第二梯队的在十分左右,7-10分,分别为Lovart, Genspark,智谱清言

每个产品的缺分原因如下:

腾讯元宝:英文错乱,时间生成两个有一个正确,一个错误,地点乱码,左下角生成两串文字,一个正确一个乱码,删减了部分齿轮元素,整体排版格式错乱。

Lovart:英文,地点,左下角错误乱码,排版布局轻微改动。

Genspark:英文被删除,地点乱码,字体没有放在图片的左下角,不过在文字左半部分,这一环节可以加0.5分。

智谱清言图片格式完全变动,重新生成,除了左下角没有“欢迎大家来参加”,其他部分均完成,智谱清言是当前测评中文字处理最强的AI,中英文都没有乱码,但是整体排版格式重新生成了一个,主要问题在于不符合本次“修图”的主题。

04

第三梯队的在5分左右,分别是文心一言,Grok

这两个产品的细节修改部分均为0分,没有一个小细节完全正确

文心一言重新生成了个海报图片,整体格局也不符合“修图”的概念。

Grok原格局倒是保持较好,不过乱码太多,处理太差。

05

最后一部分为,KlingImage 2.0,CanvaAI,Pixlr, SenseMirage

细节处理部分基本全军覆没,除了CanvaAI对了一个时间的小细节以外,没有一个正确的,并且多数产品还会改变原有格局。

Round6 画质增强/修复

🏆提示词:图中为乔布斯的早期照片。请将图片变得更清晰,黑白照片变成彩色配色。

基于男大学生同事对图片的主观、客观感受,我们简单排了序。


👉右滑更多精彩

01

本轮测评较为简单,主要评测AI对于图片的整体处理能力。

满分10分的产品为美图秀秀,Sora,Qwen Image edit,Lovart, Genspark,Manus

👉右滑更多精彩

02

第一梯队8-9分的产品有,Nano banana,即梦4.0,腾讯元宝,醒图,像素蛋糕,Runway

其中Nano banana,腾讯元宝和Runway都是折在了清晰度这一关,图片整体上色比较自然,但分辨率处理还需要进行加强

即梦的生成的脸型有细微拉长,有一点违和感,但综合来说完成了要求。

醒图,像素蛋糕都是可以成功变得很清晰,但无法自动AI加颜色。

03

CanvaAI,文心一言,智谱清言SenseMirage都是重新生成的图片。

CanvaAI,文心一言智谱清言均仅满足彩色要求,整体的图片格局和人物面貌都发生了改变。SenseMirage保留了图片原格局,但图中人物直接进行了替换。

03

总结

经过对21款AI修图工具的六轮严格测评,我们得以一窥当前AI图像编辑能力的真实水平。本次测评从“能否把已有素材修对”的实用视角出发,结果显示,不同产品之间的能力差距极为悬殊。

Qwen Image edit在多轮测试中(如抠图、替换)中表现不错,综合实力最强。

腾讯元宝美图秀秀在基础的擦除和画质增强上展现了不错的效果。

ManusRunway作为功能全面的平台,在多轮测试中保持了高度的稳定性和可用性。

Nano banana作为头部大厂出品的产品,有极强的稳定性,但对于某一细分领域,无法做到“满分”水准,但没有跌落过第一梯队。

而新兴的Lovart,也在多轮测评中获得了较高分数。

测评也揭示了当前AI修图的几个关键挑战

  • “修图”与“生图”的混淆: 这是本次测评中最大的“翻车点”。大量模型(如文心一言、智谱清言、SenseMirage等)在接到编辑指令时,倾向于重新生成一张符合描述的新图,而不是在用户提供的原图上进行修改,这完全违背了“修图”的初衷。

  • 文字处理能力是重灾区 Round5的“图上文字修改”中,所有产品均未获得高分。即便是表现相对较好的模型,也普遍存在无法识别特定修改区域、生成乱码、或直接改变原版式的问题,显示出AI在精细化文字编辑上的普遍短板。

  • 复杂合成(多元素)能力不足 第四轮的图片合成测试对AI的多元素理解力提出了高要求。没有产品能获得满分,多数结果存在明显的“抠图硬贴”违和感,或出现元素遗漏、面部变形等问题。

专业工具与通用模型的对比: 以美图秀秀为代表的传统修图软件,在AI加持下,于画质增强、局部修补等核心功能上依然保持着专业优势。而部分通用型Agent(如Manus)和背靠大厂的模型(如Qwen)则展现了“后发优势”,在综合编辑能力上已不容小觑,也变相证明了创业公司的机会。

AI修图的未来,不在于能生成多炫酷的图像,而在于能否精准理解并执行用户的每一个细微意图。可以看到,头部厂商已经从“能变”进化到了“修对”的阶段。

虽然目前还没有一款能完美应对所有需求的“六边形战士”,但对于用户而言,根据自己的核心需求(是擦人还是换衣,是增强画质还是合成创意),已然能大幅提升我们的修图效率。