我们用21款AI修图工具修了100张图：谁才是真正的“修图神器”？｜Jinqiu Scan

https://mp.weixin.qq.com/s/CiMt_6lI3h3bulvrQwhqRA

「锦秋AI实验室」

这是一档专注于探索和评测AI产品在实际场景中应用效果的栏目。

我们正在用AI 解锁100个效率场景。

下一个场景会是什么？

你一定也遇到过这种时刻：

🤔拍到一张几乎完美的照片，只想让AI帮你“去掉旁边那个路人”。

🤔一键修图后，路人没了，你的腿也被顺手擦掉了，光线被重画，连天空都换了个颜色。

我们也被这些“修崩”的时刻折磨过。

所以，这次我们决定认真测一测：21款AI修图工具，6个真实场景，统一提示词，一轮一轮地比。

我们想知道，在AI修图这件事上，谁真的听懂了“帮我修一下”这句话？而谁还停留在“帮我重新画一张”的阶段？

这里是我们的过往「锦秋AI实验室」笔记合集，欢迎点击查看！

我们是如何把中国最会搞AI的一群人，做成手办礼物送给他们的｜Jinqiu Scan

我们大胆做了个决定，大会所有音乐bgm由AI生成，这部分预算可以省了！｜Jinqiu Scan

16个AI的锦秋CEO大会海报比稿大战，谁能拿到设计费？

AI翻译PDF工具大PK：内容OK，格式崩？| Jinqiu Scan

让AI来邀请AI科学家田渊栋博士加入锦秋基金，这事儿靠谱吗？｜Jinqiu Scan

AI们给锦秋基金的写稿建议，我们要不要听？ | Jinqiu Scan

OpenAI Atlas 深度测评：饼画得很大，但……｜Jinqiu Scan

*需要说明的是，我们此系列的测评以年轻普通用户的实用视角和审美进行测评，于AI产品持有相对积极的评价态度。

这里也插播一下未来的测评预告：近期我们还将会进行AI小游戏制作、AI知识库、AI画布、AI陪伴类产品的测评。如果你对这些AI产品方向的测评感兴趣，也欢迎私信或者评论区告诉锦秋基金（微信公号：锦秋集；微信ID：jqcapital）。

21款工具和测评思路

横评模型汇总

测评思路

测评共六轮，每轮测试我们均采用相同的提示词进行图片修图，所有模型均采用最新版默认配置（如最新版本不支持，将会逐步降级），不调整任何参数。

通用测评维度共3组

视觉一致性：整体格局是否统一、有没有“违和感”。

局部质量：材质细节是否保持完善、身份/元素稳定、文字/Logo 正确。

内容一致性：语义与指令是否符合、是否有擅自改动。

评分标尺（每列 0–5）

0 失败/不可用：目标没完成或严重破坏画面/强幻觉

1 问题严重：大面积伪影/错透视/强违和；文本或身份错误

2 问题较多：能用但违和明显；边缘粗糙；光色差异明显

3 可用：有小问题但整体可信；文本/身份大体正确

4 优秀：细节少量问题；色彩/光照基本统一；边缘大体干净

5 专业级：几乎无可见问题；局部与整体都自然可信

我们选用了6个贴近日常生活的测试题，全方位的评测模型的图像修改能力。

1 图片擦除/修补

2 图片抠图

3 图片替换

4 图片合成

5 图上文字修改

6 画质增强/修复

测评过程

Round 1 局部擦除/修补

🏆提示词：除图片中主要人物以外（身处中心的女生），请去除图片中其他所有人物，其余元素保持不变。

基于男大学生同事对图片的主观、客观感受，我们简单排了序。

👉右滑更多精彩

可以看到，在第一轮测评中：

同事给了腾讯元宝，美图秀秀和Qwen Image edit 15分，认为其不仅完美满足提示词的要求，而且图片还变得更清晰了，毫无违和感。

👉右滑更多精彩

同事给了Nanobanana，Sora，Lovart，Manus，Runway 14分。

认为，他们的问题基本都在同一个点，就是图片检索能力还有待加强，基本都是因为没有完全消除干净人物所扣分。例如Nanobanana去除大部分人物，整体图片元素保留较好，但仍有少量在台阶上的人物。

我们也可以看到新初创企业LibLibAI创建的Lovart完成度较高，人物有轻微改动稍显违和感，总体格局保持较好，没有删减东西，不过角落里两个人未成功消除，并且人物头像上移，挡住了部分背景。

而像Manus这种做通用型Agent的产品，在图片修改编辑模式保持了较高的水准，去除大部分人物，但仍有在台阶上的人物，整体图片元素保留较好。

同事给了即梦4.0，醒图，像素蛋糕，Genspark 10分左右的打分。

同事认为这部分的产品能较好的完成提示词的需求，但会出现较为明显的错误。可以看到两个专门进行修图的软件也在这个档位，这些产品虽然专做修图这一垂直赛道，但对于新时代AI的技术能力明显把控不足，例如醒图中选择消除笔-魔法消除，涂抹人物所在区域后，图片会有较大违和感，但可以成功消除其他无关人物。

像素蛋糕选择的功能为AI祛路人，能完全选中所有路人并消除，但图片中仍会出现部分乱码和模糊，产生违和感，还有较强的提升空间。

Genspark人物形象有较大改动，其他人物全部消除，但总体格局进行了延长改变，删除了部分原有背景的元素。

即梦比较“有意思”，在本轮当中综合表现较好，去除了所有的人物，但缺点存在两个，第一，整个图的格局进行了改动放大，导致原图中其他的景色没有完全包含，而是拿主人公的图像覆盖了背景部分，第二，最高层台阶有部分马赛克模糊，并不是纯粹的去除人物。

同事给了Kling （Image 2.0），文心一言，Grok，智谱清言，天工 5分左右的打分。

由于KlingAI的最新版2.1需要至少提供2张图片，所以只能用相对较差的1.5进行该轮测评，本次测评当中，Kling将图中主人公提取出来，换了个海洋的背景，虽去除了其他所有人物，但与原意不符，并且人物部分特征如头发，姿势也进行了改动。

而文心一言，智谱清言和天工这三个产品的效果大致一样，都是提取了图中主人公，去除了其他人物，但是图中主人公并不是女生原图，而是AI自己生成了一个人物，没有完成我们想要“修图”的任务。

Grok的中心依旧存在少量人物，台阶存在大量人物未删除，并且图片格局和人物面貌也进行了改动。

最后剩下的产品，均没有完成我们所要的需求，会出现严重不符的问题，CanvaAI，Pixlr， SenseMirage。CanvaAI和 SenseMirage将整张图片，进行了卡通/动漫化，基本不符合要求。Pixlr完全不符合要求，随机生成了一个图像（过于敷衍

）。

Round2 图片抠图

🏆提示词：请把图片中所有手持红色手绢的宇树科技机器人做前景提取，放置在纯白色背景图上，保持原画布尺寸与坐标不变。

基于男大学生同事对图片的主观、客观感受，我们简单排了序

👉右滑更多精彩

本轮Round2测评中，同事给了Qwen Image edit与 Genspark 15分满分。

认为，Genspark更是本轮唯一一个完全使用“抠”图的技术，保持原图的全部格局与元素和细节。

👉右滑更多精彩

同事给出的第二梯队包括：Nano banana，即梦4.0，腾讯元宝，美图秀秀，Lovart，Manus，天工，Runway。

认为，多数产品都是少提取或者多提取了一个机器人，例如Nano banana，腾讯元宝，Lovart，Manus，Runway。

即梦与天工都是构图有轻微改动，但总体完成度较高。

美图秀秀是“多干了一些事情”，把“直播”两个字，还有春晚的Logo也进行了提取。

同事给到的第三梯队的分数直接来到了4-7分之间，都有较大较为明显的问题，Kling （Image 2.0），CanvaAI，Grok，文心一言，SenseMirage，智谱清言。

除Grok以外，这部分的所有产品都是直接生成了动漫图，没有满足“修图or抠图”的需求，并且也存在较大问题如Kling仅仅生成了一个机器人，红色手绢变成了红色拳套。

CanvaAI图片背景有大幅度改动。

文心一言图片背景均有改动，并且多生成了一个机器人。

SenseMirage其中一个人形机器人产生了三个手臂，很违和的感觉。

智谱清言仅保留了机器人和红色手绢的元素。

Grok基本保持原格局，但生成多个机器人，没有进行抠图动作，没有满足提示词要求。

其余产品例如醒图，像素蛋糕没有这部分的功能，所以不进行测评，Pixlr依旧完全随机生成图片。

Round3 图片替换

🏆提示词：请对我上传的锦秋基金投资人照片进行修图：在不改面貌与光线的前提下，干净去除所有绳子及阴影并重建细节，将服装自然更换为合身的蒙古传统服饰。

基于男大学生同事对图片的主观、客观感受，我们简单排了序。

👉右滑更多精彩

在该回合测评图片替换中，同事给了这几个产品最高分：即梦4.0，腾讯元宝，Qwen Image edit，Manus，Runway等5个产品。

👉右滑更多精彩

同事认为，第二梯队的产品有Nano banana，美图秀秀，Lovart，天工。

Nano banana与天工的扣分点在于绳子没有清楚，不过其他需求完成较好。

美图秀秀和Lovart综合表现尚可，但人物面部特征有改变发生了改变，其他元素均按照提示词修改生成。

我们用21款AI修图工具修了100张图：谁才是真正的“修图神器”？｜Jinqiu Scan

第三梯队的产品如Round2一样，从4-7，并无10分左右产品。分别为Kling （Image 2.0），文心一言，Sora，Grok， Genspark，智谱清言。

Kling换了蒙古服饰，但原主人和背景也完全被替换了，而且没有老鹰元素。

文心一言，Sora，智谱清言都仅保留了女性和老鹰特质，但人物发生了改变，相当于生成了一张符合描述的新图片。

而剩下产品均产生严重错误或完全不符合要求，CanvaAI，Pixlr， SenseMirage。

Round4 图片合成

🏆提示词：将年轻时期的乔布斯和当时的苹果电脑（图片人物与电脑），与现在的雷军和小米的车同框（图片人物与黄色车辆）。放到Google的公司里。

基于男大学生同事对图片的主观、客观感受，我们简单排了序。

👉右滑更多精彩

本轮Round4测评，鉴于AI参考的元素较多，生成的图片路程较为复杂，所以并没有满分的产品出现。

完成最好的是Sora与Runway。

Sora整体不错，仅有雷军的脸有些变形，其他部分很符合要求。

Runway的效果很好，微微有点违和感。

第三梯队13分的有Nano banana，即梦4.0和Manus。

Nano banana虽然完整的贴上去了，但是很违和，就像抠图硬贴一样。

而Manus与即梦同样也有违和感，Manus生成的乔布斯坐在“空气”，除此之外乔布斯和雷军的脸都发生了形变。即梦生成的图片中雷军面貌发生了改变。

第四梯队10分左右的有如下产品：Qwen Image edit，Lovart，智谱清言，天工。

Qwen生成的图片中出现了两辆小米Su7，雷军的面貌发生了改变，乔布斯没有生成出来。

Lovart违和感较高，且没有生成雷军，其他元素完成度较好。

智谱清言有小米Su7和苹果电脑，但人物生成的部分很差，跟参考图完全不一样。

天工生成的雷军在苹果电脑旁边，保留了Su7 苹果电脑谷歌的元素，但乔布斯没生成，反而生成了一个其他的人物。

第五梯队的有Kling （Image 2.0）， Genspark。

Kling生成的只有雷军，而且雷军的脸还是AI生成的，整体图片格局和效果不太违和，但是没有按照要求和上传的图片来完成。

反之则是Genspark，割裂感很高，有Su7和苹果电脑，但人物生成的部分很差。

最后的是CanvaAI，文心一言，Grok。

Canva生成的人是老人，汽车看不出来是Su7。

文心一言生成的图片像个海报，生成的不太相关。

Grok生成的图片不符合要求，一个老人和一个生成的年轻人面庞，苹果和小米的Logo，但是电脑和车的元素都不是提供的图片，也没有出现谷歌。

Round5 图上文字修改

🏆提示词：请在不改动版式与位置的前提下，将图片中“锦秋基金”四字改为纯黑（#000000）、除“CEO”外的所有英文改为纯白（#FFFFFF）、将时间改为2025/1/1、将地点从“北京市”改为“京北市”、并在左下角底部新增“欢迎大家来参加”。

基于男大学生同事对图片的主观、客观感受，我们简单排了序。

👉右滑更多精彩

在本轮测评中所有产品均不达预期。

第一梯队为11-12.5分，分别为Nano banana，即梦4.0，美图秀秀，Qwen Image edit，Manus，天工，Runway。

每个产品的缺分原因如下：

Nano Banana：英文没有改变，时间没有改变，左下角乱码。

即梦4.0：英文“welcome”改成了纯黑（错误），时间没有改变，地点没有改变，“大会”被改成纯黑色。

美图秀秀：锦秋基金颜色没改变，英文没有纯白，左下角欢迎大家来参加正确，但同时有相同的字符乱码，这部分给0.5分。

Qwen Image edit：英文没有识别完全，并且CEO也被改成了白色，地址成功改成了京北市，但生成了两次，这部分加0.5分，整体完成度挺好，但是细节处理还是有不足。

Manus：英文，地点，左下角错误乱码。

天工：英文除了“welcome”其他要求都满足，时间没有改变，地点没有改变。

Runway：英文被删除，地点没有改变，排版布局发生了变化，从竖版变成了横版。

第二梯队的在十分左右，7-10分，分别为Lovart， Genspark，智谱清言。

每个产品的缺分原因如下：

腾讯元宝：英文错乱，时间生成两个有一个正确，一个错误，地点乱码，左下角生成两串文字，一个正确一个乱码，删减了部分齿轮元素，整体排版格式错乱。

Lovart：英文，地点，左下角错误乱码，排版布局轻微改动。

Genspark：英文被删除，地点乱码，字体没有放在图片的左下角，不过在文字左半部分，这一环节可以加0.5分。

智谱清言图片格式完全变动，重新生成，除了左下角没有“欢迎大家来参加”，其他部分均完成，智谱清言是当前测评中文字处理最强的AI，中英文都没有乱码，但是整体排版格式重新生成了一个，主要问题在于不符合本次“修图”的主题。

第三梯队的在5分左右，分别是文心一言，Grok。

这两个产品的细节修改部分均为0分，没有一个小细节完全正确。

文心一言重新生成了个海报图片，整体格局也不符合“修图”的概念。

Grok原格局倒是保持较好，不过乱码太多，处理太差。

最后一部分为，Kling（Image 2.0），CanvaAI，Pixlr， SenseMirage。

细节处理部分基本全军覆没，除了CanvaAI对了一个时间的小细节以外，没有一个正确的，并且多数产品还会改变原有格局。

Round6 画质增强/修复

🏆提示词：图中为乔布斯的早期照片。请将图片变得更清晰，黑白照片变成彩色配色。

基于男大学生同事对图片的主观、客观感受，我们简单排了序。

👉右滑更多精彩

本轮测评较为简单，主要评测AI对于图片的整体处理能力。

满分10分的产品为美图秀秀，Sora，Qwen Image edit，Lovart， Genspark，Manus。

👉右滑更多精彩

第一梯队8-9分的产品有，Nano banana，即梦4.0，腾讯元宝，醒图，像素蛋糕，Runway。

其中Nano banana，腾讯元宝和Runway都是折在了清晰度这一关，图片整体上色比较自然，但分辨率处理还需要进行加强。

即梦的生成的脸型有细微拉长，有一点违和感，但综合来说完成了要求。

醒图，像素蛋糕都是可以成功变得很清晰，但无法自动AI加颜色。

CanvaAI，文心一言，智谱清言和SenseMirage都是重新生成的图片。

CanvaAI，文心一言和智谱清言均仅满足彩色要求，整体的图片格局和人物面貌都发生了改变。SenseMirage保留了图片原格局，但图中人物直接进行了替换。

总结

经过对21款AI修图工具的六轮严格测评，我们得以一窥当前AI图像编辑能力的真实水平。本次测评从“能否把已有素材修对”的实用视角出发，结果显示，不同产品之间的能力差距极为悬殊。

Qwen Image edit在多轮测试中（如抠图、替换）中表现不错，综合实力最强。

腾讯元宝和美图秀秀在基础的擦除和画质增强上展现了不错的效果。

Manus和Runway作为功能全面的平台，在多轮测试中保持了高度的稳定性和可用性。

Nano banana作为头部大厂出品的产品，有极强的稳定性，但对于某一细分领域，无法做到“满分”水准，但没有跌落过第一梯队。

而新兴的Lovart，也在多轮测评中获得了较高分数。

测评也揭示了当前AI修图的几个关键挑战：

“修图”与“生图”的混淆：这是本次测评中最大的“翻车点”。大量模型（如文心一言、智谱清言、SenseMirage等）在接到编辑指令时，倾向于重新生成一张符合描述的新图，而不是在用户提供的原图上进行修改，这完全违背了“修图”的初衷。
文字处理能力是重灾区：在Round5的“图上文字修改”中，所有产品均未获得高分。即便是表现相对较好的模型，也普遍存在无法识别特定修改区域、生成乱码、或直接改变原版式的问题，显示出AI在精细化文字编辑上的普遍短板。
复杂合成（多元素）能力不足：第四轮的图片合成测试对AI的多元素理解力提出了高要求。没有产品能获得满分，多数结果存在明显的“抠图硬贴”违和感，或出现元素遗漏、面部变形等问题。

专业工具与通用模型的对比：以美图秀秀为代表的传统修图软件，在AI加持下，于画质增强、局部修补等核心功能上依然保持着专业优势。而部分通用型Agent（如Manus）和背靠大厂的模型（如Qwen）则展现了“后发优势”，在综合编辑能力上已不容小觑，也变相证明了创业公司的机会。

AI修图的未来，不在于能生成多炫酷的图像，而在于能否精准理解并执行用户的每一个细微意图。可以看到，头部厂商已经从“能变”进化到了“修对”的阶段。

虽然目前还没有一款能完美应对所有需求的“六边形战士”，但对于用户而言，根据自己的核心需求（是擦人还是换衣，是增强画质还是合成创意），已然能大幅提升我们的修图效率。

微精选