豆包,相信大家平时肯定都没少玩。
作为现在的国民级 AI 助手,写个文案、做个图,那是真的顺手。
尤其是它的生图能力,咱们之前也没少聊,那就是国内的天花板,没得说。
但生成视频大家玩的多吗?虽然画面质量不错,但总觉得少了点灵魂。
因为它是个哑巴。
之前一直都是默片时代,只有画面在那动,没声音。对于想做短视频、想搞创作的人来说,只有画面没声音,还得自己去找 BGM、自己去配音,这门槛一下就高了,玩视频的积极性确实大打折扣。
不过,豆包最近悄悄开启了 Seedance 1.5 Pro 的内测。据说这是字节跳动新一代的音视频创作模型,主打的就是一个有声有色,音画同步。
还好,我有幸拿到了内测权限,打开豆包 App 对话框,选择「照片动起来」,上传图片并输入提示词,选择「1.5 Pro」模型,就能体验到了。
那还等什么?直接开整!
整整一个下午加晚上,开始了一波高强度的实测,涵盖动作、剧情、方言、甚至是一些奇奇怪怪的脑洞。
下面,请系好安全带,我们要进入全民有声 AI 视频时代了。
极限评测
1. 水上运动
我先来个视觉冲击力强的。以前 AI 生成运动视频,最怕的就是人物飘忽不定,画面不稳,而且没有声音的配合,那种速度感根本出不来。
我选了一个冲浪的图片来试试手气。
提示词:冲浪运动大片,镜头后退,追随冲浪运动员高速穿过水浪,拍出全景画面,配上动感 bgm。
一次搞定,无需抽卡。
豆包似乎具备了自发的镜头调度能力,一个丝滑的拉远镜头,直接把运动员穿过水浪的那个张力拉满。
最关键的是声音,BGM 的卡点非常准,配合水浪翻滚的声音,那种临场感一下就出来了。
以前看这种 AI 视频像看 GIF,现在看,这才叫 Video。
2. 直播带货
现在的短视频什么最火?直播带货切片啊。AI 能不能搞定这种强口型、强表情的场景?而且我特意设计了一个有点反差萌的段子。
提示词:直播带货现场,女网红一本正经在介绍产品马桶搋子,镜头切换到产品特写。女网红说:“这是一个马桶搋子。”镜头切换给到表情特写,她继续笑着说:“想堵住你通往别人心里的路。”
哈哈,这个真的给我看笑了。
Seedance 1.5 Pro 在语义理解上的提升非常明显 ,它完全听懂了我要的那种一本正经搞笑的氛围。
女网红的口型跟台词完美同步,最神的是那个笑容,配合那句土味情话,那种微妙的尴尬和幽默感拿捏得也很到位。
3. 方言整活
既然支持多语言,那我必须测测方言。国产模型如果不能说方言,那还叫什么国产之光?
提示词:汤姆用河南话说:“这么中,那么燃,周末到河南!”两人击个掌。然后哈哈大笑。
该说不说,作为一个河南人,豆包这个河南话还是有优化的空间的,但台词的遵循完成度还是比较高。
汤姆猫说完那句台词,然后那个击掌的动作和笑声的配合,节奏感极佳。这说明豆包捕捉到了语音韵律里的情感张力,不仅仅是念稿子,而是在表演。
4. 兵马俑 Rap
再来个脑洞大开的。古迹+Rap+方言,这种跨界的组合,看看 AI 能不能 hold住。
提示词:实拍高级质感,移动环绕镜头,兵马俑开始用陕西话说起 Rap:“额滴个神,这地宫太冷,没得暖气只有坑。游客天天拍拍拍,不开美颜真的坏。”随后镜头急推至近特写,兵马俑一声长叹。
兵马俑那个冷峻的脸配上陕西话 Rap,反差感拉满。环绕镜头非常稳,完美展示了兵马俑的质感,切入的 Rap 口型完全对得上,不过同样也是个别音节的方言发音还需要优化。
最后的那个长叹,还真是神来之笔,说明豆包这波对指令的遵循很准确。

5. 短剧展示
咳咳,这个测试是为了验证豆包对叙事语境的解析能力。这种带有强烈情绪的微短剧剧本,最考验 AI 的逻辑。
提示词:一个女人在哭泣抱怨:“说好的一个小时,怎么才三秒钟?渣男!” 镜头推进面部特写。
这也太真实了… 女演员哭泣和抱怨的那种神情,自然得吓人。
豆包把那种委屈又带点愤怒的情绪通过特写镜头无限放大。而且那句台词的语气,非常有故事感,说明这妹纸是真失望了。
6. 情感大戏
AI 视频一直有个痛点,就是人物像木头,没有情绪。我决定上个高难度的,吵架戏码,看看它能不能理解愤怒和绝望。
提示词:拍摄现场,男女主角正在吵架,男的对女的说:“你说的每一个字都是假的!”女的指着男的大声喊:“我是为了我们的未来!”镜头推进人物特写。
这情绪爆发力,恐怖如斯。镜头推进特写的时候,你能清晰看到女主角眼里的情绪波动。不需要复杂的提示词,它自己就懂怎么导戏。
我觉得这里最赞的是女主的手势,在吵架的时候,伴随着每个字,手指抖动的节奏和真人吵架的表现一样,这是懂吵架的。
7. 速度与激情
光有人声不行,环境音效才是沉浸感的关键。我搞了个赛车场景,看看它能不能处理复杂的音效叠加。
提示词:一辆赛车在沙漠赛道上高速行驶。镜头首先从低角度紧紧跟随赛车疾驰,轮胎卷起阵阵沙尘,背景是阳光强烈的荒芜沙丘和山脉。随后,镜头切换为弯道处的动感特写,捕捉赛车横向滑过弯道、轮胎剧烈摩擦地面产生浓烟的瞬间,镜头转为固定机位,看着汽车继续沿着道路驶向远方。整个画面伴随着震耳欲聋的引擎轰鸣和刺耳的轮胎尖啸声。配上高音量动感 bgm。
豆包不仅仅是配了个 BGM,它是根据画面内容精确叠加了环境音。这种音画协同的完成度,直接把视频的动态张力拉满了。
这就是所见即所听,引擎的轰鸣声随着赛车的远近有明显的空间变化,漂移时轮胎摩擦地面的尖啸声更是真切,完全和提示词高度一致,挑不出毛病来。
8. 赛博战场
再来测试一下复杂光影和高动态跟拍。
提示词:硝烟弥漫的近未来城市废墟战场,一台涂装为哑光战术黑的四足机器狗,在密集的火力网中极速奔跑,发射子弹。运镜采用贴地超低角度极速跟随,镜头略带战地摄影的晃动感,背景音是沉闷的炮火与子弹击中掩体的声音。
这种低角度跟随+晃动感的运镜,非常有代入感,就像有一个战地摄影师扛着机器在跑。机器狗的运动姿态非常符合物理规律,没有出现奇怪的扭曲。
配合上炮火的声音,那种压迫感瞬间就传达出来了。这对于做科幻短片的人来说,连特效也省了。
9. 跨时空同框:教父的自拍
最后,来赶个时髦,最近 AI 电影探班不是很火嘛,我也来玩一把。
提示词:教父穿着礼服坐在黑暗的书桌前,表情严肃且不悦。旁边一个现代年轻人,手臂搭在教父肩膀上,开心地比着剪刀手(耶)。教父扭头对年轻人说:“I’m gonna make him an offer he can’t refuse。”昏暗的室内光线,电影胶片质感。
这光影,这胶片颗粒感,完全就是电影截图动起来了。教父那句经典的台词一出,那低沉的嗓音,直接梦回。
旁边那个比耶的年轻人不仅没有破坏画面,反而通过这种荒诞的对比,让视频更有趣。
结语
豆包这次升级直接一口气把精准音画同步 、多语言方言支持和电影级运镜全部点满。
这意味着它不仅能捕捉方言独有的韵律和情感张力 ,还能自发调度长镜头这种高难度运镜 ,甚至连角色的口型和表演节奏都拟合得严丝合缝。
当然,实际测试过程中,还是会存在抽卡,但是每次调整完提示词,第二次基本就一遍过,给人感觉就是这伙计听劝,是能听懂人话的。
看吧,接下来,抖音将迎来 AI 短视频的狂欢。
你可能会说,抖音上早就一大堆 AI 视频了是吧。
不对,你看到的那些很多都是专业创作者,现在不一样了,人人都会玩的豆包也加入进来,一句话就可以做出一个 10 秒有声有色的有趣视频,叠加上豆包的国民级用户量级,想象空间可想而知
对了,这不就是 Sora 2 一直画大饼想做、却至今没做成的 AI 社交视频应用吗?