这是豆包的一小步，却是全民AI视频的一大步

豆包，相信大家平时肯定都没少玩。

作为现在的国民级 AI 助手，写个文案、做个图，那是真的顺手。

尤其是它的生图能力，咱们之前也没少聊，那就是国内的天花板，没得说。

但生成视频大家玩的多吗？虽然画面质量不错，但总觉得少了点灵魂。

因为它是个哑巴。

之前一直都是默片时代，只有画面在那动，没声音。对于想做短视频、想搞创作的人来说，只有画面没声音，还得自己去找 BGM、自己去配音，这门槛一下就高了，玩视频的积极性确实大打折扣。

不过，豆包最近悄悄开启了 Seedance 1.5 Pro 的内测。据说这是字节跳动新一代的音视频创作模型，主打的就是一个有声有色，音画同步。

还好，我有幸拿到了内测权限，打开豆包 App 对话框，选择「照片动起来」，上传图片并输入提示词，选择「1.5 Pro」模型，就能体验到了。

那还等什么？直接开整！

整整一个下午加晚上，开始了一波高强度的实测，涵盖动作、剧情、方言、甚至是一些奇奇怪怪的脑洞。

下面，请系好安全带，我们要进入全民有声 AI 视频时代了。

极限评测

1. 水上运动

我先来个视觉冲击力强的。以前 AI 生成运动视频，最怕的就是人物飘忽不定，画面不稳，而且没有声音的配合，那种速度感根本出不来。

我选了一个冲浪的图片来试试手气。

提示词：冲浪运动大片，镜头后退，追随冲浪运动员高速穿过水浪，拍出全景画面，配上动感 bgm。

一次搞定，无需抽卡。

豆包似乎具备了自发的镜头调度能力，一个丝滑的拉远镜头，直接把运动员穿过水浪的那个张力拉满。

最关键的是声音，BGM 的卡点非常准，配合水浪翻滚的声音，那种临场感一下就出来了。

以前看这种 AI 视频像看 GIF，现在看，这才叫 Video。

2. 直播带货

现在的短视频什么最火？直播带货切片啊。AI 能不能搞定这种强口型、强表情的场景？而且我特意设计了一个有点反差萌的段子。

提示词：直播带货现场，女网红一本正经在介绍产品马桶搋子，镜头切换到产品特写。女网红说：“这是一个马桶搋子。”镜头切换给到表情特写，她继续笑着说：“想堵住你通往别人心里的路。”

哈哈，这个真的给我看笑了。

Seedance 1.5 Pro 在语义理解上的提升非常明显，它完全听懂了我要的那种一本正经搞笑的氛围。

女网红的口型跟台词完美同步，最神的是那个笑容，配合那句土味情话，那种微妙的尴尬和幽默感拿捏得也很到位。

3. 方言整活

既然支持多语言，那我必须测测方言。国产模型如果不能说方言，那还叫什么国产之光？

提示词：汤姆用河南话说：“这么中，那么燃，周末到河南！”两人击个掌。然后哈哈大笑。

该说不说，作为一个河南人，豆包这个河南话还是有优化的空间的，但台词的遵循完成度还是比较高。

汤姆猫说完那句台词，然后那个击掌的动作和笑声的配合，节奏感极佳。这说明豆包捕捉到了语音韵律里的情感张力，不仅仅是念稿子，而是在表演。

4. 兵马俑 Rap

再来个脑洞大开的。古迹+Rap+方言，这种跨界的组合，看看 AI 能不能 hold住。

提示词：实拍高级质感，移动环绕镜头，兵马俑开始用陕西话说起 Rap：“额滴个神，这地宫太冷，没得暖气只有坑。游客天天拍拍拍，不开美颜真的坏。”随后镜头急推至近特写，兵马俑一声长叹。

兵马俑那个冷峻的脸配上陕西话 Rap，反差感拉满。环绕镜头非常稳，完美展示了兵马俑的质感，切入的 Rap 口型完全对得上，不过同样也是个别音节的方言发音还需要优化。

最后的那个长叹，还真是神来之笔，说明豆包这波对指令的遵循很准确。

5. 短剧展示

咳咳，这个测试是为了验证豆包对叙事语境的解析能力。这种带有强烈情绪的微短剧剧本，最考验 AI 的逻辑。

提示词：一个女人在哭泣抱怨：“说好的一个小时，怎么才三秒钟？渣男！” 镜头推进面部特写。

这也太真实了… 女演员哭泣和抱怨的那种神情，自然得吓人。

豆包把那种委屈又带点愤怒的情绪通过特写镜头无限放大。而且那句台词的语气，非常有故事感，说明这妹纸是真失望了。

6. 情感大戏

AI 视频一直有个痛点，就是人物像木头，没有情绪。我决定上个高难度的，吵架戏码，看看它能不能理解愤怒和绝望。

提示词：拍摄现场，男女主角正在吵架，男的对女的说：“你说的每一个字都是假的！”女的指着男的大声喊：“我是为了我们的未来！”镜头推进人物特写。

这情绪爆发力，恐怖如斯。镜头推进特写的时候，你能清晰看到女主角眼里的情绪波动。不需要复杂的提示词，它自己就懂怎么导戏。

我觉得这里最赞的是女主的手势，在吵架的时候，伴随着每个字，手指抖动的节奏和真人吵架的表现一样，这是懂吵架的。

7. 速度与激情

光有人声不行，环境音效才是沉浸感的关键。我搞了个赛车场景，看看它能不能处理复杂的音效叠加。

提示词：一辆赛车在沙漠赛道上高速行驶。镜头首先从低角度紧紧跟随赛车疾驰，轮胎卷起阵阵沙尘，背景是阳光强烈的荒芜沙丘和山脉。随后，镜头切换为弯道处的动感特写，捕捉赛车横向滑过弯道、轮胎剧烈摩擦地面产生浓烟的瞬间，镜头转为固定机位，看着汽车继续沿着道路驶向远方。整个画面伴随着震耳欲聋的引擎轰鸣和刺耳的轮胎尖啸声。配上高音量动感 bgm。

豆包不仅仅是配了个 BGM，它是根据画面内容精确叠加了环境音。这种音画协同的完成度，直接把视频的动态张力拉满了。

这就是所见即所听，引擎的轰鸣声随着赛车的远近有明显的空间变化，漂移时轮胎摩擦地面的尖啸声更是真切，完全和提示词高度一致，挑不出毛病来。

8. 赛博战场

再来测试一下复杂光影和高动态跟拍。

提示词：硝烟弥漫的近未来城市废墟战场，一台涂装为哑光战术黑的四足机器狗，在密集的火力网中极速奔跑，发射子弹。运镜采用贴地超低角度极速跟随，镜头略带战地摄影的晃动感，背景音是沉闷的炮火与子弹击中掩体的声音。

这种低角度跟随+晃动感的运镜，非常有代入感，就像有一个战地摄影师扛着机器在跑。机器狗的运动姿态非常符合物理规律，没有出现奇怪的扭曲。

配合上炮火的声音，那种压迫感瞬间就传达出来了。这对于做科幻短片的人来说，连特效也省了。

9. 跨时空同框：教父的自拍

最后，来赶个时髦，最近 AI 电影探班不是很火嘛，我也来玩一把。

提示词：教父穿着礼服坐在黑暗的书桌前，表情严肃且不悦。旁边一个现代年轻人，手臂搭在教父肩膀上，开心地比着剪刀手（耶）。教父扭头对年轻人说：“I’m gonna make him an offer he can’t refuse。”昏暗的室内光线，电影胶片质感。

这光影，这胶片颗粒感，完全就是电影截图动起来了。教父那句经典的台词一出，那低沉的嗓音，直接梦回。

旁边那个比耶的年轻人不仅没有破坏画面，反而通过这种荒诞的对比，让视频更有趣。

结语

豆包这次升级直接一口气把精准音画同步、多语言方言支持和电影级运镜全部点满。

这意味着它不仅能捕捉方言独有的韵律和情感张力，还能自发调度长镜头这种高难度运镜，甚至连角色的口型和表演节奏都拟合得严丝合缝。

当然，实际测试过程中，还是会存在抽卡，但是每次调整完提示词，第二次基本就一遍过，给人感觉就是这伙计听劝，是能听懂人话的。

看吧，接下来，抖音将迎来 AI 短视频的狂欢。

你可能会说，抖音上早就一大堆 AI 视频了是吧。

不对，你看到的那些很多都是专业创作者，现在不一样了，人人都会玩的豆包也加入进来，一句话就可以做出一个 10 秒有声有色的有趣视频，叠加上豆包的国民级用户量级，想象空间可想而知

对了，这不就是 Sora 2 一直画大饼想做、却至今没做成的 AI 社交视频应用吗？

微精选

这是豆包的一小步，却是全民AI视频的一大步

最近文章