只用一张照片，它居然自己唱完整首歌？即梦数字人1.5隐藏玩法曝光

9月17日，即梦’数字人 1.5’全量上线了。

行者在即梦创作者群，提前给开内测了，看到这词更新信息两眼一亮。

❝

更新亮点：这次数字人，增加了角色的动作模仿，也就是对比之前只能只能增加角色，现在的数字人可以让角色做出与音音频内容相关的画面动作了。

通过动作描述，你可以控制情绪、动作、走位、运镜。直白话说，数字人1.5，除了给角色配音，他还可以生成视频了。

行者之前做过一期AI音乐，受限于当时的条件，角色只能做很简单的动作。

既然即梦升级了，那重新整一个MV看看效果。

这个视频，是行者花一个晚上做的，一些细节并没有处理得很好。大家可以看下我上次做的MV，对比效果还是很明显的：

原本的视频，角色只能轻微变化，没有太丰富的表情。

现在的视频画面既可以让角色唱歌，也可以遵循动作提示：切换景别、可以走动，更加丰富的手势。

可以想象，数字人1.5必然会在AI 音乐、影视动漫、二创视频等多个场景带来新的玩法。

这篇文章，我就用我做的AI MV，做个玩法拆解。

生成组图

首先，正确的打开方式是结合现在火热的「图片4.0模型」，输入一张参考图，自动生成一系列组图。

比如，行者拿了之前生成的MV 主图，来拓展场景，这是一位在录音棚录屏的小姐姐。

使用图片4.0生成分镜图：

❝

提示词：唱歌的女生是一位歌手，她在录音棚中完整演唱一首歌，完成专辑录制，场景基调深情动人，镜头切换次数10次

操作很简单，上传参考图，输入上面指令，点击发送就可以。

细心的朋友有没有发现，即梦4 已经可以支持生成4K超清图片了。

生成好图片后，分别把图片保存到电脑中备用。行者是找了8个分镜图。

生成数字人

进入即梦官网，在生成页面，下拉就能看到「数字人」，打开后就能看到新增了「动作描述」。

操作要点：

1.左侧上传角色的图片

2.上传音频：这里面有2种模式，可以选择音色，输入文案。或者上传音频，行者是自己做好音乐了。

上传音频的示意图：

选择音色和输入文字的示意图：

3.动作描述：我们输入图生视频描述词就好了，一般是景别，运镜说明，人物动作描述

4.模式：1.5有3种模式，大师模式和快速模式，基础模式。大师模式耗积分

指定说话角色：如果上传的图片中有多角色，可以在「角色说」处，点击切换要说话的角色。

大家可以来看下生成的视频效果:

MV的第一个分镜：

数字人说话的视频：

备注：有人在视频评论区问，即梦怎么能生成超过15秒的数字人，是这样的，我用即梦4图片模型生成的是8张图，我把我的音乐拆成了几段了。

因为图是直接即梦4.0生成的，做好视频后我发现有个别分镜的人脸一致性有点问题，为细调图片，踩了一个小坑。

用大师模式的人物表情生动自然，效果更好，但是缺点是积分消耗高。

图生视频提示词

做视频，群里面问的最多的就是怎么写生视频提示词，写提示词需要你对镜头，人物动作，怎么转换的有感觉。

这里行者提供一个简单的图生视频提示词给大家，大家放到豆包AI中:

❝

以这张图片为首镜头，生成一个5秒钟的视频分镜脚本，提供动效提示词，提示词结构:包括景别，视角，运镜，画面内容，人物表情，用词精练不能起过200字。最后再把生成的分镜提示词提炼成一段文字

这个提示词只是让你方便做出基础的视频，但是视频效果真的想做好，需要有创意。

歌词和音乐

对了，歌词和音乐，我是用 DeepSeek生成歌词，然后生成音乐的。

打开Deepseek，打开推理模型，把下面的歌词丢给AI:

❝

帮我写一首的情歌，类似《错位时空》，描绘了男女主角之间深刻的暗恋情感，深情又富有感染力，年轻人喜欢的歌曲

经过一段时间思考后，我们得到一段完整的的歌词：

❝

《追寻你的温柔》

咖啡馆里灯光下的倒影，

是我对着咖啡杯底心事的沉积，

杯口一圈-一圈是你的指纹，

将我环绕我却触摸不到你，

…..

歌词满意的话，就到AI音乐，如Suno中去生成音乐，这篇主要是讲数字人的，所以就不介绍那么细了。

合成视频

最后一步就是把生成的数字人音乐片段导入到剪映中，进行后期处理。

先把片段顺序调整好，使用智能字幕，识别出歌词。。

就这样，一个生动的AI音乐就完成了，看完是不是觉得很神奇，利用AI技术，像行者这样的理科男，也能创作出精美的AI 音乐。

小伙伴们，快来玩起来。

总结

这是一个最好的时代，AI 工具在不断的进化，普通人学习 AI 的门槛被拉的很低，通过简单的学习，就能创作出精美的视频。

但是，这对创作力的要求也更高了，AI 视频比拼的创意、在美学、在场景和故事化。

致敬所有的同行者，用心去琢磨，持续创新，下一波抓到风口的就是你。

微精选