9月17日, 即梦’数字人 1.5’全量上线了。

行者在即梦创作者群,提前给开内测了,看到这词更新信息两眼一亮。

更新亮点:这次数字人,增加了角色的动作模仿,也就是对比之前只能只能增加角色,现在的数字人可以让角色做出与音音频内容相关的画面动作了。

通过动作描述,你可以控制情绪、动作、走位、运镜。直白话说,数字人1.5,除了给角色配音,他还可以生成视频了。

行者之前做过一期AI音乐,受限于当时的条件,角色只能做很简单的动作。

既然即梦升级了,那重新整一个MV看看效果。

这个视频,是行者花一个晚上做的,一些细节并没有处理得很好。大家可以看下我上次做的MV,对比效果还是很明显的:

原本的视频,角色只能轻微变化,没有太丰富的表情。

现在的视频画面既可以让角色唱歌,也可以遵循动作提示:切换景别、可以走动,更加丰富的手势。

可以想象,数字人1.5必然会在AI 音乐、影视动漫、二创视频等多个场景带来新的玩法。

这篇文章,我就用我做的AI MV,做个玩法拆解。

生成组图

首先,正确的打开方式是结合现在火热的「图片4.0模型」,输入一张参考图,自动生成一系列组图。

比如,行者拿了之前生成的MV 主图,来拓展场景,这是一位在录音棚录屏的小姐姐。


使用图片4.0生成分镜图:

提示词:唱歌的女生是一位歌手,她在录音棚中完整演唱一首歌,完成专辑录制,场景基调深情动人,镜头切换次数10次


操作很简单,上传参考图,输入上面指令,点击发送就可以。

细心的朋友有没有发现,即梦4 已经可以支持生成4K超清图片了。

生成好图片后,分别把图片保存到电脑中备用。行者是找了8个分镜图。

生成数字人

进入即梦官网,在生成页面,下拉就能看到「数字人」,打开后就能看到新增了「动作描述」。


操作要点:

1.左侧上传角色的图片

2.上传音频:这里面有2种模式,可以选择音色,输入文案。或者上传音频,行者是自己做好音乐了。

上传音频的示意图:

选择音色和输入文字的示意图:


3.动作描述:我们输入图生视频描述词就好了,一般是景别,运镜说明,人物动作描述

4.模式:1.5有3种模式,大师模式和快速模式,基础模式。大师模式耗积分

指定说话角色:如果上传的图片中有多角色,可以在「角色说」处,点击切换要说话的角色。

大家可以来看下生成的视频效果:

MV的第一个分镜:

只用一张照片,它居然自己唱完整首歌?即梦数字人1.5隐藏玩法曝光

数字人说话的视频:

备注:有人在视频评论区问,即梦怎么能生成超过15秒的数字人,是这样的,我用即梦4图片模型生成的是8张图,我把我的音乐拆成了几段了。

因为图是直接即梦4.0生成的,做好视频后我发现有个别分镜的人脸一致性有点问题,为细调图片,踩了一个小坑。

用大师模式的人物表情生动自然,效果更好,但是缺点是积分消耗高。

图生视频提示词

做视频,群里面问的最多的就是怎么写生视频提示词,写提示词需要你对镜头,人物动作,怎么转换的有感觉。

这里行者提供一个简单的图生视频提示词给大家,大家放到豆包AI中:

以这张图片为首镜头,生成一个5秒钟的视频分镜脚本,提供动效提示词,提示词结构:包括景别,视角,运镜,画面内容,人物表情,用词精练不能起过200字。最后再把生成的分镜提示词提炼成一段文字



这个提示词只是让你方便做出基础的视频,但是视频效果真的想做好,需要有创意。

歌词和音乐

对了,歌词和音乐,我是用 DeepSeek生成歌词,然后生成音乐的。

打开Deepseek,打开推理模型,把下面的歌词丢给AI:

帮我写一首的情歌,类似《错位时空》,描绘了男女主角之间深刻的暗恋情感,深情又富有感染力,年轻人喜欢的歌曲


经过一段时间思考后,我们得到一段完整的的歌词:

《追寻你的温柔》

咖啡馆里 灯光下的倒影,

是我对着咖啡杯底 心事的沉积,

杯口一圈-一圈 是你的指纹,

将我环绕 我却触摸不到你,

…..

歌词满意的话,就到AI音乐,如Suno中去生成音乐,这篇主要是讲数字人的,所以就不介绍那么细了。

合成视频

最后一步就是把生成的数字人音乐片段导入到剪映中,进行后期处理。

先把片段顺序调整好,使用智能字幕,识别出歌词。。


就这样,一个生动的AI音乐就完成了,看完是不是觉得很神奇,利用AI技术,像行者这样的理科男,也能创作出精美的AI 音乐。

小伙伴们,快来玩起来。

总结

这是一个最好的时代,AI 工具在不断的进化,普通人学习 AI 的门槛被拉的很低,通过简单的学习,就能创作出精美的视频。

但是,这对创作力的要求也更高了,AI 视频比拼的创意、在美学、在场景和故事化。

致敬所有的同行者,用心去琢磨,持续创新,下一波抓到风口的就是你。