好消息! 好消息~   欢迎科研团队供稿
免费分享学术  项目成果

现有的长视频生成框架普遍缺乏自动化规划能力,需依赖人工输入故事情节、场景设计、摄影安排以及角色互动,导致制作成本高昂、效率低下。为了解决这一问题,新加坡国立大学Show Lab提出了MovieAgent — 一种基于多智能体“链式思维”(Chain of Thought, CoT)规划的自动化电影生成系统。MovieAgent 在剧本忠实度、角色一致性与叙事连贯性方面均达到了新的业界领先水平。(链接在文章底部)

只需提供剧本和角色库,MovieAgent 即可自动生成包含多个场景、多镜头的长视频,具有连贯的叙事结构,并确保角色一致性、字幕同步以及音频稳定性贯穿整部影片。可自动规划场景结构、摄影机设置和拍摄风格,从而大幅减少人工干预。系统通过多智能体大语言模型(LLM),分别模拟导演、编剧、分镜师和选景师等角色,有效优化了整条制作流程。

01 技术原理

实际上,真实世界中的电影制作是一个分层的协作流程,涉及多个专业角色:导演、编剧、分镜师和摄影指导等,他们共同协作以维持叙事连贯性、角色一致性以及结构化的场景过渡。

因此,与短视频生成不同,电影级别的视频生成是一个高度复杂的过程,不仅包含高层次的电影主题,还涉及低层次的摄影参数。这种复杂性使得单一的模型(如大语言模型或视频生成框架)难以胜任整部电影的生成任务。传统电影制作依赖人工规划,而 MovieAgent 实现了剧本解析、场景规划与镜头设计的自动化,大幅提升了制作效率与叙事连贯性。

MovieAgent 通过多智能体的“链式思维”(Chain of Thought, CoT)推理过程,实现结构化、自动化的电影生成,系统将电影制作过程分解为一个分层的工作流程,模拟了传统电影制作中的关键角色。

具体来说,引入了三个专业代理角色:导演代理场景规划代理以及镜头规划代理。它们协同合作,完成叙事结构的构建、场景的规划以及电影镜头细节的生成。随后,系统利用定制化的镜头和音频生成模块,产出最终的视频与音频内容。

导演、编剧、摄影统统换成AI,一部电影它说拍就拍!

MovieAgent 的定制化镜头级视频生成:当前基于角色感知的镜头级视频生成方法主要可分为三类:(a) 基于关键帧的两阶段视频生成;(b) 单阶段端到端视频生成;(c) 基于关键帧的视频与音频联合生成。

02 演示效果

从剧本概要到电影生成:

根据剧本概要联合生成带有音频的电影:

https://github.com/showlab/MovieAgenthttps://arxiv.org/pdf/2503.07314

#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}