作者:Junshu Tang等
项目链接:https://hunyuan-gamecraft-2./
论文链接:https:///pdf/2511.23429
亮点直击
提出了一个统一的可控视频生成框架,该框架集成了文本、键盘和鼠标信号,以实现基于语义的交互操作。 利用自回归蒸馏与随机化长视频微调技术,确保高效稳定的长时序视频生成,并通过KV缓存重计算实现多轮推理优化,结合工程优化实现实时16帧/秒的性能。 通过大量的定量与定性实验,全面验证了所提出框架的有效性,结果表明该框架在生成交互式视频方面性能优异,能够忠实响应用户指令,同时保持视觉质量和时序连贯性。
总结速览
解决的问题
现有生成式世界模型在创建开放式游戏环境方面取得了进展,但仍存在以下限制:
-
僵硬的动作图式和高标注成本: 当前方法依赖于固定的键盘输入等动作模式和大量的标注数据,这限制了它们建模多样化游戏内交互和玩家驱动的动态的能力。 -
缺乏形式化的交互定义和可扩展的构建流程: 在世界模型的背景下,缺乏对“交互”的明确定义,以及将大规模非结构化文本-视频对转化为交互式数据集的高效、可扩展管道。 -
多轮交互中的长期一致性: 在生成长视频时,保持视频质量和交互准确性方面的挑战,以及误差积累问题。
提出的方案
文章提出了 Hunyuan-GameCraft-2,一种基于指令驱动交互的生成式游戏世界建模新范式。
-
指令驱动的灵活控制: 允许用户通过自然语言提示、键盘或鼠标信号来控制游戏视频内容,实现灵活且具有语义丰富的交互。 -
交互式视频数据(Interactive Video Data)的正式定义: 将世界模型中的交互定义为“由一个明确的代理执行的、能够触发环境中具有清晰因果关系和物理或逻辑有效性的状态转换的动作”。 -
自动化交互式数据构建管道: 开发了两个自动化管道,能够将大规模、非结构化的文本-视频对转化为富含隐式因果标签的开放域交互式数据集。 -
统一的控制机制: 将基于文本的指令和键盘/鼠标动作信号集成到一个统一的、可控的视频生成器中。 -
新的评估基准: 引入 InterBench,一个以交互为中心的基准,用于系统地评估交互性能的关键维度(如交互完整性、动作有效性、因果连贯性和物理合理性)。
应用的技术
Hunyuan-GameCraft-2 模型建立在以下技术之上:
-
14B 图像到视频的 MoE(Mixture-of-Experts)基础模型: 模型的基础架构。 -
文本驱动的交互注入机制: 用于细粒度控制摄像机运动、角色行为和环境动态。 -
自回归蒸馏策略(Autoregressive Distillation): 将双向视频生成器转化为因果自回归模型,以支持高效的长周期视频生成。 -
随机化的图像到长视频扩展调整方案(Randomized Image-to-Long-Video Extension Tuning): 用于缓解长时程推演中的误差积累问题,确保生成稳定连贯的长视频。 -
KV-Recache 机制(参照 LongLive): 用于增强自回归长视频生成中多轮交互的准确性和稳定性。 -
工程加速优化: 提高了模型的推理速度。
达到的效果
通过广泛的实验和 InterBench 上的评估,Hunyuan-GameCraft-2 取得了以下效果:
-
生成效果领先: 在 InterBench 和通用视频质量指标上实现了最先进(state-of-the-art)的性能。 -
高质量和一致性: 能够生成时间上连贯、具有因果基础的交互式游戏视频。 -
忠实响应指令: 能够忠实地响应多样化和自由形式的用户指令,例如“打开门”、“画一个火把”或“触发爆炸”。 -
实时交互能力: 模型的推理速度提升至 16 FPS,实现了实时交互式视频生成。
方法
本文提出了 Hunyuan-GameCraft-2,这是一个专注于自由形式指令控制的交互式游戏视频模型。整体框架如下图 5 所示。具体而言,本工作将自然的动作注入因果架构、图像条件自回归长视频生成以及多样化的多提示词交互统一到了一个紧密的框架中。本节将介绍模型架构、训练过程及推理过程。
模型架构
本模型的主要架构基于一个 14B 参数的图生视频混合专家(MoE)基础视频生成模型。本工作的目标是将该图生视频扩散模型扩展为一个动作可控的生成器。动作空间包括键盘输入和自由形式的文本提示词。
对于键盘和鼠标信号注入(W, A, S, D, , Space 等),本工作采用了 GameCraft-1的方法,将这些离散的动作信号映射为连续的相机控制参数。在训练期间,标注的相机参数被编码为 Plücker 嵌入,并通过令牌相加(token addition)的方式集成到模型中。在推理时,用户输入被转换为相机轨迹以推导出这些参数。
关于基于提示词的交互注入,本文观察到基础模型难以表达某些交互性动词,这主要是因为交互文本相比场景描述具有更高的语义和空间复杂性。此类文本通常与特定的视觉区域或对象实例紧密耦合。为了缓解这一问题,本工作利用多模态大语言模型(MLLM)来提取、推理并将交互信息注入到主模型中。这能够丰富与交互相关的文本指导,提高模型在训练过程中区分通用文本指令和细粒度交互行为的能力。这种相机条件控制与基于文本的场景及交互输入相结合,形成了一种统一的机制,使 Hunyuan-GameCraft-2 能够在环境中无缝地导航和交互。
如上图 5 所示,给定参考图像及相应的动作、键盘/鼠标信号和基于提示词的指令,本工作将这些选项注入到主架构中。在训练和推理过程中,利用 Self-Forcing 后训练进行长视频扩展,并利用 KV-cache/recache 进行多动作切换。为了保持长视频的质量,设计了一种随机化长视频微调方案。
训练过程
为了实现长时长且实时的交互式视频生成,必须将基础的双向模型蒸馏为少步数的因果生成器。在本工作中,我们将综合自回归蒸馏技术 Self-Forcing扩展到了 14B MoE 图生视频模型上。该方案专为增强长视频生成的质量和效率而定制,因为长视频生成通常具有大幅度且快速的场景变化。本文引入了随机扩展微调(random extension tuning)以减轻误差累积。训练过程分为四个阶段:(1)动作注入训练,(2)指令导向的监督微调(SFT),(3)自回归生成器蒸馏,以及(4)随机化长视频扩展微调。
动作注入训练
此阶段的主要目标是建立对 3D 场景动态、光照和物理的基本理解。本工作加载预训练权重,并使用流匹配(flow-matching)目标对模型进行微调以适应架构调整。为了提高长期一致性,采用了课程学习策略。具体而言,将训练分为三个阶段,依次让模型接触 480p 分辨率下的 45、81 和 149 帧的视频数据。这种阶梯式的方法使模型能够先巩固对短期运动动态的理解,然后逐渐调整其注意力机制以处理更长持续时间连贯性所需的复杂依赖关系。此外,在训练期间随机选择长和短的标题,并拼接交互式标题以进行交互学习。此选项有助于模型初步感知交互信息的注入。
指令导向的监督微调
为了增强模型的交互能力,本工作通过利用程序生成的合成视频增强真实世界素材,构建了一个包含 150K 样本的数据集。这些合成序列可以提供跨多种交互类型(例如,状态转换、主体交互)的高保真监督信号,从而建立动作与其视觉结果之间的紧密对应关系。在随后的阶段中,冻结相机编码器的参数,仅微调 MoE 专家层。此过程旨在优化模型与语义控制线索的对齐。

自回归生成器蒸馏
对于交互式世界模型而言,将定长视频生成器扩展为高质量的自回归长视频生成至关重要。先前的工作在长视频生成方面已进行了初步尝试。基于高噪声和低噪声 MoE 架构及相机参数注入,本工作对注意力机制和蒸馏协议进行了针对性的调整。这些修改专门用于优化自回归蒸馏过程中的性能。
Sink Token 与块稀疏注意力(Block Sparse Attention):先前的技术使用直接滑动窗口方法更新因果注意力的 KV 缓存。然而,这可能导致生成质量随时间下降,因为后续步骤无法引用初始条件帧,导致漂移。本工作将初始帧指定为 Sink Token(锚点令牌),并始终保留在 KV 缓存中。这一修改有两个关键作用:首先,它提高并稳定了生成质量。其次,在本工作的特定任务中,Sink Token 提供了坐标系原点的信息。这确保了在自回归过程中注入的相机参数始终与初始帧对齐,从而避免了因坐标原点偏移而在每个自回归步骤都需要重新缓存(recache)的问题。此外,本工作采用块稀疏注意力进行局部注意力计算,这更适合自回归、分块生成的流程。具体来说,正在生成的目标块可以关注一组先前的块。这种局部注意力与上述 Sink 注意力相结合,构成了完整的 KV 缓存,在提高生成质量的同时也加速了生成速度。
蒸馏调度(Distillation Schedule):由于 MoE 架构的独特性,高噪声专家在训练和收敛方面比低噪声专家面临更大的挑战,特别是在 SFT 或蒸馏期间。为了解决这个问题,本工作为每个专家分配了不同的学习率。同时,根据分隔两个专家的噪声水平边界,重新定义了用于蒸馏的去噪时间步目标列表。这确保了教师模型和学生模型在蒸馏过程中选择高噪声或低噪声专家时保持一致性(如下图 6 所示)。
随机化长视频扩展微调
本工作实现长视频生成的方法受到了一个观察的启发:尽管基础模型是在短片段上预训练的,但它隐含地捕捉了全局视觉数据分布。先前的方法 从因果生成器中展开长视频序列,并在扩展帧上应用分布矩距离(DMD)对齐。该策略有效地减轻了自回归生成过程中的误差累积。
基于这一见解,本工作采用随机化扩展微调策略,使用超过 10 秒的长时长游戏视频数据集。在这个阶段,模型自回归地展开 帧,并均匀采样连续的 帧窗口以对齐预测分布和目标分布(真实值或教师先验)。此外,我们将预测视频从因果生成器随机扩展到不同的长度,以提高跨不同时间范围的鲁棒性。在实践中,当在窗口 展开时,学生生成器使用 Sink Token 和 KV 缓存并自回归地扩展长视频,而 Fake Score 教师模型使用前一个干净预测块中的最后一帧 作为图像条件;Real Score 则使用原始视频中的真实帧。
为了减轻少步数蒸馏固有的交互能力侵蚀,本工作采用了一种交错使用 Self-forcing(自身强制)与 Teacher-forcing(教师强制)的训练范式。这种方法的理由是迫使模型掌握状态恢复并保持时间稳定性。至关重要的是,这是通过在生成轨迹的任意点将其暴露于不同状态来实现的,而不是将这种纠正训练仅限于初始阶段。
多轮交互推理
自注意力 KV 缓存:为了保持与训练策略的一致性,推理过程采用了具有滚动更新机制的固定长度自注意力 KV 缓存,以促进高效的自回归生成,如下图 7 所示。具体而言,Sink Token 永久保留在缓存窗口的开始处。随后的部分作为局部注意力窗口,在整个多轮交互中保留目标去噪块之前的 帧。完整的 KV 缓存由这些 Sink Token 和局部注意力组件组成,通过块稀疏注意力实现。这种设计不仅提高了自回归效率,还有效防止了质量漂移。
ReCache(重缓存)机制:本工作采用 Recache 机制来增强自回归长视频生成中多轮交互的准确性和稳定性。在接收到新的交互提示词后,模型提取相应的交互嵌入以重新计算最后一个自回归块,并更新自注意力和交叉注意力 KV 缓存。该策略以最小的计算开销为随后的目标块提供了精确的历史上下文,从而确保准确和响应迅速的反馈,以促进更流畅的用户体验。
实时交互加速
为了进一步加速推理并最小化延迟,本工作结合了几项系统级优化:
-
FP8 量化: 减少内存带宽并利用 GPU 加速,同时保持视觉质量; -
并行化 VAE 解码: 实现了潜在帧(latent-frame)的同步重建,缓解了长序列解码的瓶颈; -
SageAttention: 用优化的量化注意力内核替换 FlashAttention,以加快 Transformer 计算; -
序列并行(Sequence parallelism): 将视频令牌分布在多个 GPU 上,支持高效的长上下文生成。
综合这些技术,推理速度提升至 16 FPS,实现了具有稳定质量和低延迟的实时交互式视频生成。
实验
模型与数据集配置
实验将 Hunyuan-GameCraft-2 与几种 SOTA 图生视频基础模型进行了对比,包括 HunyuanVideo、Wan2.2 A14B 和 LongCatVideo。所有基线模型均在官方推荐的配置下运行。为了评估,构建了一个包含三个核心交互维度的测试套件:(1) 环境交互,(2) 角色动作,(3) 实体与物体出现。测试集包含 100 张覆盖多种场景和风格的图片,所有模型统一生成分辨率为 、长度为 93 帧的视频。
评估指标
评估使用了两类指标:
-
通用指标: 包括 FVD(视频真实感)、图像质量与美学评分、时间一致性以及动态平均值(光流幅度)。此外还使用相对位姿误差(RPE)评估相机控制精度。 -
InterBench(交互基准): 本文提出的针对动作级交互的六维度评估协议。使用 VLM 作为自动评估器,涵盖以下维度:
-
交互触发率(是否发生了动作) -
提示词-视频对齐度(语义保真度) -
交互流畅度(时间自然度) -
交互范围准确性(空间影响是否合理) -
终态一致性(最终状态是否稳定) -
物体物理正确性(结构完整性与运动学)
交互评估结果
定量结果:如下表 5 所示,GameCraft-2 在所有交互类别(环境、角色动作、实体出现)的各项指标上均显著优于基线模型。
-
触发率: GameCraft-2 的交互触发率极高(环境交互 0.962,角色动作 0.983),远超其他模型。 -
物理与一致性: 在物理正确性方面,比次优模型高出 0.52-0.68 分;在流畅度和终态一致性上也表现出大幅提升。 -
综合性能: 如下表 4 所示,在通用视频质量指标(FVD、图像质量等)和实时性(16 FPS)方面,GameCraft-2 也达到了最佳平衡。
定性分析:通过可视化对比(文中图 10, 11, 12, 13, 22-24),GameCraft-2 展现了更高的保真度:
-
环境交互: 如“降雪”能实现全局覆盖和动态积雪,而基线模型往往缺乏动态演变。 -
角色动作: 生成的动作(如“持枪射击”)更加连贯,手物接触准确,且终态稳定。 -
物体出现: 新生成的实体(如“龙”或“车辆”)能保持结构完整性和身份一致性。
泛化能力:模型展示了超出训练分布的泛化能力。例如,尽管训练数据中没有“人突然出现”或“龙出现”的具体实例,模型仍能处理这些未见过的交互,生成符合物理规律的状态转换(图 15)。
消融实验
针对长视频微调和 KV-Cache 设置进行了消融研究(文中图 16):
-
长视频微调: 引入随机化扩展长视频微调显著提高了 450 帧以后的视频保真度和运动一致性。 -
Cache 设置: 增加 Sink Token 和局部注意力的大小可以丰富细节,但可能增加伪影。
总结
Hunyuan-GameCraft-2,一种交互式游戏世界模型,能够响应自由形式的文本指令和键盘/鼠标动作,生成高保真、可控的视频。本工作正式定义了交互式视频数据,并提出了用于其策展和合成的自动化流程,有效地解决了阻碍该领域发展的数据瓶颈问题。
本模型在一个稳健的训练框架内统一了多模态控制信号,利用新颖的随机化长视频微调方案和高效的推理机制(如 KV-recache),实现了稳定、长时长且实时的交互式生成。为了严格评估本工作的贡献,引入了 InterBench,这是一个专门设计用于评估动作级交互质量的新基准。广泛的实验表明,GameCraft-2 在交互保真度、视觉质量和时间一致性的所有维度上均显著优于现有的最先进模型。通过将前沿技术从被动的视频合成推向主动的、用户驱动的世界生成,本工作标志着迈向创建真正可玩且沉浸式 AI 生成虚拟体验的重要一步。
参考文献
[1] Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model
#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}