摘要:针对传统行为树在多机空战协同决策建模中存在的语法结构过于灵活、模型不够规范、通信协同模拟支持不够等问题,提出一种定制化的通信行为树方法用于多机空战协同决策建模。通过定制设计通用的通信动作节点和空战通信协同子树,提供相应的定制行为树代码框架,以支持用户快速规范实现行为树表示的双机空战协同策略。基于典型作战仿真推演平台的案例实验表明,相较于平台提供的经典策略,本文所提方法可读性强,具有更优的作战效能和良好的可扩展性,可有效提升多机空战协同决策建模效率和拟真度。
关键词:多机协同空战; 行为树; 决策行为建模; 计算机生成兵力
0 引言
随着空战环境向全域化、智能化方向演进,多机协同作战已成为提升作战效能的核心手段[1]。现有空战系统通过计算机生成兵力[2](Computer Generated Forces, CGF)技术,模拟对抗双方有人/无人飞行器[3-4]等智能体的指挥决策、行动过程与作战效果,成为支撑多机协同空战方案分析及装备战术研究的核心工具[5-6]。然而,现有决策行为建模方法在复杂协同场景下仍面临建模效率低、适应性不足等挑战,相关研究已成为该领域重要方向。
空战系统中智能体决策建模方法可归纳为基于博弈论的方法[7]、基于知识编码的方法[8]和基于机器学习的方法[9-10]三大范式。其中,基于博弈论的方法(如基于模糊逻辑的无人机对抗算法)采用结合博弈论和梯度优化的差分进化算法用于连续控制策略搜索[11],在视距内空战(Within-Visual-Range, WVR)场景中,特别是涉及“狗斗”(Dogfight)的实时机动对抗中表现优异。张耀中等[12]提出一种混合经验的深度确定性策略梯度算法,解决无人机多对一博弈追逃任务难以收敛的问题。王宝来等[13]提出一种基于种群博弈的空战智能决策模型训练范式,有效解决传统强化学习方法在进行近距空战智能决策时存在过拟合现象以及如何实现策略循环等问题。不过,基于博弈论的方法[14-15]受限于静态环境假设,在充满不确定性、动态变化频繁的现代战场中,适应性较差;实际空战中,战场环境瞬息万变,基于静态假设的决策模型又难以根据实时变化作出准确、有效的决策,从而影响作战效果。
基于机器学习[16]的方法(如基于深度强化学习的无人机机动算法)通过构建深度强化学习框架实现端到端的机动决策[17],能生成端到端机动策略。基于强化学习算法的单一决策模型在面对复杂无人机编队控制任务时,自主决策能力有限往往导致适应性不足,针对该问题王昱等[18]提出一种以虚拟结构法引领深度强化学习算法的分布式决策方法,实现无人机编队自主根据任务环境的变化灵活调整队形,在达成任务目标的同时,显著提升机群整体对环境的适应性及生存能力。张莉涓等[19]提出一种面向多无人机辅助数据采集的强化学习协同航迹规划算法,以提高无人机在复杂环境下的学习效率和协同决策能力。基于机器学习方法[20-21]具有黑盒特性,导致策略可解释性不足,使军事人员难以理解智能体决策的生成过程和依据,在实际应用中,难以评估决策的可靠性,也不利于对战术进行针对性调整与优化。
基于知识编码的方法(如行为树分层状态机[22-24])通过模块化任务分解实现策略可追溯与逻辑重组,在超视距空战(Beyond-Visual-Range, BVR)多阶段规划中更具优势。相较于WVR场景的实时机动对抗,BVR空战更强调多平台传感器融合、远程目标识别与分布式打击链构建,要求决策模型兼具逻辑清晰性与模块可扩展性。行为树技术通过结构化表征优势,已在多平台验证其场景适应性,例如杨杰[25]提出的ART-Bev网络模型利用自适应共振理论,实现专家数据到行为树结构的自动转换,在TankSim平台验证多地形战术适应性;王琪玮等[26]开发的鲁棒行为树架构,支持智能体审慎式决策与反应式控制的动态平衡。
尽管上述研究进展表明行为树具备复杂场景处理能力,其应用仍存在显著瓶颈:传统方法因语法灵活性需针对特定场景定制开发,导致建模效率低、复用性差。此外,现有研究大多忽略通信协同过程建模,缺乏规范化模板支持多机智能体的高效交互。针对此问题,本文提出一种通信行为树方法,通过设计通用通信节点与协同子树结构,并将其嵌入分层任务规划框架,以实现多机智能体协同效率提升。基于典型仿真平台的实验验证结果表明,本文所提方法可读性强,具有更优的作战效能和良好的可扩展性,能显著提升双机编队的作战效能与战术灵活性。
1 传统行为树结构
行为树表现为一个有向的有根树结构,内部节点定义为控制流节点,而叶节点则是执行节点。在这个结构中,每个节点都被称作父节点,除根节点外,所有节点都有一个父节点,控制流节点至少有一个子节点。在经典公式中,控制流节点分为顺序、选择、并行和装饰4类,执行节点则分为动作和条件2类[17]。
顺序节点按特定顺序执行其子节点。当信号到达非序列末端的子节点,且子节点返回成功或无效状态时,顺序节点反馈成功状态并执行下一个节点。若子节点返回正在运行状态,则序列节点也返回正在运行状态,且不执行其他操作;若子节点返回失败状态,则序列节点状态为失败,并终止后续子节点的执行;若执行过程被意外中断,则返回无效状态。
选择节点接收信号后根据规则选择子节点执行。若子节点执行成功,则选择节点返回成功状态;若所有子节点执行失败,则选择节点状态为失败;执行中则返回运行状态。
并行节点同时执行所有子节点。当任一子节点状态为正在运行,或成功状态的子节点数量超过阈值,或任一子节点状态为失败时,分别返回正在运行、成功或失败状态。
装饰节点只有一个子节点,用于增强节点功能,如修改返回状态、控制循环次数或设定结束条件(本文未用到装饰节点)。
动作节点代表行为树执行的操作,动作正在执行会返回正在执行状态,执行完毕返回成功状态,执行失败则返回失败状态。
条件节点的作用是在接收信号时检查命题,命题成立则返回成功状态,不成立则返回失败状态。
2 基于通信行为树的多机空战协同决策建模方法
2.1 总体框架
本文设计一种基于通信行为树的多机空战协同决策框架,改进后的框架由长机、僚机与航电设备构成(见图1),其核心点包括:① 双模通信机制,为实现多机协同对抗任务,框架使用2种通信方式,即态势信息共享(广播式)与战斗指令直连(点对点);② 动态决策融合,通过通信节点实时解析战场信息并更新策略;③ 模块化子树设计,分离搜索、攻击、规避行为,支持快速重构。各组件间紧密协作,共同构建起一个高效、智能的空战协同体系。
长机和僚机均具备基于知识工程方法建立的行为树智能体,能单独进行行为决策。战机的通信方式分别为态势信息共享和战斗指令直连通信。态势信息共享借助航电设备实现如敌机位置、导弹位置等关键态势信息的实时共享。这一通信方式确保长机和僚机能实时感知战场全局态势,为后续战术决策提供全面、准确的数据支持。当需要执行紧密的战术配合时,长机和僚机能实现战斗指令直连通信,长机智能体凭借强大的数据分析与决策能力,依据实时态势信息以及僚机上报的共享信息,迅速进行任务规划,并直接向僚机智能体下达战斗指令。僚机智能体能无缝将这些指令融入自身的行为决策过程,高效执行双机协同战术动作。这种直接通信的方式可极大缩短指令传达和信息上报的路径和时间,显著提升多机协同作战的响应速度和执行精度,有效增强多机在空战中的协同作战效能。
图1 基于通信行为树的多机空战协同决策框架
Fig.1 A collaborative decision framework for multi-aircraft air combat simulation based on communication behavior tree
2.2 通信节点定制设计
在基于通信行为树的多机空战协同决策架构中,长机与僚机之间基于通信的协同对作战效能起着关键作用。为满足这一特定场景下的通信需求,本研究在传统行为树动作节点基础上,定制设计通用通信节点,以实现独特且完善的节点代码逻辑,形成可复用快速定制的领域通用模板节点。通信节点逻辑算法如图2所示,通信节点内部功能描述如表1所示。
图2 通信节点算法框图
Fig.2 Diagram of communication node algorithm
表1 通信节点功能表
Tab.1 Communication node functional table
通信节点实现通用的获取信息/指令和发送信息/指令的标准接口,结合常用空战作战过程,本文在模板基础上快速设计4种常见的通信节点,以实现智能体之间直接通信,完成执行下达与信息上报。
(1) 指令“Hot”。该节点通常由长机使用,会发送指令“Hot”,指示僚机转入“Hot”状态;可使编队按本研究所设计的方式保持阵型并进行作战。
(2) 指令“Cold”。该节点通常由长机使用,会发送指令“Cold”,指示僚机转入“Cold”状态;可使编队按本研究所设计的方式保持阵型并进行作战。
(3) 指令“掩护”。该节点通常由长机使用,会发送指令“掩护”,指示僚机掩护长机规避导弹,引导长机发射导弹。
(4) 报告“越过决断线”。该节点通常由僚机使用,会上报僚机越过决断线,辅助长机了解僚机状态,作出正确决策,执行本文所设计的战术动作。
2.3 空战通信协同子树设计
基于通信节点的模块化、可复用长机通信行为子树结构设计如图3所示。执行协同任务时,首先长机通过通信节点获取僚机上报信息,并将上报信息进行解析更新至规划策略;其次,基于最新战场信息规划长机与僚机作战行为并得到规划结果;最后,长机执行规划任务,同时利用通信节点下达作战指令给僚机,完成协同任务。长机通信子树将僚机上报的信息与自身获取的战场信息进行匹配与整合,以确保信息一致性和准确性,并适应空战环境的快速变化。任务规划可采用经典的规则分配或搜索算法,任务规划完成后,长机在迅速执行自身协同任务的同时,利用通信节点,借助高速通信链路和优化的指令编码格式,快速向僚机下达精确的任务指令。通过这种紧密且高效的协同模式,多机在瞬息万变的空战环境中能够迅速响应,精准执行复杂的协同战术动作。
僚机通信子树分为指令响应子树和信息上报子树,其结构如图4所示。当协同任务启动时,指令响应子树通过通信节点实时精准捕获长机通信子树所下达的作战指令,并通过指令解析与执行算法,将指令转化为具体的行动步骤,从而高效执行指令,以完成复杂的协同任务。与此同时,信息上报子树肩负至关重要的信息交互职责,通过精心设计的通信节点,能全面及时上报僚机的关键信息,为长机提供丰富且实时的战场信息,协助长机完成协同任务规划。
图3 长机通信行为子树结构
Fig.3 Subtree structure of leader communication behavior
图4 僚机通信行为子树结构
Fig.4 Subtree structure of wingman communication
长机和僚机的通信行为子树的完整执行过程及信息流如图5所示。长机通信子树在完成初始化后,进入消息接收与处理阶段,在此阶段它高效接收僚机发送的上报消息,并运用先进的解析算法对上报消息进行深度剖析,提取其中的关键信息;基于这些信息,长机通信子树会更新自身决策行为模型,并结合全局战场态势生成科学合理的作战指令;生成指令后,长机一方面执行自身作战动作,另一方面依据战场态势和作战需求生成选择合适的发送目标(通常为僚机),并通过通信节点将指令发送给目标,这种协同机制不仅提升双机空战的作战效能,还可增强系统应对复杂多变战场环境的能力。
图5 长机和僚机的通信行为子树信息流
Fig.5 Subtree information flow diagram of the communication behavior of the long plane and wingman
2.4 双机协同空战策略建模
空战任务一般以双机编队作为最小执行单位,在双机编队空战中,通过长机与僚机的配合,可以更好占据有利位置,同时压制敌方战机,良好的战术配合将大大提高双机编队空战的胜率。
本文参考“Notch”双机防御机动策略(见图6),基于前述协同对抗框架和定制的行为子树,设计基于通信行为树的双机空战协同策略,使双机配合在保持交战距离的同时,发挥导弹射程优势击落敌机。首先,设定一个“决断距离”,该距离可根据实验需求进行修改,例如将距离设置在敌导弹攻击包线外,可使己方战机与敌机保持距离,提高我方导弹射程优势;将该距离设置到视距内,则可使战机与敌机进入WVR。其次,在搜索阶段编队会朝着上级指示的敌情方向进行搜索;发现敌机后,会转入攻击阶段,战机则在尽可能远的距离上发射导弹,迫使敌机规避;若长机离敌机的距离小于决断距离,则长机转入“Cold”状态进行后向回转,命令僚机转入“Hot”状态正向迎敌;若长机处于“Hot”状态,僚机离敌机的距离小于决断距离,则僚机转入“Cold”状态进行后向回转;在任意状态下,只要符合导弹发射条件,战机就会发射导弹,并尽可能规避敌方导弹。
图6 “Notch”双机防御机动策略
Fig.6 Diagram of the “Notch” two-engine defense maneuver strategy
长机行为树由搜索子树、攻击子树和规避子树组合而成,并复用长机通信子树结构来实现协同作战功能,其总体结构如图7所示。在空战的起始阶段,长机行为树中的攻击子树与规避子树相互协作,引导编队巧妙保持在敌机攻击包线的外围区域;随着空战进程的推进,当通过战场态势评估系统判定敌机中距弹已消耗殆尽时,长机行为树会依据预设的决策逻辑,适时调整编队战术,指挥编队逐步拉近与敌机的距离;并根据僚机上报信息进行实时任务规划,选择适当战术完成协同打击任务。
图7 长机行为树结构图
Fig.7 Leader behavior tree structure diagram

僚机作为长机的重要协同作战单元,其行为决策机制对整个编队的作战效能起着关键作用,总体行为树结构如图8所示。空战伊始,僚机首要任务是通过通信节点与长机建立稳定的信息交互通道;完成通信与信息交互后,僚机依据接收到的长机指令,并结合自身对战场实际情况的实时感知与分析,与长机展开紧密协同作战。
图8 僚机行为树结构
Fig.8 Wingman behavior tree structure diagram
3 仿真实验
3.1 实验环境
在某军事仿真推演平台(支持BVR/WVR场景),以空战对抗为背景,对抗双方使用主动制导中距空空导弹、近距空空导弹与机炮进行交战,在尽可能使自身不被对方击落的前提下,机载雷达与机载红外搜索系统搜索并锁定目标,并在满足武器发射条件的情况下实施攻击,击落敌机。
(1) 对抗双方。红方使用歼11BG战机;蓝方使用F/A-18E型“超级大黄蜂”战机;并在红蓝双方相同位置添加一架型号、挂载与原有长机相同的僚机。
(2) 装备性能。双方搭载的雷达与红外搜索与跟踪系统性能基本相同;蓝方战机具有更多的干扰措施和更先进的电子对抗系统,且雷达散射截面积较小;红方战机装备有射程更远的导弹。
(3) 胜负条件。胜利条件:推演结束时红方分数为正则代表胜利,否则为失败。结束条件:推演时间超过45 min或一方战机全部被击毁。分数计算规则如表2所示。
表2 分数计算规则
Tab.2 Rules for calculating scores
(4) 初始态势。红蓝双方相距370 km,航向为0°(正北),速度是350节(Ma=0.61),共携带6枚中距空空导弹和2枚近距空空导弹。
3.2 实验想定
本文设置该平台提供的历次大赛经典规则为对比红方策略,该策略设定在任务区域进行巡逻并与红方战机交战。首先在任务区内进行随机搜索,发现敌机后向敌机迅速接近并发射导弹;随后不断拉近交战距离,在中距空空导弹耗尽后撤退。
蓝方制订2种战术,战术一是使用某型导弹进行BVR,该导弹耗尽后战机离开编队并撤退;战术二是先进行BVR,在进入视距或指定型号导弹耗尽后,使用其他型号导弹与机炮进行WVR,在所有武器耗尽后撤退。
3.3 实验中智能体设计与实现
3.3.1 节点设计
结合平台提供的基本态势获取接口,本文设计了6种条件节点,具体如表3所示。结合平台提供的飞机基本动作接口和协同策略,本文设计了7种动作节点,如表4所示。
表3 条件节点
Tab.3 Conditional nodes
表4 动作节点
Tab.4 Action nodes
定制节点具备高度通用性,能广泛应用于各类空战协同策略的建模工作。在实际建模过程中,用户仅需对相关业务逻辑进行修改,即可快速适配不同空战场景和策略需求,且条件节点、动作节点和通信节点的编码量分别减少82.35%、69.73%和49.14%(见表5),从而极大提升建模效率,有效减少建模所需时间和精力成本,为高效构建空战协同策略模型提供有力支持。
表5 节点代码量
Tab.5 Node code volume
3.3.2 行为子树设计
图9 智能体子树结构
Fig.9 Intelligent body subtree structure diagram
结合条件和动作节点,细化设计2.4节协同策略中的搜索子树、攻击子树以及规避子树,如图9所示。子树呈模块化结构,能方便快捷集成到基于通信行为树的多机空战协同决策框架,进而提高建模效率。
3.4 仿真推演结果
3.4.1 单次推演过程
单次实验的大致过程如图10所示。
图10 推演过程
Fig.10 Process of deduction
如图10(a)所示,推演开始,红方2架战机组成搜索队形,准备朝敌情方向搜索;如图10(b)所示,长机发现2架敌机,根据敌机电磁辐射与部署位置等信息,判断敌机为美军某型战机,长机很快锁定目标并发射1枚某型导弹,同时发现敌机发射导弹,长机开始规避,僚机很快进入决断距离,并实施后撤;如图10(c)所示,第一波导弹未命中,僚机回转朝向敌机,再次发射导弹,同时探测到敌导弹接近,编队进入回避状态;如图10(d)所示,编队完成规避,战机引导僚机发射的导弹进行攻击并击落1架敌机,随后长机转入“Cold”状态回转,僚机转入“Hot”状态,航向朝向敌机并准备攻击;如图10(e)所示,僚机发射导弹,同时探测到敌方导弹接近,编队开始规避;如图10(f)所示,长机转入“Hot”状态,引导僚机导弹成功击落敌机,推演结束。
本次对抗中,红方战机消耗4枚某型导弹,蓝方战机消耗8枚某型导弹,红方战机无损失,蓝方被击落2架,红方得分208分。
3.4.2 多次推演过程
根据本文设定的评分方案,对每种对抗情况进行20次仿真实验,详细推演情况如图11所示。
图11 蓝方使用不同策略时红方对抗得分图
Fig.11 Red̓s scoring chart when Blue uses different strategies
在20次仿真实验基础上,取其平均分作为对红方作战效能的评价,单机对抗具体得分如表6所示,双机对抗具体得分如表7所示。
表6 单机对抗实验结果
Tab.6 Results of stand-alone confrontation experiments
表7 双机对抗实验结果
Tab.7 Results of two-machine confrontation experiments
3.4.3 结果分析
实验结果显示,实验组得分显著高于对比算法,验证协同效能提升。无论在哪种战术下,实验组中的红方得分均明显高于对照组中的蓝方,这表明本文设定的行为树在双机交战时,该典型仿真平台中总体交战表现好于平台默认设置;相比单机对抗,使用行为树控制的红方在双机对抗中平均得分比使用默认战术的红方高出更多,说明本文设计的行为树对编队协同作战效能有明显提升。改进模型在复杂战术(战术2)下表现更优,体现动态适应性;交战过程中红方战机的行为也较符合实际,行为树有效模拟了双机编队中的通信与协同行为,进一步证明通过行为树控制CGF进行空战是可行的,行为树在BVR中具有良好表现。
4 结束语
针对传统行为树在多机空战协同决策建模中存在的语法结构过于灵活、模型不够规范、通信协同模拟支持不够等问题,本文提出一种定制化的通信行为树方法用于多机空战协同决策建模。通过定制设计通用的通信动作节点和空战通信协同子树,提供相应的定制行为树代码框架,以降低编码量,支持用户快速规范实现行为树表示的多机空战协同策略。基于典型作战仿真推演平台的案例实验表明,相较于平台提供的经典策略,本文所提方法可读性强,具有更优的作战效能和良好的可扩展性,进而提升多机空战协同决策建模效率和拟真度。
参考文献
向上滑动阅览