1.一种无人机决策模型训练方法,其特征在于,所述方法包括:向第一无人机发送初始化指令,以使所述第一无人机根据所述初始化指令采集所述第一无人机的第一态势信息与第二无人机的第二态势信息;
获取所述第一态势信息与所述第二态势信息,并根据所述第一态势信息与所述第二态势信息生成第一融合信息;
将所述第一融合信息输入待训练模型的评估层网络,所述评估层网络基于预设的第一策略生成与所述第一融合信息对应的分值期望;
所述待训练模型的决策层网络根据所述分值期望生成第二策略,并基于所述第二策略生成与所述第一融合信息对应的第一动作指令;
向所述第一无人机发送所述第一动作指令,以使所述第一无人机根据所述第一动作指令执行第一动作并在执行所述第一动作后采集所述第一无人机的第三态势信息以及所述第二无人机的第四态势信息;
获取所述第一无人机采集的所述第三态势信息与所述第四态势信息,并根据所述第三态势信息与所述第四态势信息生成第二融合信息;
将所述第二融合信息输入所述评估层网络以更新所述第一策略,直至所述待训练模型训练完成,得到无人机决策模型;
其中,所述第二态势信息是由多台所述第一无人机采集,所述根据所述第一态势信息与所述第二态势信息生成第一融合信息包括:根据多台第一无人机采集的第二态势信息获取第二无人机的准确态势信息;
根据所述第一态势信息与所述准确态势信息生成对应第一无人机的第一融合信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述第二融合信息输入所述评估层网络以更新所述第一策略之后,还包括:将所述第二融合信息输入所述评估层网络,所述评估层网络基于更新后的所述第一策略生成与所述第二融合信息对应的优化期望;
所述决策层网络根据所述优化期望更新所述第二策略,并基于更新后的所述第二策略生成与所述第二融合信息对应的第二动作指令;
向所述第一无人机发送所述第二动作指令,以使所述第一无人机根据所述第二动作指令执行第二动作并在执行所述第二动作后采集所述第一无人机的第五态势信息以及所述第二无人机的第六态势信息;
获取所述第一无人机采集的所述第五态势信息与所述第六态势信息,并根据所述第五态势信息与所述第六态势信息生成第三融合信息;
将所述第三融合信息输入所述评估层网络以更新所述第一策略。
3.根据权利要求1所述的方法,其特征在于,所述获取所述第一态势信息与所述第二态势信息,并根据所述第一态势信息与所述第二态势信息生成第一融合信息,包括:获取所述第一无人机采集的所述第一态势信息、与多台所述第一无人机采集的所述第二态势信息;
根据多台所述第一无人机采集的所述第二态势信息获取所述第二无人机的准确态势信息;
根据所述第一态势信息与所述准确态势信息生成对应所述第一无人机的所述第一融合信息。
4.根据权利要求3所述的方法,其特征在于,所述根据多台所述第一无人机采集的所述第二态势信息获取所述第二无人机的准确态势信息,包括:解析所述第二态势信息获取所述第二无人机的第二位置信息与第二姿态信息;
根据多个所述第二位置信息确定所述第二无人机的准确位置信息;
获取多台所述第一无人机采集所述第二姿态信息的采集位置,并计算所述采集位置与所述准确位置信息的空间距离;
确定所述空间距离符合预设距离范围的采集位置,并根据所述采集位置对应的第二姿态信息确定所述第二无人机的准确姿态信息;
根据所述准确位置信息与所述准确姿态信息确定所述第二无人机的准确态势信息。
5.根据权利要求1‑4任一项所述的方法,其特征在于,所述将所述第二融合信息输入所述评估层网络以更新所述第一策略,包括:根据所述第二融合信息确定所述第一动作指令对应的任务执行结果;
当所述任务执行结果为失败时,基于预设的评分函数并根据所述第二融合信息计算预评分信息;
根据所述预评分信息与预设的目标评分信息确定所述评估层网络输出所述分值期望的目标值,并根据所述第一融合信息与所述目标值调整所述第一策略。
6.根据权利要求5所述的方法,其特征在于,所述确定所述动作指令对应的任务执行结果之后,还包括:当所述任务执行结果为成功时,以所述预评分信息作为所述分值期望的目标值,并根据所述第一融合信息与所述目标值调整所述第一策略。
7.根据权利要求5所述的方法,其特征在于,所述基于预设的评分函数并根据所述第二融合信息计算预评分信息,包括:解析所述第二融合信息,获取所述第一无人机的第三位置信息与第三姿态信息、以及所述第二无人机的第四位置信息与第四姿态信息;
根据所述第三位置信息与所述第四位置信息确定用于表征所述第一无人机与所述第二无人机距离的第一距离信息、以及用于表征所述第一无人机与预设目标区域距离的第二距离信息;
根据所述第一无人机的第一当前姿态与所述第二无人机的第二当前姿态确定用于表征所述第一无人机与所述第二无人机的机身角度差的角度差信息;
基于预设的评分函数,根据所述第一距离信息、所述第二距离信息、与所述角度差信息计算所述预评分信息。
8.一种无人机决策模型使用方法,其特征在于,所述方法包括:接收决策指令并根据所述决策指令调用无人机决策模型,其中,所述无人机决策模型为采用权利要求1至7中任一项所述的无人机决策模型训练方法得到;
接收第一无人机采集的第一当前态势信息及第二当前态势信息,并根据所述第一当前态势信息及所述第二当前态势信息生成当前融合信息;
将所述当前融合信息输入所述无人机决策模型得到与所述当前融合信息对应的动作指令;
向所述第一无人机发送所述动作指令,以使所述第一无人机根据所述动作指令执行对应的动作。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现如权利要求1至7中任一项所述的无人机决策模型训练方法,或实现如权利要求8所述的无人机决策模型使用方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的无人机决策模型训练方法,或实现如权利要求8所述的无人机决策模型使用方法。