1.基于多模态信息融合与决策优化的组群行为识别方法,其特征在于,包括以下步骤:步骤A、针对待进行组群行为识别的视频,获取组群成员的候选框序列,提取其对应的光流特征,并提取组群成员的人体姿态分割特征作为第三重视觉线索;
步骤B、获取组群成员人体目标时空特征的双流模型并将其进行MMF融合;
步骤B1、根据步骤A中得到的组群成员的候选框序列、光流特征以及人体姿态分割特征进行多重视觉线索的特征提取,基于I3D网络分别提取对应的视频序列中组群成员的RGB空间外观特征、时间运动特征和空间姿态特征;
步骤B2、将经过I3D网络提取的两组时空特征进行MMF融合,通过压缩和激励操作,利用多模态输入重新校准每条特征支路中的通道特征,将RGB空间外观特征支路和时间运动特征支路互为补充,同时使空间姿态特征支路和时间运动特征支路也互为补充,实现多模态特征融合;
步骤C、经过MMF融合后得到的两条支路分别连接GRU网络,基于GRU网络的时序模型捕获视频中组群成员的长期时序关系;
步骤D、最后基于自适应类别权重的多分类器决策优化,获得组群行为标签,完成组群行为识别。
2.根据权利要求1所述的基于多模态信息融合与决策优化的组群行为识别方法,其特征在于:所述步骤B2中,在进行MMF融合时采用以下方式实现:(1)首先利用压缩操作,利用全局平均池化将每个支路的时空信息压缩到信道描述符中;
(2)然后通过级联不同信道描述符和全连接层操作,产生具有重新校准输入功能的激励信号EA和EB,用于控制每种模态中的通道特征;
(3)最后通过激励函数并在通道方向使用点乘操作,融合后的特征通过σ函数激发更重要的卷积核并抑制不重要的卷积核,以通过一种模态的特征重新校准另一模态的特征。
3.根据权利要求2所述的基于多模态信息融合与决策优化的组群行为识别方法,其特征在于:所述RGB空间外观特征和时间运动特征进行MMF融合与空间姿态特征和时间运动特征进行MMF融合采用相同的原理,对于组群成员候选框序列与光流特征两种输入模态来说,RGB空间外观特征和时间运动特征MMF融合的过程如下:(1)设 和 分别表示经过I3D网络提取的RGB空间外观特征和时间运动特征,其中,Ni和Mi表示空间维度和时间维度,C和C'表示空间网和时间网的通道方向特征;
(2)压缩操作:首先通过在输入特征的空间维度与时间维度上使用全局平均池化将空间信息与时间信息分别压缩到各自信道描述符中;
(3)激励操作产生激励信号,重新校准输入;
C C'
激励信号EA∈R和EB∈R 具有重新校准输入的功能,A和B通过门控机制校准:其中,☉表示通道方向点乘操作,σ(.)表示sigmoid函数;
门控信号为两个输入的函数,且具有独立预测的能力,因为每种模态需要彼此不同地变化:首先,通过从压缩信号中联合表示来实现预测:
Z=W[SA,SB]+b (5)其次,通过两个独立的全连接层预测每种模态的激励信号:
EA=WAZ+bA (6)EB=WBZ+bB (7)其中,[.,.]表示级联操作; 表示权重; bA∈
C C'
R ,bB∈R 表示全连接层的偏置。
4.根据权利要求1所述的基于多模态信息融合与决策优化的组群行为识别方法,其特征在于:所述步骤D中,将RGB空间外观特征和时间运动特征经MMF融合后再通过GRU单元的支路记为P1支路;将时间运动特征和空间姿态特征经MMF融合后再通过GRU单元的支路记为P2支路,输入样本分别经过P1支路和P2支路,获得两路输入样本的特征,则具体进行决策优化时,包括:步骤D1、给定训练样本集,首先根据两路输入样本的特征和训练样本集的特征集的聚类相似程度来确定输入样本的两个替代样本精简集合;
步骤D2:然后将上述得到的两个替代样本精简集合分别连接各自的softmax分类器,依据这2个softmax的分类结果,计算各自的混淆矩阵H1和混淆矩阵H2;设一共有Q种组群行为类别,则:(2)分别分析计算2个分类器的置信度λ1和λ2:
(3)最后得到最终的组群行为类别,即输出结果M:
M=λ1H1+λ2H2 (14)进而完成组群行为识别。
5.根据权利要求1所述的基于多模态信息融合与决策优化的组群行为识别方法,其特征在于:所述步骤C中,在GRU网络中引入两个门函数,分别为更新门和重置门,由于每个隐藏单元都有单独的重置门和更新门,因此每个隐藏单元将捕获不同时间范围内的依赖关系,进而可捕获视频中组群成员的长期时序关系;
假定xt为GRU网络在t时刻的输入,重置门rj和更新门zj分别表示为:rj=σ([Wrx]j+[Urh
6.根据权利要求1所述的基于多模态信息融合与决策优化的组群行为识别方法,其特征在于:所述步骤A具体采用以下方式实现:(1)获取组群成员候选框序列:基于Faster R‑CNN网络对视频序列中的组群成员进行定位与跟踪,形成被跟踪人物的边界框序列;
(2)光流特征提取:基于Flownet 2.0网络对视频中的组群成员提取相邻两帧的光流信息;
(3)人体姿态分割特征提取:基于Fast‑Net人体部位分割网络提取视频中组群成员的身体姿势信息,作为空间特征的进一步补充。