1.一种基于多尺度注意力机制的视频图像人群计数方法,其特征在于,包括以下步骤:
11)人群图像的获取和预处理:获取人群图像并对其进行预处理,生成训练数据集;
12)真实人群密度图的生成:根据预处理后的人群图像,生成真实人群密度图;
13)构建多尺度注意力机制模块:构建输入特征图、输出尺度多样性权重通道特征图的多尺度注意力机制模块;
所述构建多尺度注意力机制模块包括以下步骤:
131)设定多尺度注意力机制模块的输入为特征图;
132)对输入的特征图分别通过卷积核大小不同的卷积,形成四个尺度分支:第一个尺度分支是3×3卷积,第二尺度分支是5×5卷积和第一个分支融合,第三个尺度分支是7×7卷积和第二个尺度分支融合,第四个尺度分支是9×9卷积和第三个尺度分支融合;
133)将四个尺度分支通过1×1卷积调整成通道数相等;
134)对四个不同尺度分支输出的特征图在通道维度上通过全局平均池化作生成不同尺度分支的不同通道的描述符,为第X分支的第C个通道的描述符,X和C分别代表尺度分支和通道,X∈{1,2,3,4},C∈{1,2,3,..,m},H、W分别代表特征图的高度、宽度,表示第X尺度分支第C个通道特征图的第i行第j列的元素值;
134)对所有的尺度分支和通道下的描述符先做全连接,然后由Relu函数激活,激活值再做全连接,用Sigmoid函数进行激活,得到第X尺度分支第C个通道的注意力描述符全连接的权重和两个激活Relu、Sigmoid函数的参数在训练中迭代,迭代方式采用Adam梯度下降法;
135)对注意力描述符进行归一化,归一化过后的第X尺度分支第C个通道的注意力描述符表示为如公式所示:exp为自然常数e为底的指数函数,是第X尺度分支第C个通道的注意力描述符;是第X尺度分支第C个通道的注意力描述符,m表示通道的个数;
136)将归一化后的注意力描述符作为权重点乘上对应尺度和通道的特征图,加权后的各个尺度和通道的特征图融合作为多尺度注意力机制模块的输出;
14)人群计数模型的构建:基于多尺度注意力机制模块构建人群计数模型;
所述人群计数模型的构建包括以下步骤:
141)设定人群计数模型的输入为训练数据集;
142)设定人群计数模型的第一部分为:
训练数据集在人群计数模型中先用预先训练好的VGG16神经网络进行卷积和池化,输出图像的特征图,大小为原始输入图像的1/8,作为第一部分输出的特征图;
143)设定人群计数模型的第二部分为:
第一部分输出的特征图经过一个串行的多尺度注意力模块进行处理,输出第二部分特征图;
144)设定人群计数模型的第三部分为:
第二部分特征图再经过一个串行的多尺度注意力模块进行处理,输出第三部分特征图;
145)设定人群计数模型的第四部分为:
第三部分特征图再经过一个串行的多尺度注意力模块进行处理,输出第四部分特征图;
146)设定人群计数模型的第五部分为用扩张卷积和相应的激活函数回归生成人群密度图:
1461)第四部分特征图输入扩张卷积层,该扩张卷积为4层,每层的卷积核的大小分别为3×512、3×256、3×128、3×64,每层的扩张卷积的扩张率为2,输出第五部分特征图;
1462)用1×1卷积层将第五部分特征图各通道合并回归输出高分辨率的人群密度图;
15)人群计数模型的训练:将人群图像和生成的真实人群密度图对应到人群计数模型的输入和输出,通过神经网络的训练,拟合人群计数模型中的参数,使人群计数模型输出的估计人群密度图和真实人群密度图的相似性达到设定要求;
16)待检测视频图像的获取:获取待检测视频图像,并进行预处理;
17)视频图像人群的计数:将预处理后的待检测视频图像输入训练后的人群计数模型,得到人群预测密度图;通过对人群预测密度图积分得到人群计数,积分公式如下式所示m、n分别表示生成的人群密度图的长、宽,Ppixel(xi,yi)表示人群密度图中像素位置为(xi,yi)处的像素值,像素值的区间大小为[0,1],Ccount表示求得的预测人数;
最终得到视频图像人群计数结果。
2.根据权利要求1所述的一种基于多尺度注意力机制的视频图像人群计数方法,其特征在于,所述真实人群密度图的生成包括以下步骤:
21)获取训练数据集,并进行人头标记,每个人头在图像上记录人头中心的坐标xi;
22)对已标注人头中心坐标的训练数据集中图像,以0.5的比例进行随机镜像和以0.3的比例进行伽马对比变换;
23)采用几何自适应高斯卷积的方法生成真实人群密度图,其表达式如下:其中,xi表示标注的头部中心位置坐标,N为整张图像上的总人数,δ(x-xi)表示脉冲函数,表示像素坐标x上的高斯核函数,标准差σi通过K最近邻的平均距离乘以常数计算得到。
3.根据权利要求1所述的基于多尺度注意力机制的视频图像人群计数方法,其特征在于,所述人群计数模型的训练包括以下步骤:
31)将人群图像输入到人群计数模型中,其中,人群计数模型中VGG16网络部分的参数采用在Imagenet已训练参数,不进行更新迭代;
32)设置人群计数模型的损失函数L,用来度量训练拟合的人群密度图和真实标注的人群密度图的误差,损失函数L定义如下,是欧几里得损失和多列方差损失的加权,其中,LE是欧几里得损失,用来度量估计密度图和真值密度图之间像素级的误差,Gi表示网络输出的估计人群密度图,Di表示对应的真值密度图,LM是多列方差损失,目的是减少多尺度分支结构提取的特征相似性,迫使各分支尽可能提取有差异性的特征,缓解多尺度分支结构提取信息冗余的问题,λ为经验值,取1、0.01或0.001;
yatt_X_S∈RH×W表示为对第X尺度分支输出的特征图yX在通道轴上进行平均池化操作再展平得到的特征向量,S表示多尺度注意力模块的个数,yatt_sum_S表示多尺度注意力模块中各分支对应的yatt_X_S向量之和,ε是固定值,用于避免被0除,被设置为1×10-6;
33)针对多尺度注意力机制模块的卷积参数、注意力权重、全连接权重根据Adam梯度下降法迭代参数;
34)每次更新后人群计数模型的参数,计算其损失函数;
35)当损失函数低于阈值或迭代次数大于1000次,迭代停止,迭代后的参数就是人群数网络待定参数的取值。