1.一种基于自适应感受野深度学习的目标检测方法,其特征在于,所述的方法包括以下步骤:
步骤1:在网上采集图片作为数据集;
步骤2:对采集到的图片进行预处理,包括随机的裁剪、翻转以及尺寸的归一化;
步骤3:对采集到的图片按照设定的比例进行划分,分为训练集和验证集;
步骤4:将训练集输入到网络中,进行训练,选取ResNet,DenseNet作为基底网络进行特征的提取;
步骤5:在基底网络提取特征的基础上,用一个浅层的网络进行预测,预测的结果维数为二维,即N*5;其中,N为ROIS的数量,5是指1个比率r,以及左上和右下的偏移信息,比率r的作用是计算众数的区间;
步骤6:在基底网络提取特征的基础上,使用RPN网络提取ROIs;
步骤7:将步骤5预测到结果作用到步骤6提取到的ROIs上,即将步骤5预测的左上角偏移和右下角偏移作用在ROIs的左上角和右下角的坐标上,通过调整ROIs的面积,从而调整Proposals所对应的感受野的面积;
步骤8:将步骤7面积调整后的ROIs进行区域归一化操作,选取每个区域内落在某个像素值区内像素值的平均值作为输出,区间的选取是根据区间内像素的数量,选取像素数量最多的区间作为最优的区间;
步骤9:将步骤8的结果分别输入到两个全连接层中,分别进行ROIs位置的回归训练以及ROIs的分类训练。
2.如权利要求1所述的一种基于自适应感受野深度学习的目标检测方法,其特征在于,所述步骤6中,将步骤4的结果输入到RPN网络中,RPN网络的主要有三个卷积,首先第一个大小为3*3数量为512的卷积进行提取特征,另外1个大小为1*1的卷积进行Anchor-box的偏移的预测,卷积核的数量为4*N,其中4指的是Anchor-boxes相对于ground-truth的偏移,N为Anchor-boxes的数量;另外一个大小为1*1的卷积核进行Anchor-boxes类别的预测,卷积核的数量为2*N,2是指类别数量,这里预测的类别为是否为背景,N是Anchor-boxes的数量;以上3个卷积权值参数均有均值为0,方差为0.001的高斯分布给出;Anchor-boxes由如下方式产生:对featuremap每个像素点按照一定的尺寸大小和比率大小产生,比如选取3个尺寸大小,3个比率大小,则每个像素点会产生9个不同大小的Anchor-boxes;将预测到的Anchor-boxes的偏移作用到Anchor-boxes得到Proposal-boxes;根据Proposal-boxes的Score,利用非极大值抑制(NMS)筛选出最终的ROIs;其中Score的计算方法如下:根据Proposal-boxes与ground-truth的重叠面积比率overlap得出;NMS即为选取score保留最高的boxes,其他boxes与score最高的boxes的面积的比若大于预先设定的阈值,则去除该box,反之则保留。
3.如权利要求1或2所述的一种基于自适应感受野深度学习的目标检测方法,其特征在于,所述步骤8中,根据步骤5预测的比率r和像素值大小进行区间的选取,方法为:迭代每个像素,每个像素的区间的像素值P乘以比率r得到差值α,区间的左值为像素值减去差值α,区间的右值为像素值加上去差值α,得到像素值区间为[P-α,P+α];选择区间内像素数量最多的区间为最终的区间,对所选区间内的像素值取平均值,将该平均值作为该区域的输出,在进行反向传播时,将该平均值作为每个像素位置的像素值。