欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2024102997865
申请人: 南通大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2026-01-20
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于改进FCOS算法的实时行人检测方法,其特征在于,包括以下步骤:

S1:获取行人检测视频,抽取固定帧进行预处理转换成图像;

S2:对预处理的图像进行数据增强,模拟遮挡和增加小目标场景图像用于扩充数据集;

S3:将扩充的数据集分为训练集、验证集和测试集;

S4:构建FCOS网络模型;

S5:将FCOS网络模型的主干特征提取网络Resnet50使用轻量级骨干网络Mobilenetv3进行替换,轻量化模型结构;

S6:根据Mobilenetv3中的结构,在特征金字塔FPN和Head部利用深度可分离卷积替换3x3普通卷积,进一步压缩模型参数;

S7:行人属于中小目标,细节保留在低层特征层,在主干特征提取网络中,在C3基础下额外增加一个C2作为有效特征层,经过卷积形成P2层在FPN结构进行多尺度特征融合;

S8:基于注意力机制的思想,在改进的FCOS网络中加入轻量级ECA注意力机制,得到融合后的FCOS模型,将训练集输入改进的模型中进行训练;

S9:将验证集输入到改进后的FCOS网络模型中进行验证,通过验证集得到模型训练的最优权重,对测试集进行测试,获取模型的预测结果,最终得到对行人的有效和实时检测。

2.根据权利要求1所述的基于改进FCOS算法的实时行人检测方法,其特征在于:所述步骤S1中,获取行人检测视频数据集,抽取固定帧进行预处理转换成图像,具体包括以下步骤:S11:使用公开数据集Caltech视频数据集,Caltech数据集是车载摄像头拍摄的视频,预处理转换成图像,包含标签文件夹Annotations、图片文件夹JPEGImages、数据划分文件夹ImageSets;

S12:使用img脚本将seq序列文件转换为jpg文件并放在同一目录文件夹JPERImages下,保存由序列帧转换成图像的文件;

S13:使用vbb2voc函数将vbb格式的标签文件转换为xml文件放在同一文件夹Annotations下,xml文件包含图片名称、图片路径、图片标签名以及目标位置坐标;

S14:图片中没有person目标,利用select文件根据xml文件对jpg图像进行筛选使得jpg文件和xml文件一一对应,将含有xml文件的jpg保存在同一目录下,重命名使其保持一致用于后续操作,由于生成的图片过多,内容重复单一,训练量过大,调用delete文件选择每8帧对图片有标注的进行采样,重新排列命名,完成数据集转换。

3.根据权利要求1所述的基于改进FCOS算法的实时行人检测方法,其特征在于,所述步骤S2中,包括以下步骤:S21:将输入图像每个像素按照比例进行融合,对于输出结果也进行比例融合,从训练样本里面随机抽取几个样本进行随机加权融合,对样本的标签也进行加权融合然后预测结果与加权求和之后的标签求损失,模拟行人被遮挡场景;

S22:随机选择图片,通过对选择的图片进行缩放、随机裁剪、随机排布的方式进行拼接。

4.根据权利要求1所述的基于改进FCOS算法的实时行人检测方法,其特征在于,所述步骤S3中,使用voc_annotation函数,将创建好的数据集指定训练集与测试集的比例为9:1,trainval_percent设置为0.9,用于指定训练集+验证集与测试集的比例,train_percent设置为0.9用于指定训练集加验证集中训练集与验证集的比例,随机进行数据集划分,将训练集按照9:1比例进行训练集和验证集随机划分。

5.根据权利要求1所述的基于改进FCOS算法的实时行人检测方法,其特征在于,所述步骤S4中,包括以下步骤:S41、骨干特征提取网络Backbone,用于对图像进行特征提取,将提取到的有效特征作为特征层,模型选取特征层C3、C4、C5;

S42、加强特征网络FPN,用于对不同大小的有效特征层进行特征融合适应不同尺寸目标,模型经过上下卷积采样形成P3、P4、P5、P6、P7特征层;

S43、预测网络Head,用于对最终特征进行分类和回归定位,预测最终结果,头部包括分类分支、回归分支和中心度分支。

6.根据权利要求1所述的基于改进FCOS算法的实时行人检测方法,其特征在于,所述步骤S5中,包括以下步骤:S51:引入Mobilenetv3网络,通过切片操作取出通道数分别为40、112、160的特征图作为有效特征层返回给模型作为模型的输入;

S52:利用Mobilenetv3的深度可分离卷积、线性瓶颈的残差结构、算法获得卷积核和通道最佳数量、引入通道注意力结构、使用新的h-swish激活函数的特点在不损失模型精度的前提下减少网络参数。

7.根据权利要求1所述的基于改进FCOS算法的实时行人检测方法,其特征在于,所述步骤S6中,在特征金字塔FPN和Head部利用深度可分离卷积(DW)卷积替换3x3普通卷积,具体包括以下步骤:S61:先进行逐通道卷积,然后再逐点卷积,经此操作在不改变效果的基础上降低参数量,参数量是普通卷积的1/3,替换3x3的普通卷积;

S62:使用conv_dw函数,在改进后的FCOS模型的FPN和Head结构找到kernel_size卷积核大小为3的普通卷积进行替换,压缩整个模型的参数量,轻量化该模型。

8.根据权利要求1所述的基于改进FCOS算法的实时行人检测方法,其特征在于,所述步骤S7中,C3基础下额外增加一个C2作为有效特征层,经过卷积形成P2层在FPN结构进行多尺度特征融合,在主干特征提取网络Mobilentv3中通过额外的切片操作取出高宽通道数为104、104、24的特征层作为C2,C2经过一个卷积核得到P2,再将P2进行上采样,最终经过一个卷积核大小为3,步距为1,填充为1的卷积形成特征层P2作为保留小目标细节的底层特征层。

9.根据权利要求1所述的基于改进FCOS算法的实时行人检测方法,其特征在于,所述步骤S8中,在改进的FCOS网络中加入轻量级ECA注意力机制,包括以下步骤:S81:将输入特征图经过全局平均池化,去除全连接层使用1x1卷积层特征图从[h,w,c]的矩阵变成[1,1,c]的向量,然后根据特征图的通道数计算得到自适应的一维卷积核大小kernel_size,将kernel_size用于一维卷积中,得到对于特征图的每个通道的一个权重,最后归一化权重和原输入特征图逐通道相乘,生成加权后的特征图;

S82:将训练集输入改进的模型中训练,让模型通过ECA集中提取行人被遮挡区域的细节特征。

10.根据权利要求1所述的基于改进FCOS算法的实时行人检测方法,其特征在于,所述步骤S9中,通过验证集得到模型训练的最优权重,对测试集进行测试,获取模型的预测结果,具体包括以下步骤:S91:设置最大迭代次数为300,模型冻结训练Freeze_Eopch设置为50,batch_size设置为8,初始学习率为0.01,自适应调整学习率,每5个epoch保存一次权值,经过300次迭代训练,模型的损失和精度逐渐趋于稳定,根据验证集的验证误差保存最佳的权值文件;

S92:模型测试的模型评估指标包括平均精度、召回率、精准率。