欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2022115062838
申请人: 淮阴工学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-03-25
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于改进YOLOv5的车载目标检测方法,对Yolov5网络结构进行改进,实现对复杂道路的障碍物检测;具体的操作步骤如下:步骤1:通过摄像头采集车辆前方图像;

步骤2:将摄像头采集的视频流分别进行关键帧提取,获取后续模型训练的图片数据集;对采集到的图片数据集进行预处理,并按照合适的比例将图片数据集分为训练集、测试集和验证集;

步骤3:配置相关环境,搭建改进的Yolov5网络结构,将处理好的图片训练集、图片测试集和图片验证集放入改进后的Yolov5中进行训练;在训练完成后,得到检测效果最好的best.pt模型;

搭建改进的Yolov5网络结构,是对Yolov5进行改进,对Yolov5的改进点为:首先,将Yolov5的原始颈部网络替换为加权双向金字塔网络BiFPN进行特征提取;在主干网络中引入注意力机制,添加CBAM模块,结合特征通道和特征空间两个维度的注意力机制;在Yolov5主干网络中引入特征融合颈部网络,加权双向金字塔网络BiFPN进行特征提取,具体的操作方式为:在Yolov5网络的Backbone主干网络引入CBAM卷积注意力模块,CBAM卷积注意力模块将通道注意力机制和空间注意力机制进行结合;Backbone主干网络提取特征,CBAM模块对通道的注意力机制将输入特征层中的单个特征层分别进行全局平均池化和全局最大池化,将单个特征层转换为两个1x1的形式,再对全局平均池化和全局最大池化的结果利用全连接层进行相加,将相加的结果进行sigmoid操作,获得每一个特征通道的权值,利用权值与原特征层相乘,即可获得该通道的特征;

CBAM模块对空间的注意力机制在于对输入特征层上每一个特征点取最大值和平均值,对最大值和平均值进行堆叠,将单个特征层转换为2通道,再利用一次通道数为1的卷积调整通道数,将单个特征层重新转换为1通道,对处理后的特征点进行sigmoid操作,获得每一个特征点的权值,利用权值与原特征层上的特征点相乘,即可获得该特征点的特征;

注意力机制突出特征中的关键部分,同时关注目标的位置信息和语义信息,在Backbone主干网络的底层特征层和高层特征层都引入注意力机制,即在第6层、第11层、第

16层、最后一层添加CBAM模块,突出底层和高层特征信息,在Backbone主干网络最后一层引入CBAM模块满足后续Neck瓶颈结构的需求,具体的操作方式为:双向金字塔网络BiFPN对于不同尺度特征引入可学习的权重,以更好地平衡不同尺度地特征信息;即对不同尺度的特征引入一个可学习的权重参数O来控制每层特征的权重,O的具体分配方式为:其中,wi为权重通过SiLU激活函数,使其大于等于0;令ε=0.0001防止数值不稳定;

对于特征层采用加权方式进行特征融合,具体方式为:

td out

其中,Pi 为Pi层的中间特性,Pi 为Pi层的输出特性,Resize将Pi‑1、Pi+1特征层转换为与Pi相同的尺寸;

其次,使用SPD‑Conv模块替换原有CNN模块,获得Yolov5‑SPD模块,所述的Yolov5‑SPD模块包括一个SPD层和一个non‑strided convolutio层;SPD层将原始特征图进行下采样,对于某一特征图按比例进行切割,获得一系列的子特征图,将子特征图按通道进行拼接可获得中间特征图,具体方式为:fm‑1,n‑1=X[scale‑1:m:scale,scale‑1:n:scale];

其中,X为原特征图,尺寸为m×n,scale为缩放因子;

所述的non‑strided convolutio层使用非跨步卷积的方式尽可能保留用于判别的特征信息,同时控制中间特征图的深度和宽度以满足后续网络深度和宽度的要求;利用Yolov5‑SPD模块替换原有CNN用于低分辨率和较小目标的处理,能够提升对低分辨率和较小目标识别的精度;

然后,使用EIoU损失函数替换原始IoU函数;EIoU损失函数中的GIoU能将纵横比的损失项拆分成预测的宽高分别与最小外接框宽高的差值;同时引入Focal Loss,减少与目标框重叠较少的大量锚框对BBox回归的优化贡献,使回归过程更多专注高质量框,具体公式如下:Eloss=IoUloss+disloss+asploss

2 gt

其中,disloss为中心点损失,asploss为长、宽损失,ρ (b,b )表示预测框和真实框的中心

2 gt 2 gt

点的欧式距离,ρ (w,w )、ρ (h,h )分别表示预测框和真实框的宽和高的欧式距离,c表示同时包含预测框和真实框的最小封闭区域的对角线距离,cw表示同时包含预测框和真实框的最小封闭区域的宽,ch表示同时包含预测框和真实框的最小封闭区域的高;

最后,使用Mish激活函数替换SiLU激活函数;所述的Mish激活函数有下界,在负半轴有较小的权重,可以防止出现的神经元坏死现象,同时可以产生更强的正则化效果;保留少量的负信息,避免ReLU的Dying ReLU现象,有利于更好的表达和信息流动;Mish激活函数的具体公式为:Mish(x)=x*Tanh(Softplus(x));

式中,Tanh为双曲正切函数,Softplus是一种激活函数,可以看作是ReLu的平滑;

步骤4:将待检测图像放入best.pt模型中,得到检测结果。

2.根据权利要求1所述的一种基于改进YOLOv5的车载目标检测方法,其特征在于:步骤

3所述的将处理好的图片训练集、图片测试集和图片验证集放入改进后的Yolov5中进行训练前,需要先设置网络训练参数,具体的操作方式为:设置迭代次数为200,BitchSize为16、初始学习率为0.0001。

3.根据权利要求1所述的一种基于改进YOLOv5的车载目标检测方法,其特征在于:步骤

1所述的通过摄像头采集车辆前方图像,具体的操作方式为:将摄像头安装在车辆顶部,用于采集车辆前方图像;在车辆行驶过程中,摄像头会采集车辆前方的视频流。

4.根据权利要求1所述的一种基于改进YOLOv5的车载目标检测方法,其特征在于:步骤

2所述将摄像头采集的视频流分别进行关键帧提取,是将摄像头采集的的视频流间隔1s抽取当前帧作为关键帧,保存至图片数据集中。

5.根据权利要求1所述的一种基于改进YOLOv5的车载目标检测方法,其特征在于:步骤

2所述的对采集到的图片数据集进行预处理,具体的步骤包括:去掉不包含目标、特征模糊、背景杂乱的图片;再对筛选后的图片进行标注,对图片上需检测的目标,如涵洞、限高杆、树木等障碍物使用矩形框进行标注,并记录目标的名称以及矩形框的坐标,生成.txt文件进行保存;最后按照7:2:1的比例将图片数据集分为训练集、测试集、验证集。