欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2020104892183
申请人: 苏州科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2026-04-02
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.智能家居环境中图像目标检测方法,其特征在于:

首先通过ImageNet数据进行模型的预训练,采用随机种子融合多种图像增强方式将家居数据进行增强和扩充操作,采用轻量化的网络进行特征提取,引入空洞卷积,利用预训练好的模型参数,对处理好的家居数据集进行模型的再次训练;保存二次训练好的模型,进行封装;

对图像库和目标检测库中的图像通过k-means算法进行聚类分析,形成特定的目标检测特征库;当输入单张家居图像时,对输入的图像用特征提取网络进行特征的提取,得到预测边框的四个坐标,然后对预测边框进行回归和分类计算,最后通过非极大值抑制输出检测结果。

2.根据权利要求1所述的智能家居环境中图像目标检测方法,其特征在于:包括以下步骤:a)首先,数据的筛选、标签和预处理

从海量的图像库中筛选出符合智能家居环境的图像;随后对筛选的图像打标签,生成目标检测数据集;对生成的数据集进行数据预处理;

b)然后,利用特征提取网络进行特征提取并训练模型

采用16层VGG16作为特征提取网络,VGG16为一连串级联网的卷积层,形成空间分辨率降低、感受野增大的特征图,损失信息和细节;引入空洞卷积,通过卷积核模拟人类视觉中的不同感受野结构,卷积核接受不同膨胀率的空洞卷积来模拟感受野和偏心率之间的关系;针对特征提取网络,利用在ImageNet上训练好的参数,对预处理好的图像进行训练;

c)继而,对图像库和目标检测库中的图像通过k-means算法进行聚类分析,在3个不同尺度生成3个先验框,通道数为3,后续框大小将基于9个先验框进行微调;

d)最后,通过回归和分类计算输出目标检测的结果;

通过神经网络对图像进行特征的提取,进而形成相应的预测边界框,对预测边界框进行回归和分类计算,并且通过非极大值抑制输出最后的结果。

3.根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤a),家居数据集是从10万多张图像中筛选出的8000张图像,每张图像均为手工拍摄,不同背景下的各类物体的不同角度、不同距离、不同遮挡情况下以及不同复杂堆叠情况,数据集达到网络训练的泛化性和鲁棒性要求,数据集包含23个类别,涵盖常见的家居环境中所有类别。

4.根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤a),对筛选好的数据集用labellmg进行标签制作,对于标注后的图像生成与其相对应的xml文件,每个xml文件记录图像名称,标注对象类别及其对应的像素坐标信息。

5.根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤a),采用随机种子,对旋转变换、翻转变换、缩放变换、平移变换、尺寸变换、颜色变换、噪声扰动、弹性畸变的数据增强方式进行随机组合,对数据进行增强及扩充操作。

6.根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤b),对图像大小不一致,采用全卷积处理,使其自适应各类长宽比的图像。

7.根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤b),引入C.Relu作为激活函数,即允许在正方向和负方向上同时激活,同时保持相同程度的非饱和与非线性,减少激活时的冗余。

8.根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤b),训练过程中,总计训练40000~60000个batch,batch_size为8~32,在ImageNet预训练参数的基础上采用Adam算法进行优化;在ImageNet预训练的参数基础上采用Adam算法进行优化,利用梯度的一阶矩阵估计和二阶矩阵估计动态的调整;

采用指数衰减学习率,即学习率会根据训练下降的速度自行调节变化,指数衰减学习率的公式为:其中,lr为当前学习率,lr0为初始学习率,gamma为学习率衰减系数,globalstep为当前迭代次数,decaysteps为衰减速度,*为乘号,^为幂次运算。

9.根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤c),通过K-means算法对数据集样本进行聚类分析,在3个不同尺度上生成3个先验框13×13、26×

26、52×52,通道数为3,后续边界框的大小将基于9个先验框进行微调;对于一个输入图像,经过基础网络进行特征提取,输入到FPN结构,最终生成3个尺度的特征图作为预测;将特征图划分为网格区域,在每个网格上预测三个边界框,一共:

1×(3×(13×13+26×26+52×52))×(5+k)=1×10647×(5+k)个边界框,k代表类别数。

10.根据权利要求2所述的智能家居环境中图像目标检测方法,其特征在于:步骤d),通过神经网络进行特征提取,得到每个边界框预测四个坐标:tx,ty,tw,th,目标网络到左上角的距离为(cx,cy),对应的边界框宽和高为pw,ph,对应的预测关系如下:bx=σ(tx)+cx,by=δ(ty)+cy

bw=pwetw,bh=pheth

其中,tx,ty为网络预测值,σ为sigmoid函数,tw,th为坐标,pw,ph为Cell对应的边界框的宽高;

每个网格预测物体在预测框中的概率Pr(Object),通过如下公式进行打分:

其中, 为预测框和ground truth的交并比,conf(Object)为置信度,当前网格中存在目标时Pr(Object)=1,否则为0,预测框最终通过非极大值抑制得出最后的结果。