欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020100514439
申请人: 江南大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-07-14
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度检测的长时目标跟踪方法,其特征在于,包括以下步骤:(1)在ILSVRC2015-VID目标检测标记数据集上训练MDNet骨干网络的三个卷积层conv1、conv2、conv3和两个全连接层fc4、fc5的权值参数;

(2)设置MDNet骨干网络最后一层fc6为特定域层,是二分类全连接层,输出样本的正负置信度,参数在每一个离线训练视频帧序列或在线跟踪视频帧序列开始时均随机初始化,得到预训练网络模型;

(3)输入新的待跟踪视频序列,获取目标第一帧,设置t=1,人工确定目标中心位置(x1,y1)与边界框长宽(h1,w1),其中x1为目标中心位置横坐标,y1为目标中心位置纵坐标,h1为边界框高度,w1为边界框宽度;

(4)随机初始化预训练网络模型fc6层的参数;

(5)在第1帧的目标中心位置附近采样出500个不同尺度大小的正样本和5000个负样本,采样时保持正样本与目标边界框重叠比大于0.7,负样本小于0.5,将正样本加入高置信度保留样本池Spool中;

(6)在第1帧的目标中心位置附近采样出1000个与目标边界框重叠比大于0.6的正样本,利用这些正样本训练一个边框回归器BBR,用于修正预训练网络模型对目标中心坐标和长宽数值的预测值;

(7)固定卷积层conv1、conv2、conv3的参数,利用(5)采样的样本迭代训练预训练网络模型50次,更新fc4-fc6的参数;

(8)对于第t帧图像Nt,在Nt-1帧目标周围高斯采样候选样本集合Xt,取Xt中5个最高目标置信度候选的边界框均值 作为预估目标位置,通过边框回归器BBR调整后的 值设置为St,St为第t帧目标估计位置;

若St目标置信度大于0,则将St添加进高置信度保留样本池Spool中,当Spool池满时替换最低置信度的非首帧保留样本;

若St目标置信度不大于0或跟踪间隔10帧,则利用高置信度保留样本池Spool和在当前帧采样的200个与目标边界框重叠比小于0.3的负样本对预训练网络模型进行迭代训练,参照(7)更新fc4-fc6的参数;

(9)重复步骤(8),直至当前序列所有帧跟踪结束。

2.根据权利要求1所述的方法,其特征在于,(5)所述的不同尺度大小的正样本和负样本的采样方式具体为:采样的正样本中心坐标随机在原目标中心偏移长宽均值的十分之一-1范围内选取,长宽尺度放缩倍数为1.3 ~1.3之间的随机值;负样本的采样按照局部和全局两种方式各采样2500个,局部采样的负样本中心坐标随机在原目标中心偏移长宽均值的范围内选取,长宽尺度放缩倍数为1.6-1~1.6之间的随机值,全局采样则随机在整幅图选取与目标框尺寸相同的候选框。

3.根据权利要求1所述的方法,其特征在于,(7)所述的迭代训练具体为:每次迭代时取256个负样本和32个正样本,通过难分负样本挖掘技术筛选其中目标置信度最高的96个负样本用于训练,训练时采用随机梯度下降SGD优化策略和损失函数LS(p,y),其中:y为样本类别标签,p为样本对y=1的正样本的置信度。

4.根据权利要求3所述的方法,其特征在于,(7)所述的y∈{0,1}。

5.根据权利要求3所述的方法,其特征在于,(7)所述的p∈[0,1]。

6.根据权利要求3所述的方法,其特征在于,(7)所述的LS(p,y)为:LS(p,y)=-(y·log(p)+(1-y)·log(1-p))+δ·S(p),式中的δ为控制损失收缩比。

7.根据权利要求6所述的方法,其特征在于,所述的S(p)为:式中的a,c为分别控制损失收缩速度和损失值非线性调节敏感范围。

8.权利要求1所述的方法在人机交互中的应用。

9.权利要求1所述的方法在视频监控中的应用。

10.权利要求1所述的方法在自动驾驶或机器人中的应用。