欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2020101655275
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-12-18
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度学习的人体行为预测方法,其特征在于,该方法包括以下步骤:步骤1:通过给定的人物视频图像的帧序列,处理视频场景;

步骤2:系统首先关注于提取上下文感知特征,对有关场景的全局信息进行编码;

步骤3:将上下文感知特征与关注于动作本身的动作感知特征结合起来,以此来预测人体动作类型;

步骤4:使用了两个名为人体行为模块和交互模块来识别场景中人体的动作以及人与周围环境的互动关系;

步骤5:分析两种关系,将获得的视觉信息传递给LSTM编码器,将其压缩编码成“视觉特征张量”Q;

步骤6:轨迹生成器总结编码后的视觉特征并通过LSTM解码器来预测活动的轨迹路径;

所述步骤2和步骤3中,对上下文和动作感知信息进行建模,引入了一种两流体系结构,深度学习网络的第一部分由两个流共享,在ImageNet上进行了预训练,可用于物体识别,该共享部分的输出连接到两个子模型:一个用于上下文感知特征功能,另一个用于动作感知特征功能,然后,使用在每个流的输出上定义的交叉熵损失函数,从单个图像训练这两个子模型来完成相同的动作识别任务,为了针对行动预期训练模型,利用了一种的新损失:t

其中,N为动作类数,T为输入序列的长度(帧数),y(k)在时间t处编码真实的动作标签,t即如果样本属于k类,则y(k)=1,否则为0, 表示由给定模型预测的相应动作标签;

第一类损失函数为: 其中,yi是样本i的地面真相类标签; 是样本i的

第一阶段预测的所有类和所有时间步长的概率向量,第二类损失函数为:

其中 为第二阶段预测的所有类的概率向量,模型的整体损失为: 其

中,V为训练序列总数;

所述步骤5中,分析人与场景之间的关系,使用预训练的场景分割模型为每帧提取像素Tobs×C级场景语义类,每次查看人体3×3周围的区域,一个人的人与场景交互关系表示为R ,其中,Tobs是捕获时间,C是卷积层中通道的数量,将一个人的人与场景交互关系输入到到Tobs×dLSTM编码器中,以捕获时间信息并获得R 的最终人与场景交互特征,其中d表示LSTM的隐藏尺寸;

分析人与对象之间的关系,根据几何距离计算几何关系,对对象与人之间的几何关系以及场景中所有对象的类型进行建模,其中,在任何时刻,给定观察到的一个人的边界框(xb,yb,wb,hb)和场景中的K个其他对象/人({(xk,yk,wk,hk)|k∈[1,K]}),将这种几何关系编K×4码为G∈R ,其中第k行等价于:

2.根据权利要求1所述的基于深度学习的人体行为预测方法,其特征在于,所述步骤1中,视频中每个场景被处理以获得所有人在不同时刻的空间坐标,基于这些坐标,可以提取出它们的边界框;利用这些边界框,来预测在未来时间内对象的活动路径。

3.根据权利要求1或2所述的基于深度学习的人体行为预测方法,其特征在于,所述步骤4中,使用人体行为模块对场景中每个人的视觉信息进行编码,除了标记人的轨迹点,它还对人体的外貌和身体运动进行建模,分别输入LSTM编码器,以获得外观和运动特征,为了模拟人的外观变化,使用带有“RoIAlign”的预训练对象检测模型为每个人的边界框提取固定大小的CNN特征,为了捕获人体运动,利用在MSCOCO数据集上训练的人员关键点检测模型来提取人员关键点信息,应用线性变换将关键点坐标嵌入到LSTM编码器中,除了使用人体行为模块,还使用了交互模块,着眼于人与周围环境之间的相互作用,包括人与场景之间的相互作用以及人与物体之间的相互作用。

4.根据权利要求1或2所述的基于深度学习的人体行为预测方法,其特征在于,所述步骤6中,使用轨迹生成器,将四种类型的视觉特征,即外观,身体运动,人物于场景和人物于对象,由单独的LSTM编码器编码到相同的维度;利用LSTM解码器处理解码后的视觉特征,并实现未来人体活动路径的预测,给定一个人最近一次的轨迹输出,通过下式提取嵌入的轨d迹:et‑1=tanh(We[xt‑1,yt‑1])+be∈R ,其中,[xt‑1,yt‑1]是时间t‑1内的人体的轨迹预测,而We和be是可学习的参数。