欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2019105080965
申请人: 中国地质大学(武汉)
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于生成对抗网络的人手深度图像数据增强的方法,其特征在于,包含如下步骤:

S1、建立生成对抗网络并进行初始化,生成对抗网络包括顺次连接生成器和判别器;进行初始化的参数包含生成器的优化参数qG以及判别器的优化参数qD,这些优化参数作为对应的卷积核的权值,其中判别器优化参数qD分为姿态估计网络分支参数qpose和判别图片真伪网络分支参数qDis;

S2、训练生成对抗网络,训练时根据下述公式采用梯度下降的方法更新判别器和生成器的优化参数,直至对应的损失收敛:式中,箭头的左边表示被更新的参数,右边表示更新后的参数, 和 分别表示判别器和生成器的梯度,Lpose、Lgan、Lrecons分别表示判别器预测的三维位姿坐标与真实位姿坐标之间的均方误差、判别器中判别图片真伪网络分支进行二值交叉熵损失、合成图像和真实图像之间的限幅均方误差,且:式中,N表示每一个Batch中图像的总数,x(i)表示每个Batch中的第i张真实图像,t为限幅,X(i)表示判别器每个Batch输入的第i张生成的图像, 表示判别器中姿态估计分支函数,J(i)为其对应的关节坐标信息,Gq(J(i))表示生成的图像,即X(i), 表示真实图像作为判别器的输入,得出判别器的输出,即图片是真还是假, 表示伪图作为判别器的输入,输出伪图是真还是假,每次输入生成对抗网络的真实图像以及其对应的关节点坐标称之为一个Batch;

所述对应的损失是根据下述公式计算得出:

LGen=Lrecons-Lgan,

LDis=Lpose+Lgan;

其中,LGen表示生成器损失,LDis表示判别器损失。

2.根据权利要求1所述的基于生成对抗网络的人手深度图像数据增强的方法,其特征在于,步骤S1中,生成器由五层反卷积层组成,反卷积核大小为6×6,反卷积通道数为32,放大因子为2,其输入为随机噪声以及关节点的位置信息,通过五层反卷积层生成一张伪图作为生成图像;

判别器首先通过两层卷积层对图像进行特征提取,提取的特征图分别输入两个分支网络中,其中一个分支用于预测图片中人手的关节点位姿,包括依次设置的三个卷积层以及两个全连接层,另外一个分支用于判断图片的真伪,包括依次设置的三个卷积层以及一个全连接层,在判别器中卷积层的卷积核大小为6×6,通道数为32,步长为2。

3.根据权利要求1所述的基于生成对抗网络的人手深度图像数据增强的方法,其特征在于,步骤S1中,所述初始化是指:对于生成器的优化参数qG,参数初始化为[-0.04,0.04]截断正态分布,其均值和标准差均为0.02;对于姿态估计网络分支参数qpose和判别图片真伪网络分支参数qDis,参数初始化为[-0.04,0.04]截断正态分布,其均值和标准差均为0.02。

4.根据权利要求1所述的基于生成对抗网络的人手深度图像数据增强的方法,其特征在于,每个Batch中包含64个样本数据,并且生成器采用Adam梯度下降优化算法来更新生成器优化参数,学习率设置为0.002,判别器采用SGD优化算法来更新判别器优化参数,学习率设置为0.001。

5.一种经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法,其特征在于,包含如下步骤:S1、建立生成对抗网络并进行初始化,生成对抗网络包括顺次连接生成器、风格变化网络和判别器,风格变化网络用于将生成器生成的伪图作为风格变换网络的输入,结合风格图片,最终生成一个经过风格变换的生成图像然后给到判别器;进行初始化的参数包含生成器的优化参数qG以及判别器的优化参数qD,这些优化参数作为对应的卷积核的权值,其中判别器优化参数qD分为姿态估计网络分支参数qpose和判别图片真伪网络分支参数qDis;

S2、训练生成对抗网络,训练时根据下述公式采用梯度下降的方法更新判别器和生成器的优化参数,直至对应的损失收敛:式中,箭头的左边表示被更新的参数,右边表示更新后的参数, 和 分别表示判别器和生成器的梯度,Lpose、Lgan、Lrecons分别表示判别器预测的三维位姿坐标与真实位姿坐标之间的均方误差、判别器中判别图片真伪网络分支进行二值交叉熵损失、合成图像和真实图像之间的限幅均方误差,且:LST(Gq)=ωcontLcont(Gq)+ωstyLstyle(Gq)+ωtvLtv(Gq);

式中,N表示每一个Batch中图像的总数,x(i)表示每个Batch中的第i张真实图像,t为限幅,X(i)表示判别器每个Batch输入的第i张生成的图像, 表示判别器中姿态估计分支函数,J(i)为其对应的关节坐标信息,Gq(J(i))表示生成的图像,即X(i),Dq(x(i))表示真实图像作为判别器的输入,得出判别器的输出,即图片是真还是假,Dq(Gq(J(i)))表示伪图作为判别器的输入,输出伪图是真还是假,每次输入生成对抗网络的真实图像以及其对应的关节点坐标称之为一个Batch,Lcont(Gq)是指风格变换的内容损失,Lstyle(Gq)是指风格变换的风格损失、Ltv(Gq)是指像素位置信息变化损失,ωcont、ωsty及ωtv分别表示三个损失值的权重,且均大于0;

所述对应的损失是根据下述公式计算得出:

LGen=Lrecons-Lgan,

LDis=Lpose+Lgan;

其中,LGen表示生成器损失,LDis表示判别器损失。

6.根据权利要求1所述的经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法,其特征在于,步骤S1中,生成器由五层反卷积层组成,反卷积核大小为6×6,反卷积通道数为32,放大因子为2,其输入为随机噪声以及关节点的位置信息,通过五层反卷积层生成一张伪图作为生成图像;

判别器首先通过两层卷积层对图像进行特征提取,提取的特征图分别输入两个分支网络中,其中一个分支用于预测图片中人手的关节点位姿,包括依次设置的三个卷积层以及两个全连接层,另外一个分支用于判断图片的真伪,包括依次设置的三个卷积层以及一个全连接层,在判别器中卷积层的卷积核大小为6×6,通道数为32,步长为2。

7.根据权利要求1所述的经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法,其特征在于,步骤S1中,所述初始化是指:对于生成器的优化参数qG,参数初始化为[-0.04,0.04]截断正态分布,其均值和标准差均为0.02;对于姿态估计网络分支参数qpose和判别图片真伪网络分支参数qDis,参数初始化为[-0.04,0.04]截断正态分布,其均值和标准差均为0.02。

8.根据权利要求1所述的经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法,其特征在于,每个Batch中包含64个样本数据,并且生成器采用Adam梯度下降优化算法来更新生成器优化参数,学习率设置为0.002,判别器采用SGD优化算法来更新判别器优化参数,学习率设置为0.001。

9.根据权利要求1所述的经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法,其特征在于,风格变换网络由VGG-19网络作为其骨架网络,并从网络的中间层抽取图像特征,采用VGG-19网络中的Conv1_1,Conv2_1,Conv3_1,Conv4_1,Conv5_1输出的特征图作为提取的风格特征,Conv4_2输出的特征图作为图像的内容特征。

10.根据权利要求1所述的经过风格变换的基于生成对抗网络的人手深度图像数据增强的方法,其特征在于,风格转换网络中将卷积块的索引定义为j,卷积块中的卷积层的索引定义为i,采用x表示原始内容图像,表示生成图像,xs表示风格图像;

内容损失Lcont(Gq)的计算公式如下:

表示卷积块gc中卷积层λc输出的激活值,Gc表示卷积神经网络模型VGG-19,Λc表示若干卷积层λc的集合, 和 表示由卷积层λc输出的特征图的长和,F表示F范;

计算风格损失Lstyle(Gq)的计算公式如下:

其中, 表示卷积块gc中卷积层λc里第i个卷积特征图在位置k处的激活值,Gram矩阵定义为卷积块γs中的卷积层λs输出的第i个和第j个特征图之间的内积;

像素位置信息损失的计算公式如下:

w,h∈W,H, 表示生成图像在(w,h)处的像素信息,W,H分别表示在像素层面上图像的长宽。