1.一种基于特征重映射的对抗样本防御方法,其特征在于,包括以下步骤:
构建特征重映射模型,该特征重映射模型包括用于生成显著特征的显著特征生成模型,用于生成非显著特征的非显著特征生成模型,用于判别显著特征和非显著特征真伪的共享判别模型;
根据显著特征生成模型和非显著特征生成模型构建检测器,该检测器用于检测对抗样本和良性样本;
根据显著特征生成模型构建重识别器,该重识别器用于识别对抗样本的类别;
在进行对抗样本检测时,将检测器连接到目标模型的输出,利用检测器进行对抗样本检测;
在进行对抗样本识别时,将重识别器连接到目标模型的输出,利用重识别器进行对抗样本识别。
2.如权利要求1所述的基于特征重映射的对抗样本防御方法,其特征在于,特征重映射模型的构建方法为:构建特征重映射模型训练体系,包括目标模型、显著特征生成模型、非显著特征生成模型以及共享判别模型,其中,目标模型用于目标识别,输入为样本,输出隐藏层特征;显著特征生成模型的输入为隐藏层特征,输出为生成显著特征;非显著特征生成模型的输入为隐藏层特征,输出为生成非显著特征;共享判别模型的输入为生成显著特征、生成非显著特征、真实显著特征以及真实非显著特征,输出为对良性样本或对抗样本的识别结果;
构建训练共享判别模型的损失函数lossD和训练显著特征生成模型和非显著特征生成模型的损失函数lossG,利用损失函数lossD和损失函数lossG对共享判别模型、显著特征生成模型以及非显著特征生成模型进行联合训练,以确定显著特征生成模型、非显著特征生成模型以及共享判别模型的模型参数;
其中,损失函数 为对抗样本
的显著特征生成训练时共享判别模型的损失函数, 对抗样本的非显著特征生成训练时共享判别模型的损失函数, 为良性样本的显著特征生成训练时共享判别模型的损失函数, 为良性样本的非显著特征生成训练时共享判别模型的损失函数;
损失函数 为对抗样本的显著
特征生成训练时显著特征生成模型的损失函数, 为对抗样本的非显著特征生成训练时非显著特征生成模型的损失函数, 为良性样本的显著特征生成训练时显著特征生成模型的损失函数, 为良性样本的非显著特征生成训练时非显著特征生成模型的损失函数。
3.如权利要求1所述的基于特征重映射的对抗样本防御方法,其特征在于,检测器的构建方法为:构建检测器训练体系,包括目标模型、参数确定的显著特征生成模型、参数确定的非显著特征生成模型以及检测模型,其中,目标模型用于目标识别,输入为样本,输出隐藏层特征;显著特征生成模型的输入为隐藏层特征,输出为生成显著特征;非显著特征生成模型的输入为隐藏层特征,输出为生成非显著特征;检测模型的输入为生成显著特征与生成非显著特征级联形成的级联特征,输出为良性样本或对抗样本的检测结果;
构建训练检测模型的损失函数lossdetect,以最小化损失函数lossdetect为目标对检测模型进行训练,以确定检测模型的模型参数;
其中,损失函数lossdetect为:
其中,log(·)表示对数函数,Det(·)表示检测模型,h(·)表示目标模型隐藏层模块的输出,xi表示良性样本, 表示xi对应的对抗样本,GSF(·)表示显著特征生成模型,GNSF(·)表示非显著特征生成模型,表示为concat(GSF(·),GNSF(·))表示级联特征。
4.如权利要求1所述的基于特征重映射的对抗样本防御方法,其特征在于,重识别器的构建方法为:构建检测器训练体系,包括目标模型、参数确定的显著特征生成模型以及重识别模型,其中,目标模型用于目标识别,输入为样本,输出隐藏层特征;显著特征生成模型的输入为隐藏层特征,输出为生成显著特征;重识别模型的输入为生成显著特征,输出为对抗样本的类别;
构建训练重识别模型的损失函数lossre-recog,以最小化损失函数lossre-recog为目标对重识别模型进行训练,以确定重识别模型的模型参数;
其中,损失函数lossre-recog为:
其中,log(·)表示对数函数; 表示对抗样本对应的原始良性样本的真实类标经过one-hot编码后,在第k个位置上的元素值; 表示对抗样本经过目标模型后得到的将 输入参数确定的显著特征生成模型后得到 将生成的显著特征输入到重识别模型后输出的置信度矩阵的第k个位置上的元素值;k为原始样本分类索引,m表示原始样本的分类数;i为对抗样本索引, 表示训练集中对抗样本的数量。
5.如权利要求1~4任一项所述的基于特征重映射的对抗样本防御方法,其特征在于,训练特征重映射模型、检测器以及重识别器的训练样本的构建方法为:(a)对于原始的良性样本xi,首先测试其在目标模型中的预测类标与真实类标是否一致,若不一致,则剔除该良性样本不攻击,若一致,则执行步骤(b);
(b)针对目标模型和良性样本xi,使用ma种不同的攻击方法进行攻击得到对应的对抗样本集合(c)攻击结束后,将步骤(b)中得到的对抗样本集合中的对抗样本逐一输入目标模型中进行测试,若预测类标与真实类标不一致,则表示其为攻击成功的对抗样本,保留在集合中;若一致,则表明其攻击失败,从对抗样本集合中剔除;
(d)重复步骤(a)~(c)的操作,得到所有样本的对抗样本集合;
(e)对对抗样本集合 中的样本进行重新整理排序。
6.如权利要求1~4任一项所述的基于特征重映射的对抗样本防御方法,其特征在于,显著特征生成模型与非显著特征生成模型的结构相同,为依次连接的输入层、隐藏单元以及输出层,其中,隐藏单元包含若干个隐藏层,每个隐藏层为全连接层、卷积层中的至少一种。
7.如权利要求2~4任一项所述的基于特征重映射的对抗样本防御方法,其特征在于,共享判别模型、检测模型以及重识别模型网络结构相同,均包括依次连接的输入层、隐藏单元、过渡层以及输出层,其中,隐藏单元包含若干个隐藏层,每个隐藏层为全连接层、卷积层中的至少一种。
8.一种自动驾驶中对抗攻击的防御方法,其特征在于,以包含4类户外交通工具和6类自然野生动物图像的数据集作为训练集,采用如权利要求1~7任一项所述的基于特征重映射的对抗样本防御方法来构建检测器和重识别器,在进行对抗样本检测时,将检测器连接到目标模型的输出,利用检测器进行对抗样本检测;在进行对抗样本识别时,将重识别器连接到目标模型的输出,利用重识别器进行对抗样本识别。