1.一种面向语音识别的对抗样本攻击防御方法,其特征在于,包括:
步骤S1,获取原始样本,所述原始样本包括正常样本、对抗样本,为高采样率音频;
步骤S2,原始样本预处理,包括去噪处理和提取梅尔频率倒谱系数,分别得到待恢复样本和梅尔频率倒谱系数;
步骤S3,构建音频重构模型,所述音频重构模型采用基于扩张卷积的改进的Wavenet残差网络结构;
步骤S4,获取用于训练音频重构模型的正常样本,所述正常样本为高采样率音频;首先对正常样本进行下采样,然后通过双线性插值上采样方法转换其维度,与音频重构模型要求的输入维度一致,得到低采样率音频;将高采样率音频与低采样率音频组合成对,得到用于训练音频重构模型的数据集;将数据集分成训练集、验证集和测试集,采用均方误差(MSE)指标优化损失,进行音频重构模型训练,得到低采样率音频到高采样率音频的映射关系;
步骤S5,将待恢复样本和梅尔频率倒谱系数输入训练好的音频重构模型中,得到正常样本。
2.根据权利要求1所述的一种面向语音识别的对抗样本攻击防御方法,其特征在于,所述步骤S2,包括:步骤S21,所述去噪处理,首先对原始样本加入随机高斯白噪声,能够破坏掉部分恶意扰动;然后使用谱减法去噪,可以进一步消除掉恶意扰动;最后通过双线性插值上采样方法转换其维度,与音频重构模型要求的输入维度一致;
步骤S22,所述提取梅尔频率倒谱系数,通过对原始样本进行预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组、离散余弦变换等处理,得到梅尔频率倒谱系数。
3.根据权利要求1所述的一种面向语音识别的对抗样本攻击防御方法,其特征在于,所述步骤S3,包括:步骤S31,所述基于扩张卷积的改进的Wavenet残差网络结构,残差层共有30层,扩张卷积的卷积核大小为3*1,含128个卷积核,扩张卷积的步长从1到512重复三次,模型的最后两个卷积核大小为3*1,输出使用1*1的卷积核。
4.一种面向语音识别的对抗样本攻击防御系统,其特征在于,包括:
样本获取模块,用于获取原始样本,所述原始样本包括正常样本、对抗样本,为高采样率音频;
预处理模块,用于对原始样本进行预处理,包括去噪处理和提取梅尔频率倒谱系数,分别得到待恢复样本和梅尔频率倒谱系数;
样本恢复模块,构建音频重构模型,所述音频重构模型采用基于扩张卷积的改进的Wavenet残差网络结构;将待恢复样本和梅尔频率倒谱系数输入训练好的音频重构模型中,得到正常样本;
模型训练模块,获取用于训练音频重构模型的正常样本,所述正常样本为高采样率音频;首先对正常样本进行下采样,然后通过双线性插值上采样方法转换其维度,与音频重构模型要求的输入维度一致,得到低采样率音频;将高采样率音频与低采样率音频组合成对,得到用于训练音频重构模型的数据集;将数据集分成训练集、验证集和测试集,采用均方误差(MSE)指标优化损失,进行音频重构模型训练,得到低采样率音频到高采样率音频的映射关系。
5.根据权利要求4所述的一种面向语音识别的对抗样本攻击防御系统,其特征在于,所述预处理模块在去噪处理时,执行以下操作:首先对原始样本加入随机高斯白噪声,能够破坏掉部分恶意扰动;然后使用谱减法去噪,可以进一步消除掉恶意扰动;最后通过双线性插值上采样方法转换其维度,与音频重构模型要求的输入维度一致。
6.根据权利要求4所述的一种面向语音识别的对抗样本攻击防御系统,其特征在于,所述预处理模块在提取梅尔频率倒谱系数时,执行以下操作:通过对原始样本进行预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组、离散余弦变换等处理,得到梅尔频率倒谱系数。
7.根据权利要求4所述的一种面向语音识别的对抗样本攻击防御系统,其特征在于,所述样本恢复模块在构建音频重构模型时,执行以下操作:基于扩张卷积的改进的Wavenet残差网络结构,残差层共有30层,扩张卷积的卷积核大小为3*1,含128个卷积核,扩张卷积的步长从1到512重复三次,模型的最后两个卷积核大小为3*1,输出使用1*1的卷积核。
8.一种包括计算机可读指令的计算机可读存储介质,其特征在于,所述计算机可读指令在被执行时,使处理器执行权利要求1‑3任一所述方法中的步骤。
9.一种电子设备,其特征在于,包括:
存储器,存储程序指令;
处理器,与所述存储器相连接,执行存储器中的程序指令,实现权利要求1‑3任一所述方法。