欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2021800018997
申请人: 东莞理工学院
专利类型:其他
专利状态:已下证
专利领域: 乐器;声学
更新日期:2025-12-24
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种语音对抗样本检测模型的训练方法,其特征在于,所述方法包括:获取语音训练样本,所述语音训练样本包括多个正常语音样本及多个对抗语音样本;所述对抗语音样本为篡改语义的负样本;

将每个所述语音训练样本切分成多个语音小片段;

将所述多个语音小片段加载截断窗函数,得到多个加窗语音小片段;

分别对所述多个加窗语音小片段进行短时傅里叶变换,得到每个所述语音训练样本对应的多个语谱图;

为每一个正样本语谱图及负样本语谱图添加标签;

将带标签的所述正样本语谱图和负样本语谱图分别输入预设神经网络进行训练,得到语音对抗样本检测模型,其中,在训练完成后,通过所述语音对抗样本检测模型输出每个语音小片段的语谱图为正样本还是负样本的输出结果,并统计语谱图为正样本和负样本的总数量,如果进行检测的语音样本对应的多个语音小片段中,更多的小片段被判断为正样本,则认为该语音样本为正常语音样本,反之,则认为该语音样本为语音对抗样本。

2.根据权利要求1所述的方法,其特征在于,所述获取语音训练样本,所述语音训练样本包括正常语音样本及对抗语音样本,包括:获取原始正常语音样本;

根据所述原始正常语音样本,通过目标函数生成对抗语音样本;

所述目标函数为:

min||δ||2+l(x′+δ,t)

s.t.db(δ)≤T

其中,δ表示对抗性扰动,x′为原始正常语音样本,t为目标句子,l为CTC损失,通过分贝db(·)表示失真度,失真度表示对数尺度上音频的相对响度,T表示对抗性扰动的能量大小的阈值。

3.根据权利要求1所述的方法,其特征在于,所述截断窗函数为汉宁窗函数;所述将所述多个语音小片段加载截断窗函数,得到多个加窗语音小片段,包括:所述将所述多个语音小片段加载汉宁窗函数,得到多个加窗语音小片段。

4.根据权利要求1-3任一项所述的方法,其特征在于,所述将带标签的所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,得到所述语音对抗样本检测模型,包括:将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络进行训练,输出预测结果;

根据所述正样本语谱图的标签、所述负样本语谱图的标签以及所述预测结果计算能量损失函数;

根据所述能量损失函数调整所述预设神经网络的参数,并重新将所述正样本语谱图和负样本语谱图分别输入所述预设神经网络,计算能量损失函数,调整所述预设神经网络的参数,直至所述能量损失函数收敛或达到预设阈值时,得到语音对抗样本检测模型。

5.根据权利要求4所述的方法,其特征在于,所述能量损失函数为:其中,Eθ(Y,x)=-Y·Fθ(x),Fθ(x)为语音训练样本输入所述预设神经网络后的模型输出值;θ为所述预设神经网络的参数,Y为所述语音训练样本的标签;x为所述语音训练样本;β为正常数。

6.一种语音对抗样本检测方法,其特征在于,所述方法包括:

获取待检测语音数据;

将所述待检测语音数据转换为待检测语谱图;

将所述待检测语谱图输入语音对抗样本检测模型;所述语音对抗样本检测模型根据如权利要求1-5任一项所述的训练方法训练得到;

输出所述待检测语音数据对应的每个语音小片段的语谱图为正样本还是负样本的检测结果;

统计语谱图为正样本和负样本的总数量,如果进行检测的语音样本对应的多个语音小片段中,更多的小片段被判断为正样本,则认为该语音样本为正常语音样本,反之,则认为该语音样本为语音对抗样本。

7.一种语音对抗样本检测模型的训练装置,其特征在于,所述装置包括:第一获取模块,用于获取语音训练样本,所述语音训练样本包括正常语音样本及对抗语音样本;所述对抗语音样本为篡改语义的负样本;

提取模块,用于将每个所述语音训练样本切分成多个语音小片段;将所述多个语音小片段加载截断窗函数,得到多个加窗语音小片段;分别对所述多个加窗语音小片段进行短时傅里叶变换,得到每个所述语音训练样本对应的多个语谱图;

标签添加模块,用于为每一个正样本语谱图及负样本语谱图添加标签;

训练模块,用于将带标签的所述正样本语谱图和负样本语谱图分别输入预设神经网络进行训练,得到所述语音对抗样本检测模型,其中,在训练完成后,通过所述语音对抗样本检测模型输出每个语音小片段的语谱图为正样本还是负样本的输出结果,并统计语谱图为正样本和负样本的总数量,如果进行检测的语音样本对应的多个语音小片段中,更多的小片段被判断为正样本,则认为该语音样本为正常语音样本,反之,则认为该语音样本为语音对抗样本。

8.一种语音对抗样本检测装置,其特征在于,所述装置包括:

第二获取模块,用于获取待检测语音数据;

转换模块,用于将所述待检测语音数据转换为待检测语谱图;

检测模块,用于将所述待检测语谱图输入语音对抗样本检测模型;所述语音对抗样本检测模型根据如权利要求1-5任一项所述语音对抗样本检测模型的训练方法或如权利要求7所述的语音对抗样本检测模型的训练装置训练得到;

输出模块,用于输出所述待检测语音数据对应的每个语音小片段的语谱图为正样本还是负样本的检测结果,并统计语谱图为正样本和负样本的总数量,如果进行检测的语音样本对应的多个语音小片段中,更多的小片段被判断为正样本,则认为该语音样本为正常语音样本,反之,则认为该语音样本为语音对抗样本。

9.一种计算设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-5任意一项所述的语音对抗样本检测模型的训练方法或如权利要求6所述的语音对抗样本检测方法的操作。

10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在计算设备上运行时,使得计算设备执行如权利要求1-5任意一项所述的语音对抗样本检测模型的训练方法或如权利要求6所述的语音对抗样本检测方法的操作。