1.一种基于组合卷积神经网络的声音事件检测与定位方法,其特征在于它由下述步骤组成:(1)数据集预处理
从TAU空间声音事件数据集中提取语音信号,包含11种声音事件类别,清嗓、咳嗽声、摁门铃、推门声、抽屉声、键盘声、敲门声、说话声、笑声、翻书声、电话铃声,将TAU空间声音事件数据集按照4:1的比例分成训练集、测试集;
(2)提取特征
将语音信号按下式提取梅尔频谱图特征m:
其中,f表示实际频率,按下式确定广义互相关-相位变换特征Ry1y2(τ):其中,Gx1x2(f)表示x1、x2两路信号的功率谱,表示相位变换加权函数,τ表示时间延迟;
(3)构建组合卷积神经网络
组合卷积神经网络由双分支卷积神经网络与线性密集连接混合神经网络、全连接层依次串联构成;
所述的双分支卷积神经网络由第一分支卷积神经网络、第二分支卷积神经网络、特征融合网络构成,第一分支卷积神经网络与第二分支卷积神经网络并联后的输出端与特征融合网络的输入端相连;
所述的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成;
(4)训练组合卷积神经网络
1)确定目标函数
目标函数包括二进制交叉熵损失函数L、均方误差损失函数MSE、评价函数F1、评价函数ER、评价函数DOAerror和评价函数Framerecall,按下式确定二进制交叉熵损失函数L:其中y是真实的标签值,y∈{0,1},是预测的概率值,按下式确定均方误差损失函数MSE:其中n是样本的数量,n为有限的正整数,yi是第i个样本的实际值,y′i是第i个样本的预测值;
按下式确定准确率和召回率两者综合指标的评价函数F1:其中,P是准确率,R是召回率,TP是真正例,FP是假正例,FN是假负例;
按下式确定错误发生数目的评价函数ER:
S(k)=min(FN(k),FP(k))
D(k)=max(0,FN(k)-FP(k))
I(k)=max(0,FP(k)-FN(k))
其中,FN(k)表示系统输出中第k段中的假负例事件,FP(k)表示系统输出中第k段中的假正例事件;
按下式确定评价函数DOAerror:
其中,表示第t时间的参考角度,表示第t时间的估计角度,表示估计在第t个时间的总的角度数,H是指解决任务分配的匈牙利方法;
按下式确定评价函数Framerecall:
其中,1()表示满足的条件,输出1,否则输出0,表示参考在第t个时间总的角度数,T表示时间帧,且不等于0;
2)训练组合卷积神经网络
将提取的梅尔频谱图特征m和广义互相关-相位变换特征Ry1y2(τ)送入双分支卷积神经网络中,进行深度语音特征提取,将双分支卷积神经网络输出的深度语音特征,输入线性密集连接混合神经网络中对语音的时间依赖性进行建模,在训练过程中,组合卷积神经网络的学习率r∈[10-5,10-3],优化器采用Adam优化器,迭代至损失函数L和MSE收敛;
(5)测试组合卷积神经网络
将测试集输入到训练好的组合卷积神经网络中进行测试;
(6)检测和定位声音事件
使用全连接层中的Sigmoid激活函数进行激活,Sigmoid激活函数的取值范围为0~1之间,Sigmoid激活函数的值大于0.5时,检测声音事件存在,则对其进行到达方向的估计;声音事件位置距离为1m时,参考方位角为[-180°,180°]、参考仰角为[-40°,40°],声音事件位置距离为2m时,参考方位角为[-180°,180°]、参考仰角为[-20°,20°],以每间隔10为一个划分;
取标签中所有的参考方位角为数组M,按下式确定估计方位角γ:取标签中所有的参考仰角为数组N,按下式确定估计仰角β:将估计方位角γ和估计仰角β与参考方位角和参考仰角通过评价函数DOAerror计算得到两者之间的平均角度误差。
2.根据权利要求1所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:在(3)步骤中,所述的第一分支卷积神经网络由第一条件参数化卷积层与第一批量归一化层、第一修正线性单元层依次串联构成;
第一分支卷积神经网络的构建方法为:
Output1(x)=ReLU(BN(CPConv1(x)))其中,CPConv1是第一条件参数化卷积,BN是批量归一化,ReLU是修正线性单元,x是提取的梅尔频谱图特征和广义互相关-相位变换特征;
第二分支卷积神经网络由第二条件参数化卷积层与第二批量归一化层、第二修正线性单元层依次串联构成;
第二分支卷积神经网络的构建方法为:
Output2(x)=ReLU(BN(CPConv2(x)))其中,CPConv2是第二条件参数化卷积,BN是批量归一化,ReLU是修正线性单元,x是提取的梅尔频谱图特征和广义互相关-相位变换特征;
所述的特征融合网络由卷积层与全局平均池化层、全连接层、softmax函数层依次串联构成,卷积层的卷积核大小为1×1、步长为1。
3.根据权利要求2所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:所述的第一条件参数化卷积层由平均池化层与第一全连接层、反卷积层、sigmoid激活函数层依次串联构成;
第一条件参数化卷积层的构建方法为:
CPConv1(x)=(α1W1+...+αnWn)*x其中,α为路由函数λ计算得到的权重,W是初始化权重,n为有限的正整数,*为卷积操作;
路由函数λ由平均池化层与第一全连接层、反卷积层、Sigmoid激活函数层依次串联构成;
路由函数λ的构建方法为:
λ=Sigmoid(Tconv(FC(AvgPool(x))))其中AvgPool是平均池化、FC是全连接,Tconv是反卷积,Sigmoid是激活函数;
所述的第二条件参数化卷积层由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成;
第二条件参数化卷积层的构建方法为:
CPConv2(x)=(α1′W1+...+αn′Wn)*x其中,α′为路由函数ξ计算得到的权重,W是初始化权重,n为有限的正整数;
路由函数ξ由局部重要性池化层与第二全连接层、双线性插值层、修正线性单元层依次串联构成,路由函数ξ的构建方法为:ξ=ReLU(BI(FC(LIPool(x))))其中,LIPool是局部重要性池化,FC是全连接,BI是双线性插值操作,ReLU是修正线性单元。
4.根据权利要求1所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:在(3)步骤中,所述的线性密集连接混合神经网络由因果卷积层与第一空洞残差块、第二空洞残差块、Transformer网络、第三空洞残差块、深度可分离卷积层依次串联构成;
线性密集连接混合神经网络的构建方法为:
Zl=Hl([Z0,Z1,...,Zl-1])
其中,[Z0,Z1,...,Zl-1]是指第0层到第l层生成的特征图的串联,l的取值范围为1-5;Hl是一个复合操作,包括批量归一化、修正线性单元、卷积操作。
5.根据权利要求1所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:在(3)步骤中,所述的因果卷积层的卷积核大小为1×1、步长为1;所述的第一空洞残差块由空洞卷积层、sigmoid激活函数层、tanh激活函数层、第一线性层、第二线性层、卷积层构成,空洞卷积层的输出端与并联的sigmoid激活函数层、tanh激活函数层的输入端相连,sigmoid激活函数层的输出端与第一线性层的输入端相连,tanh激活函数层的输出端与第二线性层的输入端相连,第一线性层的输出端和第二线性层的输出端与卷积层的输入端相连;所述的第二空洞残差块和第三空洞残差块的结构与第一空洞残差块的结构相同;
各空洞残差块的输出方法为:
Y=(Vg,i(sigmoid(Wg,i*ui+b))+b′)⊙(Vf,i(tanh(Wf,i*ui+c))+c′)其中,*为卷积操作,⊙为逐元素点积,W和V是可学习的权重,b、b′、c、c′是偏差,i是层的索引,i的取值为1,2,3,f和g是滤波器和门,tanh和sigmoid是激活函数,ui为空洞卷积层的输入。
6.根据权利要求5所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:所述的空洞卷积层的卷积核大小为3×3、步长为1和空洞率为2,卷积层的卷积核大小为1×1和步长为1。
7.根据权利要求1所述的基于组合卷积神经网络的声音事件检测与定位方法,其特征在于:在(3)步骤中,所述的深度可分离卷积层的卷积核大小为3×3和步长为1。