欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2020100871313
申请人: 华南师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2025-12-18
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种面向边缘计算的轻量级语音关键词识别方法,其特征在于,包括下述步骤:对语音信号进行预处理,剔除噪音信号;

对预处理后的语音信号进行特征提取;

构建轻量级语音关键词识别模型EdgeCRNN,语音关键词识别模型EdgeCRNN采用了首层特征增强方法和轻量级组件;

所述首层特征增强方法具体为:

轻量级语音关键词识别模型首层为卷积层,卷积层主要结构是卷积核,卷积核参数有步长Stride、卷积核尺寸Kernel_Size、padding;所述卷积核选择3×3卷积核,在模型首层中设置stride为1进行增强和集中特征,特征提取可从第二层开始;其他参数采用默认参数;

卷积操作计算公式如下,其中d代表输入维度中的一维,其余维度计算类似,m代表卷积核大小,p代表padding大小,s代表步长:把Conv2D的卷积核数据代入公式中可得 输出特征图大小为 维,特征减半了;Conv2D的卷积核数据代入公式可得输出特征图大小为d,因此输出特征图大小没有改变,相当于重复提取特征,过滤掉了无用特征,增强了特征;

所述轻量级组件包括深度可分离卷积和残差结构;根据深度可分离卷积和残差结构构造适合语音关键词识别任务的基础模块Base‑Block和下采样模块CRNN‑Block,EdgeCRNN模型由一组基础模块Base‑Block和下采样模块CRNN‑Block组成,分为三个阶段,每个阶段的第一个单元步长为2,同一个阶段内的其他超参数保持不变,下一个阶段的输出通道数以倍数增加;所述基础模块Base‑Block,用于重复提取特征,两分支输入相同,输出进行“Add”操作;所述下采样模块CRNN‑Block,能减小计算量,相对地增大感受野,两分支输入相同,输出采用“Concat”操作;

将提取的特征输入轻量级语音关键词识别模型,进行语音识别,具体为:将提取的特征输入EdgeCRNN模型中,EdgeCRNN采用卷积层提取输入特征的局部频域特征、循环神经层提取输入特征的时域特征,最后由全连接层进行特征分类并输出结果,在卷积层中采用Relu作为激活函数增加模型表示能力,批量归一化进行数据处理,交叉熵函数作为损失函数,反向传播中采用Adam作为优化器;循环神经层中采用LSTM。

2.根据权利要求1所述面向边缘计算的轻量级语音关键词识别方法,其特征在于,所述预处理具体为:输入语音信号文件;

分帧,把整段语音信号切分成长度为30ms的帧,时间位移为10ms;

利用FFT将时域信号转为频域信号;

采用多窗谱对分帧后的语音信号进行功率谱估计;

计算谱减增益:

其中Py(w)为带噪音信号的功率谱估计,Pn(w)为噪声功率谱估计,a为过减因子,a越大抑制噪声效果越好;

增强后的幅度谱:

|x(w)|=|y(w)|*|g(w)|

其中|y(w)|为在噪音的语音信号,|x(w)|为序列长度;

得到增强后的幅度谱后,加上初始相位θ(w)即可得出在频域增强后的语音,最后由逆向快速傅里叶变换得到增强后的语音:y(w)=|x(w)|θ(w)。

3.根据权利要求 1所述面向边缘计算的轻量级语音关键词识别方法,其特征在于,在进行特征提取时,采用由LFBE和MFCC的一、二阶差分特征的叠加LFBE‑Delta作为模型输入特征,LFBE‑Delta特征提取过程如下:输入信号进行预加重、分帧和加窗;

快速傅里叶变换;

梅尔滤波器组特征提取;

对所有的梅尔频谱取对数得到对数滤波器组能量;

对LFBE进行离散余弦变换,提取MFCC系数;

MFCC的一阶和二阶差分特征提取;

LFBE与Delta和Delta‑Delta叠加。

4.根据权利要求 1所述面向边缘计算的轻量级语音关键词识别方法,其特征在于,所述深度可分离卷积由深度卷积和点卷积组成,深度卷积中卷积核的维度与输入数据的通道数相等,并且一个维度与一个通道特征进行卷积操作,最后输出的通道数与输入通道数不变;点卷积的卷积核尺寸为1x1的,单个卷积核的维度与输入特征通道数相等,然后进行正常卷积操作,输出特征通道数为M。

5.根据权利要求 4所述面向边缘计算的轻量级语音关键词识别方法,其特征在于,所述深度可分离卷积操作的计算量是标准卷积的运算量 倍,其中N为输出Map的2

channel个数,D为卷积核大小,N往往较大可以忽略,因此深度可分离卷积可以减少D倍。

6.根据权利要求 1所述面向边缘计算的轻量级语音关键词识别方法,其特征在于,所述残差结构的原理如下:设H(x)作为几个堆叠的层底层映射,x为这几个堆叠层的输入,假设多个非线性层可以渐近的逼近复杂函数,则等效于可渐近地近似残存函数,即H(x)–x,故这些层近似为残差函数:F(x):=H(x)‑x,故原函数表示为:H(x)=F(x)+x,F(x)代表残差模块的推理函数,公式如下:y=F(x,wi)x

其中,y代表残差模块的输出,wi为权重,残差结构由两部分组成:快捷连接和恒等映射,训练过程中,快捷连接修剪掉多余网络层,恒等映射能让网络变深,而恒等映射有两个:跳跃连接和激活函数;F(x)+x操作是通过快捷连接和恒等映射来执行,既不引入额外的参数,也不增加计算复杂度,可以直接使用输入输出是相同的维度,此时在残差模块输出后与残差模块输入做“加”操作,因此输入特征被增强了,而且在快捷连接过程中,能自动过滤掉无关的神经节点,零参数为0。