欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2023110763677
申请人: 长春市鸣玺科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2025-04-19
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.强噪声环境下的语音检测模型训练方法,其特征在于,所述方法为:

S1:获取强噪声环境中的实地录音中的语音数据,并对语音数据进行预处理;

S2:将预处理后的语音数据进行滑动窗口分段,并对每个分段通过傅里叶变换将原始语音信号转换为频谱表示;

S3:将频谱输入到卷积神经网络CNN中,自动从输入数据中提取有意义的语音特征数据;

S4:根据语音特征数据引入双向长短期记忆渐进式学习模型来估计语料层面的渐进式比率掩码后,估计的渐进式比率掩码被纳入最小值控制递归平均法程序中构建语音检测模型,通过改进优化算法计算损失对模型进行参数优化;

S5:根据用户反馈和模型性能,持续对语音检测模型进行优化和微调,其中,所述将频谱输入到卷积神经网络CNN中,自动从输入数据中提取有意义的语音特征数据的步骤中,包括;

将频谱输入到卷积神经网络CNN中后,卷积核会在输入数据上滑动并进行计算,CNN自动识别出重要的频率模式、谐波结构、音色特征,其中,所述根据语音特征数据引入双向长短期记忆渐进式学习模型来估计语料层面的渐进式比率掩码后,估计的渐进式比率掩码被纳入最小值控制递归平均法程序中构建语音检测模型,通过改进优化算法计算损失对模型进行参数优化的步骤中,包括;

通过BLSTM作为回归模型来预测渐进式比率掩码PRMs;其中PRMs由中间层生成,并作为学习目标,其对应于干净语音和噪声之间的比率,即“掩码”;通过对数功率谱LPS特征作为语音检测模型的输入、理想比率掩码IRM作为输出得到一系列用于帮助在降噪和语音失真之间进行权衡的渐进式比率掩码PRMs,自适应地控制降噪和语音失真之间的权衡,通过PRMs提供的信息模型准确估计噪声,根据m个目标层的加权MMSE准则通过改进优化算法通过来计算损失,以对参数进行优化,其中,所述通过对数功率谱LPS特征作为语音检测模型的输入、理想比率掩码IRM作为输出得到一系列用于帮助在降噪和语音失真之间进行权衡的渐进式比率掩码PRMs的步骤中,包括;

PRMs在降噪和语音失真之间进行权衡,定义为:

其中,为时间帧,为频率仓, 为语音信号在时间帧和频率仓的短时傅里叶变换, 为一个渐进式比率掩码目标在T‑F单元 的噪声短时傅里叶变换,为输入信号在T‑F单元 的噪声短时傅里叶变换,其中,所述改进优化算法为;

其中, 为第m个目标层的加权因子,为权重矩阵和偏置向量的集合, 为第m个目标层的神经网络输出。

2.根据权利要求1所述的强噪声环境下的语音检测模型训练方法,其特征在于,所述获取强噪声环境中的实地录音中的语音数据,并对语音数据进行预处理的步骤中,包括;

根据语音获取模块在不同的噪声环境中获取语音数据,将获取的语音数据中的音频信号强度去除静音段,并对每个音频样本一个标签,通过Z‑Score方法将语音数据标准化。

3.根据权利要求1所述的强噪声环境下的语音检测模型训练方法,其特征在于,所述将预处理后的语音数据进行滑动窗口分段,并对每个分段通过傅里叶变换将原始语音信号转换为频谱表示的步骤中,包括;

对预处理后的语音数据根据实际任务来设定窗口的帧长和帧移以确保连续的音频片段之间有重叠部分,对每一帧应用窗函数抑制频谱泄漏后通过傅里叶变换计算出其各个频率成分的强度,从而得到一个频谱。

4.根据权利要求1所述的强噪声环境下的语音检测模型训练方法,其特征在于,所述根据用户反馈和模型性能,持续对语音检测模型进行优化和微调的步骤中,包括;

若模型在某些情况下表现不佳,则通过添加公开语音数据库中的各种语言类型和级别的噪声至清晰语音数据中,以生成更多训练样本持续对语音检测模型进行优化。