欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2020107628939
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2025-12-10
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种语音端点检测方法,其特征在于,所述语音端点检测方法包括:获取待识别语音信息,并对所述待识别语音信息进行预处理,得到预处理后的语音信息;

从所述预处理后的语音信息中提取帧级别的语音频谱特征信息;

判断目标说话人是否已预先注册语音特征信息;

若目标说话人未预先注册语音特征信息,则将所述预处理后的语音信息输入到预训练的d-vector网络中,采用预置特征提取网络从所述预处理后的语音信息中提取帧级说话人特征向量;

采用所述预训练的d-vector网络中的预置隐层网络从过滤器组fbank特征信息中抽取激活值;

将所述激活值进行L2正则化并累加处理,得到目标说话人的声学特征信息,所述声学特征信息为d-vector特征向量信息;

若目标说话人已预先注册语音特征信息,则从预置数据表中查询目标说话人的声学特征信息;

对所述语音频谱特征信息和所述声学特征信息进行特征融合,得到已融合的语音特征信息,所述已融合的语音特征信息为段级或句子级的特征信息;

将所述已融合的语音特征信息输入至预设的长短期记忆网络-卷积神经网络LSTM-CNN模型中,并通过预设的LSTM-CNN模型对所述已融合的语音特征信息进行语音端点检测处理,得到检测结果,其中,所述检测结果用于指示每帧语音信息端点类型的后验概率,所述预设的LSTM-CNN模型为已训练的深度神经网络模型;

当所述检测结果大于或者等于第一预置阈值时,确定所述检测结果为目标说话人语音类型;

当所述检测结果小于第一预置阈值,并且大于或者等于第二预置阈值时,确定所述检测结果为非目标说话人语音类型;

当所述检测结果小于第二预置阈值,并且大于或者等于第三预置阈值时,确定所述检测结果为背景噪声类型。

2.根据权利要求1所述的语音端点检测方法,其特征在于,所述获取待识别语音信息,并对所述待识别语音信息进行预处理,得到预处理后的语音信息,包括:接收待识别语音信息,并对所述待识别语音信息进行采样,得到已采样的语音信息;

对所述已采样的语音信息依次进行预加重、分帧和加窗处理,得到预处理后的语音信息。

3.根据权利要求1所述的语音端点检测方法,其特征在于,所述从所述预处理后的语音信息中提取帧级别的语音频谱特征信息,包括:从所述预处理后的语音信息中提取每帧语音信号;

对所述每帧语音信号进行傅里叶变换,得到对应的频谱信息;

对所述对应的频谱信息进行梅尔滤波器组处理,得到过滤器组fbank特征信息,并将所述fbank特征信息设置为帧级别的语音频谱特征信息。

4.根据权利要求1所述的语音端点检测方法,其特征在于,所述若目标说话人已预先注册语音特征信息,则从预置数据表中查询目标说话人的声学特征信息,包括:若目标说话人已预先注册语音特征信息,则获取目标说话人的唯一标识信息,并按照预置结构化查询语言语法规则、所述唯一标识信息和预置数据表生成查询语句;

执行所述查询语句,得到所述目标说话人在特征注册阶段中确定的预置d-vector特征信息,并将所述预置d-vector特征信息设置为目标说话人特征信息。

5.一种语音端点检测装置,其特征在于,所述语音端点检测装置包括:预处理模块,用于获取待识别语音信息,并对所述待识别语音信息进行预处理,得到预处理后的语音信息;

提取模块,用于从所述预处理后的语音信息中提取帧级别的语音频谱特征信息;

处理模块,用于判断目标说话人是否已预先注册语音特征信息;

若目标说话人未预先注册语音特征信息,则将所述预处理后的语音信息输入到预训练的d-vector网络中,采用预置特征提取网络从所述预处理后的语音信息中提取帧级说话人特征向量;

采用所述预训练的d-vector网络中的预置隐层网络从过滤器组fbank特征信息中抽取激活值;

将所述激活值进行L2正则化并累加处理,得到目标说话人的声学特征信息,所述声学特征信息为d-vector特征向量信息;

若目标说话人已预先注册语音特征信息,则从预置数据表中查询目标说话人的声学特征信息;

融合模块,用于对所述语音频谱特征信息和所述声学特征信息进行特征融合,得到已融合的语音特征信息,所述已融合的语音特征信息为段级或句子级的特征信息;

检测模块,用于将所述已融合的语音特征信息输入至预设的长短期记忆网络-卷积神经网络LSTM-CNN模型中,并通过预设的LSTM-CNN模型对所述已融合的语音特征信息进行语音端点检测处理,得到检测结果,其中,所述检测结果用于指示每帧语音信息端点类型的后验概率,所述预设的LSTM-CNN模型为已训练的深度神经网络模型;

当所述检测结果大于或者等于第一预置阈值时,确定所述检测结果为目标说话人语音类型;

当所述检测结果小于第一预置阈值,并且大于或者等于第二预置阈值时,确定所述检测结果为非目标说话人语音类型;

当所述检测结果小于第二预置阈值,并且大于或者等于第三预置阈值时,确定所述检测结果为背景噪声类型。

6.一种语音端点检测设备,其特征在于,所述语音端点检测设备包括:存储器和至少一个处理器,所述存储器中存储有指令;

所述至少一个处理器调用所述存储器中的所述指令,以使得所述语音端点检测设备执行如权利要求1-4中任意一项所述的语音端点检测方法。

7.一种计算机可读存储介质,其上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-4中任意一项所述的语音端点检测方法。