欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2023108614316
申请人: 合肥朗永智能科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2025-04-19
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于人工智能的语音识别方法,其特征在于,所述基于人工智能的语音识别方法包括以下步骤:采集用户录入的语音音频信息,将所述语音音频信息转换为音频频谱图;

获取所述音频频谱图中的多个音频帧,提取每个所述音频帧中的特征信息,关联多个所述音频帧的特征信息,得到待识别数据;

将所述待识别数据输入语音识别模型中,确定所述语音音频信息对应的语音内容;

对所述语音内容进行内容校验,以得到语音识别结果,并输出所述语音识别结果;

所述关联多个所述音频帧的特征信息,得到待识别数据,包括:获取多个所述音频帧的特征信息,并将多个特征信息生成特征数据集,确定卷积神经网络模型的卷积网络层数和全连接网络层数;

分别计算卷积神经网络模型中任一卷积网络层和任一全连接网络层的输出数据,采用拼接函数对卷积网络层的输出数据和全连接网络层的输出数据进行拼接,得到深层表征;

对所述深层表征进行融合,得到融合数据,根据所述融合数据和激活函数,计算卷积神经网络模型的输出结果,其中采用Softmax函数为最后一层神经网络的激活函数;

采用交叉熵函数作为损失函数,基于所述卷积神经网络模型的输出结果通过过随机梯度下降最小化损失函数更新模型参数,得到特征融合模型;

将所述特征数据集输入所述特征融合模型中,根据所述特征融合模型的输出结果进行特征关联,得到待识别数据。

2.如权利要求1所述的一种基于人工智能的语音识别方法,其特征在于,所述采集用户录入的语音音频信息,将所述语音音频信息转换为音频频谱图,包括:接收用户的语音录制请求,响应于所述语音录制请求,对用户的录音过程进行采集,得到语音音频信息;

对所述语音音频信息进行加窗与周期延拓,得到有效录音数据;

将所述有效录音数据归入到待处理队列中,将所述到待处理队列中的所述有效录音数据拆分为多组待处理数据;

将多组待处理数据依次进行快速傅立叶变换处理,以将所述语音音频信息转换为音频频谱图。

3.如权利要求2所述的一种基于人工智能的语音识别方法,其特征在于,所述对所述语音音频信息进行加窗与周期延拓,得到有效录音数据,包括:对所述语音音频信息进行模数转换,得到时间和幅度对应的第一离散数据信息;

对所述第一离散数据信息进行预加重,以所述第一离散数据信息中高频部分进行提升,得到第二离散数据信息;

采用重叠分段方式对所述第二离散数据信息进行分帧处理,得到语音波形数据;

对所述语音波形数据的起始点和结束点进行端点检测,经检测后得到有效录音数据。

4.如权利要求1所述的一种基于人工智能的语音识别方法,其特征在于,所述获取所述音频频谱图中的多个音频帧,提取每个所述音频帧中的特征信息,包括:获取所述音频频谱图中的音频帧,对所述音频帧进行滤波,计算滤波后所述音频帧对应的对数能量;

对所述对数能量进行离散余弦变换,得到所述音频帧对应的梅尔频率倒谱系数;

计算所述音频帧的零交叉点比例数均值,并将所述梅尔频率倒谱系数和零交叉点比例数均值进行融合,得到特征参数;

通过FCBF算法根据所述特征参数为所述音频帧进行特征选择,以提取所述音频帧中的特征信息。

5.如权利要求1所述的一种基于人工智能的语音识别方法,其特征在于,所述语音识别模型包括声学子模型、语义子模型和语法子模型,采用所述声学子模型作为所述语音识别模型的前端,所述语义子模型和语法子模型作为所述语音识别模型的后端。

6.如权利要求5所述的一种基于人工智能的语音识别方法,其特征在于,所述将所述待识别数据输入语音识别模型中,确定所述语音音频信息对应的语音内容,包括:获取所述待识别数据中的多个音素,根据多个音素生成音素序列,将所述音素序列输入所述语音识别模型中,采用所述声学子模型对所述音素序列进行转化,得到发音基元序列;

将所述声学子模型输出的所述发音基元序列输入所述语义子模型中进行搜索,得到所述发音基元序列对应的转录文本序列;

将所述语义子模型输出的所述转录文本序列输入所述语法子模型中,对所述转录文本序列进行增补,得到识别文本;

对所述识别文本进行整理,生成所述语音音频信息对应的语音内容。

7.如权利要求6所述的一种基于人工智能的语音识别方法,其特征在于,所述将所述声学子模型输出的所述发音基元序列输入所述语义子模型中进行搜索,得到所述发音基元序列对应的转录文本序列,包括:设置所述音素序列长度中最大词长度阈值、词频阈值、最小互信息阈值;

计算每个单独字的出现概率,根据所述单独字的出现概率计算互相关信息值;

当所述互相关信息值大于所述最小互信息阈值时,基于所述最大词长度阈值输出语义词;

根据所述语义词确定对应的词频,当所述词频大于词频阈值时,将所述语义词确定为重点词,以得到所述发音基元序列对应的转录文本序列。

8.如权利要求7所述的一种基于人工智能的语音识别方法,其特征在于,所述将所述语义子模型输出的所述转录文本序列输入所述语法子模型中,对所述转录文本序列进行增补,得到识别文本,包括:接收所述转录文本序列,提取所述转录文本序列中的待识别项;

基于所述待识别项从预设的语料库中查询语言语句进行语法识别,得到识别结果;

从所述识别结果中确定缺失部分,对所述缺失部分进行增补,得到增补词;

基于所述增补词,对所述转录文本序列进行语序调整,以得到识别文本。

9.如权利要求1所述的一种基于人工智能的语音识别方法,其特征在于,所述对所述语音内容进行内容校验,以得到语音识别结果,并输出所述语音识别结果,包括:获取所述语音识别模型输出的语音内容,建立文字信息与语音内容的映射关系,对所述语音内容进行降维处理;

对降维后的所述语音内容进行进行上下文语义关联分析,检验所述语音内容是否准确;

若是,则得到语音识别结果,并输出所述语音识别结果;

若否,则返回进行上下文语义关联分析,直至所述语音内容准确。