欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2025100170373
申请人: 广州思正电子股份有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2026-04-06
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于人工智能的语音识别评估方法,其特征在于,应用于语音识别系统,方法包括:获取用于待评测的语音数据,其中,待评测的语音数据为语音识别系统已识别出的语音数据;

对待评测的语音数据进行分析得到语音流利度指数、语音清晰度指数和语音准确度指数,基于语音流利度指数、语音清晰度指数和语音准确度指数计算得到待评测的语音数据的第一语音质量指数;

其中,对待评测的语音数据进行分析得到语音流利度指数具体包括以下过程:基于待评测的语音数据获取待评测的语音数据的产出总音节数和语料时长,将产出总音节数和语料时长的比值记为待评测的语音数据的语速特征参数SR;

基于待评测的语音数据获取待评测的语音数据的发音时长,其中,发音时长为待评测的语音数据中持续发音的时长,将产出总音节数和发音时长的比值记为待评测的语音数据的发音速度特征参数AR;

基于待评测的语音数据获取待评测的语音数据的无声停顿的次数,将无声停顿的次数和语料时长的比值记为待评测的语音数据的无声停顿率特征参数SPF;

将语速特征参数SR、发音速度特征参数AR和无声停顿率特征参数SPF代入语音流利度指数计算公式,计算得到语音流利度指数YYS,该计算公式如下:;

其中,为待评测的语音数据的无声停顿总时长,、为权重系数,其值分别为0.6、0.4,e的取值为2.72;

对待评测的语音数据进行分析得到语音清晰度指数具体包括以下过程:基于待评测的语音数据统计待评测的语音数据中音素发音正确数M,待评测的语音数据中音素数目为N,则语音清晰度指数;

将待评测的语音数据输入到语音内容识别模型中,输出待评测的语音数据的预测文本,将预测文本与标注文本进行对比分析得到待评测的语音数据的第二语音质量指数;

基于第一语音质量指数和第二语音质量指数得到待评测的语音数据对应的语音识别评估结果。

2.根据权利要求1所述的基于人工智能的语音识别评估方法,其特征在于,对待评测的语音数据进行分析得到语音准确度指数具体包括以下过程:基于GOP算法识别出待评测的语音数据中音素发音正确数目A,获取待评测的语音数据的音素数目B,则语音准确度指数。

3.根据权利要求1所述的基于人工智能的语音识别评估方法,其特征在于,基于语音流利度指数、语音清晰度指数和语音准确度指数计算得到待评测的语音数据的第一语音质量指数具体包括以下过程:将语音流利度指数、语音清晰度指数和语音准确度指数代入第一语音质量指数计算公式,计算得到第一语音质量指数DYZ,该计算公式如下:;

其中,、、分别为权重系数,表示语音流利度参数,表示语音清晰度参数,表示语音准确度参数。

4.根据权利要求1所述的基于人工智能的语音识别评估方法,其特征在于,将待评测的语音数据输入到语音内容识别模型中,输出待评测的语音数据的预测文本具体包括以下过程:给定待评测的语音数据样本集合X,其中,待评测的语音数据样本;

语音内容识别模型由编码网络f和上下文网络两部分组成,其中,编码器网络f由五层卷积网络组成,五层卷积网络的构成结构中,卷积核的大小分别为10,8,4,4,4,编码器输出的是一个低频特征,经编码器网络映射后的隐藏空间用Z表示,其中,:;

其中,m为卷积感受野;

上下文网络为卷积神经网络,其结构与编码网络f一致,将隐藏空间映射成上下文信息空间C,上下文网络输出为,其中,:;

其中,v为卷积感受野;

基于语音内容识别模型的损失函数对语音内容识别模型进行训练,该损失函数表示如下:;

其中,为待评测的语音数据样本集合X的序列长度,为噪声对比估计的损失,为待评测的语音数据样本的真实概率,为学习参数;

输出待评测的语音数据的预测文本。

5.根据权利要求1所述的基于人工智能的语音识别评估方法,其特征在于,将预测文本与标注文本进行对比分析得到待评测的语音数据的第二语音质量指数具体包括以下过程:遍历预测文本和标注文本的每个字符,统计不匹配的字符数量,则第二语音质量指数;

其中,为不匹配的字符数量,为标注文本的字符数量。

6.根据权利要求1所述的基于人工智能的语音识别评估方法,其特征在于,基于第一语音质量指数和第二语音质量指数得到待评测的语音数据对应的语音识别评估结果具体包括以下过程:将第一语音质量指数和第二语音质量指数相加,得到和值,判断和值是否超过预设阈值,若是,则判定待评测的语音数据对应的语音识别结果为合格,若否,判定待评测的语音数据对应的语音识别结果为不合格。