欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2019105787209
申请人: 北京蓦然认知科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2025-12-10
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种用户语音识别方法,其特征在于,所述方法包括:

步骤100,根据用户的声纹识别用户,得到用户ID;

步骤101,根据用户ID判断该用户是否为首次接入用户;

步骤102,如果该用户是首次接入用户,则根据该用户的声纹特征获得用户特征数据,根据用户特征数据加载对应的初始声学模型和初始语言模型;

步骤1021,对所述初始声学模型和初始语言模型进行训练,得到与该用户对应的声学模型和语言模型;所述用户将初始声学模型和/或初始语言模型分享到特定群体中进行训练,所述用户将初始声学模型和/或初始语言模型分享到特定群体中进行训练具体为:所述用户将所述初始声学模型分享到与该用户具有相同或相似发音习惯的群体中进行训练;和/或所述用户将所述初始语言模型分享到与该用户具有相同或相似的语言习惯的群体中进行训练;

所述对初始声学模型和初始语言模型进行训练,得到与该用户对应的声学模型和语言模型具体为:根据该用户的语音识别记录该用户的高频词和/或不同场景常用的前缀词,积累用户数据,持续调整所述初始语言模型以得到与该用户对应的声学模型和语言模型。

2.根据权利要求1所述的方法,其特征在于,所述根据用户特征数据加载对应的初始声学模型和初始语言模型具体为通过声纹识别所述用户的地域和/或性别和/或年龄,对应的加载初始声学模型和初始语言模型。

3.根据权利要求1所述的方法,其特征在于,所述用户向特定群体或其他用户分享与所述用户对应的语言模型或声学模型;

和/或,所述用户调用其他群体或其他用户的语言模型作为该用户的初始语言模型和/或所述用户调用其他群体或其他用户的声学模型作为该用户的初始声学模型。

4.一种用户语音识别装置,其特征在于,所述装置包括:

识别模块,根据用户的声纹识别用户,得到用户ID;

判断模块,根据用户ID判断该用户是否为首次接入用户;

模型加载模块,如果该用户是首次接入用户,则根据该用户的声纹特征获得用户特征数据,根据用户特征数据加载对应的初始声学模型和初始语言模型;如果该用户不是首次接入用户,则根据该用户ID,分别加载与该用户对应的声学模型和语言模型;所述模型训练模块,还包括模型分享模块,用于将所述用户的初始声学模型和/或初始语言模型分享到特定群体中进行训练;所述用户将所述初始声学模型分享到与该用户具有相同或相似发音习惯的群体中进行训练;和/或所述用户将所述初始语言模型分享到与该用户具有相同或相似的语言习惯的群体中进行训练;模型训练模块,用于对所述初始声学模型和初始语言模型进行训练,得到与该用户对应的声学模型和语言模型,根据该用户的语音识别记录该用户的高频词和/或不同场景常用的前缀词,积累用户数据,持续调整所述初始语言模型以得到与该用户对应的声学模型和语言模型。

5.根据权利要求4所述的装置,其特征在于,所述根据用户特征数据加载对应的初始声学模型和初始语言模型具体为通过声纹识别所述用户的地域和/或性别和/或年龄,对应的加载初始声学模型和初始语言模型。

6.根据权利要求4所述的装置,其特征在于,所述模型分享模块还用于所述用户向特定群体或其他用户分享与所述用户对应的语言模型或声学模型;

和/或,所述用户调用其他群体或其他用户的语言模型作为该用户的初始语言模型和/或所述用户调用其他群体或其他用户的声学模型作为该用户的初始声学模型。

7.一种用户语音识别装置,其特征在于,所述装置包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如权利要求1-3任一项所述的方法。

8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如权利要求1-3任一项所述的方法。

9.一种车辆,其特征在于,所述车辆包括:如权利要求4-6任一项所述的装置。

10.一种终端,其特征在于,所述终端执行如权利要求4-6任一项所述的装置。