欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2017103519339
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于人工智能的跨语种语音转录方法,其特征在于,所述方法包括:将待转录的语音数据进行预处理,获取多个声学特征;所述待转录的语音数据采用第一语种表示;

根据多个所述声学特征以及预先训练的跨语种转录模型,预测所述语音数据对应的转录后的翻译文本;其中,所述翻译文本采用第二语种表示,所述第二语种不同于所述第一语种。

2.根据权利要求1所述的方法,其特征在于,将待转录的语音数据进行预处理,获取多个声学特征,具体包括:对所述待转录的语音数据采用预设的采样率进行采样,得到多个语音数据采样点;

对所述多个语音数据采样点按照预设的量化位数进行量化处理,得到脉冲编码调制文件;

从所述脉冲编码调制文件中提取多个所述声学特征。

3.根据权利要求2所述的方法,其特征在于,从所述脉冲编码调制文件中提取多个所述声学特征,具体包括:从所述脉冲编码调制文件的开头选取预设帧长的数据帧;并按照从前至后依次调整预设帧移后选取所述预设帧长的数据帧,共得到多个所述数据帧;

分别从多个所述数据帧中提取每个所述数据帧的声学特征,得到多个所述声学特征。

4.根据权利要求1-3任一所述的方法,其特征在于,根据多个所述声学特征以及预先训练的跨语种转录模型,预测所述语音数据对应的转录后的翻译文本之前,所述方法还包括:采集数条所述第一语种表示的训练语音数据以及各条所述训练语音数据转录为所述第二语种表示的真实翻译文本;

采用各条所述训练语音数据和对应的所述真实翻译文本,训练所述跨语种转录模型。

5.根据权利要求4所述的方法,其特征在于,采用各条所述训练语音数据和对应的所述真实翻译文本,训练所述跨语种转录模型,具体包括:将当前的所述训练语音数据代入所述跨语种转录模型,使得所述跨语种转录模型预测所述训练语音数据对应的预测翻译文本;

判断所述训练语音数据的所述预测翻译文本与所述真实翻译文本是否一致;

若不一致时,修改所述跨语种转录模型的模型参数,使得所述跨语种转录模型预测的所述训练语音数据的所述预测翻译文本与对应的所述真实翻译文本趋于一致;并继续选择下一条所述训练语音数据进行训练;

利用各条所述训练语音数据,按照执行上述步骤,重复对所述跨语种转录模型进行训练,直至所述跨语种转录模型预测的所述训练语音数据的所述预测翻译文本与对应的所述真实翻译文本一致,确定所述跨语种转录模型的模型参数,从而确定所述跨语种转录模型。

6.一种基于人工智能的跨语种语音转录装置,其特征在于,所述装置包括:获取模块,用于将待转录的语音数据进行预处理,获取多个声学特征;所述待转录的语音数据采用第一语种表示;

预测模块,用于根据多个所述声学特征以及预先训练的跨语种转录模型,预测所述语音数据对应的转录后的翻译文本;其中,所述翻译文本采用第二语种表示,所述第二语种不同于所述第一语种。

7.根据权利要求6所述的装置,其特征在于,所述获取模块,具体用于:对所述待转录的语音数据采用预设的采样率进行采样,得到多个语音数据采样点;

对所述多个语音数据采样点按照预设的量化位数进行量化处理,得到脉冲编码调制文件;

从所述脉冲编码调制文件中提取多个所述声学特征。

8.根据权利要求7所述的装置,其特征在于,所述获取模块,具体用于:从所述脉冲编码调制文件的开头选取预设帧长的数据帧;并按照从前至后依次调整预设帧移后选取所述预设帧长的数据帧,共得到多个所述数据帧;

分别从多个所述数据帧中提取每个所述数据帧的声学特征,得到多个所述声学特征。

9.根据权利要求6-8任一所述的装置,其特征在于,所述装置还包括:采集模块,用于采集数条所述第一语种表示的训练语音数据以及各条所述训练语音数据转录为所述第二语种表示的真实翻译文本;

训练模块,用于采用各条所述训练语音数据和对应的所述真实翻译文本,训练所述跨语种转录模型。

10.根据权利要求9所述的装置,其特征在于,所述训练模块,具体用于:将当前的所述训练语音数据代入所述跨语种转录模型,使得所述跨语种转录模型预测所述训练语音数据对应的预测翻译文本;

判断所述训练语音数据的所述预测翻译文本与所述真实翻译文本是否一致;

若不一致时,修改所述跨语种转录模型的模型参数,使得所述跨语种转录模型预测的所述训练语音数据的所述预测翻译文本与对应的所述真实翻译文本趋于一致;并继续选择下一条所述训练语音数据进行训练;

利用各条所述训练语音数据,按照执行上述步骤,重复对所述跨语种转录模型进行训练,直至所述跨语种转录模型预测的所述训练语音数据的所述预测翻译文本与对应的所述真实翻译文本一致,确定所述跨语种转录模型的模型参数,从而确定所述跨语种转录模型。

11.一种计算机设备,其特征在于,所述设备包括:

一个或多个处理器;

存储器,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。