欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2017103126895
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于人工智能的声学模型训练方法,其特征在于,包括:获取人工标注的语音数据;

根据所述人工标注的语音数据训练得到第一声学模型;

获取未标注的语音数据;

根据所述未标注的语音数据以及所述第一声学模型训练得到所需的第二声学模型。

2.根据权利要求1所述的方法,其特征在于,所述第一声学模型和所述第二声学模型的类型包括:采用卷积神经网络和循环神经网络混合结构的声学模型。

3.根据权利要求1所述的方法,其特征在于,所述根据所述人工标注的语音数据训练得到第一声学模型包括:根据所述人工标注的语音数据,确定出每个语音帧与人工标注的音节状态的对齐关系;

将所述对齐关系作为训练目标,基于第一准则对所述第一声学模型进行训练,得到初始状态的第一声学模型;

将所述对齐关系作为训练目标,基于第二准则对所述初始状态的第一声学模型进行进一步训练,得到所述第一声学模型。

4.根据权利要求3所述的方法,其特征在于,所述根据所述未标注的语音数据以及所述第一声学模型训练得到所需的第二声学模型包括:将所述未标注的语音数据输入给所述第一声学模型,得到所述第一声学模型输出的每个语音帧与对应的音节状态的对齐关系;

将所述对齐关系作为训练目标,基于第一准则对所述第二声学模型进行训练,得到初始状态的第二声学模型;

将所述对齐关系作为训练目标,基于第二准则对所述初始状态的第二声学模型进行进一步训练,得到所述第二声学模型。

5.根据权利要求4所述的方法,其特征在于,所述第一准则包括:交叉熵CE准则;

所述第二准则包括:联结时间分类CTC准则。

6.根据权利要求1所述的方法,其特征在于,所述根据所述人工标注的语音数据训练得到第一声学模型之前,进一步包括:从所述人工标注的语音数据中提取出声学特征;

所述根据所述人工标注的语音数据训练得到第一声学模型包括:根据从所述人工标注的语音数据中提取出的声学特征训练得到所述第一声学模型;

所述根据所述未标注的语音数据以及所述第一声学模型训练得到所需的第二声学模型之前,进一步包括:从所述未标注的语音数据中提取出声学特征;

所述根据所述未标注的语音数据以及所述第一声学模型训练得到所需的第二声学模型包括:根据从所述未标注的语音数据中提取出的声学特征以及所述第一声学模型训练得到所述第二声学模型。

7.根据权利要求6所述的方法,其特征在于,从语音数据中提取出声学特征包括:

以预先设定的第一时长为帧长,以预先设定的第二时长为帧移,对所述语音数据进行快速傅里叶变换FFT;

根据FFT变换结果,提取梅尔标度滤波器组fbank声学特征。

8.一种基于人工智能的声学模型训练装置,其特征在于,包括:第一获取单元、第一训练单元、第二获取单元以及第二训练单元;

所述第一获取单元,用于获取人工标注的语音数据,并发送给所述第一训练单元;

所述第一训练单元,用于根据所述人工标注的语音数据训练得到第一声学模型,并将所述第一声学模型发送给所述第二训练单元;

所述第二获取单元,用于获取未标注的语音数据,并发送给所述第二训练单元;

所述第二训练单元,用于根据所述未标注的语音数据以及所述第一声学模型训练得到所需的第二声学模型。

9.根据权利要求8所述的装置,其特征在于,所述第一声学模型和所述第二声学模型的类型包括:采用卷积神经网络和循环神经网络混合结构的声学模型。

10.根据权利要求8所述的装置,其特征在于,所述第一训练单元根据所述人工标注的语音数据,确定出每个语音帧与人工标注的音节状态的对齐关系;

将所述对齐关系作为训练目标,基于第一准则对所述第一声学模型进行训练,得到初始状态的第一声学模型;

将所述对齐关系作为训练目标,基于第二准则对所述初始状态的第一声学模型进行进一步训练,得到所述第一声学模型。

11.根据权利要求10所述的装置,其特征在于,所述第二训练单元将所述未标注的语音数据输入给所述第一声学模型,得到所述第一声学模型输出的每个语音帧与对应的音节状态的对齐关系;

将所述对齐关系作为训练目标,基于第一准则对所述第二声学模型进行训练,得到初始状态的第二声学模型;

将所述对齐关系作为训练目标,基于第二准则对所述初始状态的第二声学模型进行进一步训练,得到所述第二声学模型。

12.根据权利要求11所述的装置,其特征在于,所述第一准则包括:交叉熵CE准则;

所述第二准则包括:联结时间分类CTC准则。

13.根据权利要求8所述的装置,其特征在于,所述第一训练单元进一步用于,

从所述人工标注的语音数据中提取出声学特征;

根据从所述人工标注的语音数据中提取出的声学特征训练得到所述第一声学模型;

所述第二训练单元进一步用于,

从所述未标注的语音数据中提取出声学特征;

根据从所述未标注的语音数据中提取出的声学特征以及所述第一声学模型训练得到所述第二声学模型。

14.根据权利要求13所述的装置,其特征在于,所述第一训练单元以预先设定的第一时长为帧长,以预先设定的第二时长为帧移,对所述人工标注的语音数据进行快速傅里叶变换FFT,根据FFT变换结果,提取梅尔标度滤波器组fbank声学特征;

所述第二训练单元以所述第一时长为帧长,以所述第二时长为帧移,对所述未标注的语音数据进行FFT变换,根据FFT变换结果,提取fbank声学特征。

15.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的方法。

16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的方法。