欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021103177605
申请人: 江西师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种低资源客家方言点识别方法,其特征在于,包括如下步骤:

步骤100:采集大方言语音资料,建立关联性大方言语料库;采集低资源客家方言语音资料,建立低资源客家方言语料库;

步骤200:对所述关联性大方言语料库中的方言语音通过迁移学习模块进行处理,所述迁移学习模块包括第一音频处理模块和第一语音识别模型;先通过第一音频处理模块将大方言音频转化为大方言的Fbank特征,再将所述大方言的Fbank特征作为输入,训练第一语音识别模型并对所述大方言的Fbank特征进行处理,获取所述大方言的Fbank特征的大方言音素和大方言音素隐性特征;

步骤300:对低资源客家方言语料库中的方言语音通过数据增强模块进行处理,所述数据增强模块包括增强模块和第二音频处理模块;通过增强模块对低资源客家方言语料库中的方言语音进行增强,将增强后的方言语音通过第二音频处理模块将增强后的方言语音转化为增强后的Fbank特征,再将所述增强后的Fbank特征作为输入,在步骤200训练好的第一语音识别模型的基础上,训练第二语音识别模型并对所述增强后的Fbank特征进行处理,获取所述增强后的Fbank特征的客家方言音素和客家方言音素隐性特征;

步骤400:将步骤300中客家方言音素隐性特征作为输入建立低资源客家方言点识别计算模型,得到低资源客家方言点预测结果;

其中,步骤200中的第一语音识别模型包括编码器、解码器和CTC损失函数,所述第一语音识别模型的训练方法包括:步骤201:编码器将大方言音频的Fbank特征编码成大方言的音素隐性特征;所述编码器的编码过程包括将大方言音频的Fbank特征经过残差CNN网络模型处理得到有效帧和经过多头注意力网络模型得到有效帧之间相关的注意力信息;

步骤202:解码器将大方言的音素隐性特征解码成大方言音素;解码器的解码过程包括通过Linear全连接层和Softmax激活函数将编码器的输出解码成大方言音素;

步骤203:将大方言音频对应的文本内容制作成大方言文本标签,和所述大方言音素作为输入代入CTC损失函数中进行迭代训练,并采用交叉熵作为目标函数,通过随机梯度下降法对所述目标函数进行优化,得到性能稳定的第一语音识别模型。

2.根据权利要求1所述的一种低资源客家方言点识别方法,其特征在于,步骤300中对低资源客家方言语料库中的方言语音进行增强处理的方法包括时间延长、高音转换和添加噪声;时间延长的具体方法为放慢或加快音频采样,同时保持音频音高不变;音高转换的具体方法为提高或降低音频样本的音高,同时保持音频时长不变;添加噪声的具体方法为在音频中随机添加高斯噪声。

3.根据权利要求1所述的一种低资源客家方言点识别方法,其特征在于,步骤300中第二语音识别模型包括编码器、解码器和CTC损失函数,所述第二语音识别模型的训练方法包括:步骤301:编码器将增强后的Fbank特征编码成客家方言的音素隐性特征;所述编码器的编码过程包括将增强后的Fbank特征经过残差CNN网络模型处理得到有效帧和经过多头注意力网络模型得到有效帧之间相关的注意力信息;

步骤302:解码器将客家方言的音素隐性特征解码成客家方言音素;解码器的解码过程包括通过Linear全连接层和Softmax激活函数将编码器的输出解码成客家方言音素;

步骤303:将客家方言音频对应的文本内容制作成客家方言文本标签,和所述客家方言音素作为输入代入CTC损失函数中进行迭代训练,并采用交叉熵作为目标函数,通过随机梯度下降法对所述目标函数进行优化,得到性能稳定的第二语音识别模型。

4.根据权利要求1或3所述的一种低资源客家方言点识别方法,其特征在于,所述残差CNN网络模型包括一个卷积层conv1子模块、一个最大池化层maxpool子模块、四个子残差CNN模块和一个mean函数模块。

5.根据权利要求1或3所述的一种低资源客家方言点识别方法,其特征在于,所述多头注意力网络模型的具体表达式为:T

其中,K为键向量,Q为查询向量,V为值向量, 为一个Q和K向量的维度,K为键向量的转置向量。

6.根据权利要求1或3所述的一种低资源客家方言点识别方法,其特征在于,所述目标函数的具体公式为:其中, 是参数集,M代表训练实例的个数, 为目标函数, 为交叉熵值,Q为调和参数, 为分类标签, 为分类标签为1时的概率,trainset为训练集。

7.根据权利要求1所述的一种低资源客家方言点识别方法,其特征在于,所述低资源客家方言点识别计算模型为一个分类器模型,包括BiLSTM模块、两个Linear模块和softmax模块;所述客家方言音素隐性特征依次经过BiLSTM模块、两个Linear模块和softmax模块处理,再通过交叉熵目标函数和Adam算法进行优化,得到低资源客家方言点预测结果。