1.一种基于中英文混合词典的语音识别方法,其特征在于,包括:获取国际音标IPA标注的中英文混合词典,所述中英文混合词典包括:中文词典和经过中式英语修正的英文词典;
将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;
结合训练后的CTC声学模型对中英文混合语言进行语音识别。
2.根据权利要求1所述的方法,其特征在于,所述获取国际音标IPA标注的中英文混合词典,包括:获取国际音标IPA标注的中文词典以及IPA标注的英文词典;
获取音频训练数据,所述音频训练数据中包括:多个中式英语句子;
获取所述中式英语句子中的英文单词以及英文单词对应的中式发音;
将所述英文单词以及英文单词对应的中式发音添加到所述英文词典中,得到经过中式英语修正的英文词典。
3.根据权利要求1所述的方法,其特征在于,所述获取国际音标IPA标注的中英文混合词典,包括:获取国际音标IPA标注的中文词典以及IPA标注的英文词典;
获取音频训练数据,所述音频训练数据中包括:多个中式英语句子;
结合IPA标注的英文词典对所述中式英语句子进行音素解码以及对齐文件切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音;
结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典。
4.根据权利要求3所述的方法,其特征在于,所述结合IPA标注的英文词典对所述中式英语句子进行音素解码以及对齐文件切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音,包括:结合IPA标注的英文词典对所述中式英语句子进行音素解码,找到解码中的最优路径,获取所述中式英语句子中音素对应的帧位置;
获取所述中式英语句子对应的对齐文件,所述对齐文件中包括:中式英语句子中每个音素的位置,以及英文单词所对应的音素;
结合所述对齐文件以及所述中式英语句子中音素对应的帧位置,确定所述中式英语句子中每个英文单词的位置,进行切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音。
5.根据权利要求3或4所述的方法,其特征在于,结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典之前,还包括:针对所述中式英语句子中的每个英文单词,获取所述英文单词中每个音素的词频;
获取对应的词频大于预设词频的高频音素以及包括所述高频音素的高频英文单词;
结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典,包括:结合所述中式英语句子中的高频英文单词、高频英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典。
6.根据权利要求3所述的方法,其特征在于,所述结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典之后,还包括:结合经过中式英语修正的英文词典对所述中式英语句子进行音素解码以及对齐文件切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音;
结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及经过中式英语修正的英文词典,更新所述经过中式英语修正的英文词典。
7.根据权利要求1所述的方法,其特征在于,所述将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型,包括:采用滤波器组FBANK提取中式英语句子中的特征点,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以中式英语句子对应的对齐文件为目标,以交叉熵CE为训练准则,对所述模型进行训练,得到初始模型;
将所述中英文混合词典作为训练词典,以所述初始模型为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对所述初始模型进行训练,得到训练后的CTC声学模型。
8.一种基于中英文混合词典的语音识别装置,其特征在于,包括:获取模块,用于获取国际音标IPA标注的中英文混合词典,所述中英文混合词典包括:中文词典和经过中式英语修正的英文词典;
训练模块,用于将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;
语音识别模块,用于结合训练后的CTC声学模型对中英文混合语言进行语音识别。
9.根据权利要求8所述的装置,其特征在于,所述获取模块包括:第一获取单元,用于获取国际音标IPA标注的中文词典以及IPA标注的英文词典;
第二获取单元,用于获取音频训练数据,所述音频训练数据中包括:多个中式英语句子;
第三获取单元,用于获取所述中式英语句子中的英文单词以及英文单词对应的中式发音;
添加单元,用于将所述英文单词以及英文单词对应的中式发音添加到所述英文词典中,得到经过中式英语修正的英文词典。
10.根据权利要求8所述的装置,其特征在于,所述获取模块包括:第四获取单元,用于获取国际音标IPA标注的中文词典以及IPA标注的英文词典;
第五获取单元,用于获取音频训练数据,所述音频训练数据中包括:多个中式英语句子;
解码以及切分单元,用于结合IPA标注的英文词典对所述中式英语句子进行音素解码以及对齐文件切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音;
生成单元,用于结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典。
11.根据权利要求10所述的装置,其特征在于,所述解码以及切分单元包括:解码子单元,用于结合IPA标注的英文词典对所述中式英语句子进行音素解码,找到解码中的最优路径,获取所述中式英语句子中音素对应的帧位置;
第一获取子单元,用于获取所述中式英语句子对应的对齐文件,所述对齐文件中包括:中式英语句子中每个音素的位置,以及英文单词所对应的音素;
切分子单元,用于结合所述对齐文件以及所述中式英语句子中音素对应的帧位置,确定所述中式英语句子中每个英文单词的位置,进行切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音。
12.根据权利要求10或11所述的装置,其特征在于,所述解码以及切分单元,还包括:第二获取子单元,用于针对所述中式英语句子中的每个英文单词,获取所述英文单词中每个音素的词频;
第三获取子单元,用于获取对应的词频大于预设词频的高频音素以及包括所述高频音素的高频英文单词;
对应的,生成单元具体用于,结合所述中式英语句子中的高频英文单词、高频英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典。
13.根据权利要求10所述的装置,其特征在于,所述获取模块还包括:重新解码以及切分单元,用于结合经过中式英语修正的英文词典对所述中式英语句子进行音素解码以及对齐文件切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音;
更新单元,用于结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及经过中式英语修正的英文词典,更新所述经过中式英语修正的英文词典。
14.根据权利要求8所述的装置,其特征在于,所述训练模块包括:第一训练单元,用于采用滤波器组FBANK提取中式英语句子中的特征点,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以中式英语句子对应的对齐文件为目标,以交叉熵CE为训练准则,对所述模型进行训练,得到初始模型;
第二训练单元,用于将所述中英文混合词典作为训练词典,以所述初始模型为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对所述初始模型进行训练,得到训练后的CTC声学模型。
15.一种基于中英文混合词典的语音识别装置,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的基于中英文混合词典的语音识别方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的基于中英文混合词典的语音识别方法。