1.一种音素检测方法,所述方法包括:
获取至少一个音频频段对应的音频频谱图;
获取音频片段对应的目标文本片段的类别编码序列,其中,所述类别编码序列,用于指示所述目标文本片段中包含的音素;
采用音素检测模型,基于所述类别编码序列对所述音频频谱图进行音素检测,以从所述音频频谱图中确定至少一个音素预测框,以及从所述类别编码序列所指示的音素中,确定所述至少一个音素预测框内频谱片段对应的多个候选音素;
从所述至少一个音素预测框内频谱片段对应的多个候选音素中,确定所述至少一个音素预测框内频谱片段所属的目标音素。
2.根据权利要求1所述的方法,其中,所述采用音素检测模型,基于所述类别编码序列对所述音频频谱图进行音素检测,以从所述音频频谱图中确定至少一个音素预测框,以及从所述类别编码序列所指示的音素中,确定所述至少一个音素预测框内频谱片段对应的多个候选音素,包括:采用所述音素检测模型对所述音频频谱图进行音素检测,得到至少一个音素预测框的位置以及所述至少一个音素预测框内频谱片段对应的多个预测音素;
根据所述类别编码序列所指示的音素,对所述至少一个音素预测框内频谱片段对应的多个预测音素进行筛选,以保留与所述类别编码序列指示的各音素匹配的候选音素。
3.根据权利要求1所述的方法,其中,所述获取至少一个音频频段对应的音频频谱图,包括:获取输入文本,并将所述输入文本进行语音合成,得到音频流;
根据设定时间间隔,对所述音频流进行切分,得到至少一个音频片段;
对所述音频片段进行频谱特征提取,得到所述音频频谱图。
4.根据权利要求3所述的方法,其中,所述获取所述音频片段对应的目标文本片段的类别编码序列,包括:根据所述音频片段的个数和所述输入文本包含的字符个数,确定截取长度;
根据所述截取长度,将所述输入文本截取为至少一个文本片段;其中,所述文本片段的个数与所述音频片段的个数相同;
根据所述音频片段在所述音频流中的位置,从至少一个所述文本片段中确定与所述位置匹配的目标文本片段;
根据所述目标文本片段中的各字符的音素,生成类别编码序列。
5.根据权利要求3或4所述的方法,其中,所述音频片段为多个,所述方法还包括:根据多个所述音频片段中至少一个音素预测框的位置和所述至少一个音素预测框内频谱片段所属的目标音素,生成音素信息序列,其中,所述音素信息序列中的音素信息包括:各目标音素以及对应的发音时间段;
获取音节序列,其中,所述音节序列与所述音频流对应相同的文本;
根据所述音节序列、所述音素信息序列中的各目标音素以及对应的发音时间段,确定所述音节序列中音节对应的发音时间段;
根据所述音节序列中所述音节对应的发音时间段以及所述音节对应的动画帧序列,生成所述音频流对应的动画视频。
6.根据权利要求5所述的方法,其中,所述根据多个所述音频片段中至少一个音素预测框的位置和所述至少一个音素预测框内频谱片段所属的目标音素,生成音素信息序列,包括:针对每个所述音频片段,根据所述音频片段中至少一个音素预测框的位置和所述至少一个音素预测框内频谱片段所属的目标音素,生成音素信息子序列;
按照各所述音频片段在所述音频流中的位置,对各所述音素信息子序列进行合并处理,以得到所述音素信息序列。
7.一种音素检测模型的训练方法,所述方法包括:
获取样本音频对应的音频频谱图;
获取所述样本音频对应的类别编码序列,其中,所述类别编码序列,用于指示所述样本音频对应的文本中所包含的音素;
采用音素检测模型,基于所述类别编码序列对所述音频频谱图进行音素检测,以从所述音频频谱图中确定至少一个音素预测框的位置以及所述至少一个音素预测框内频谱片段所属的目标音素;
根据所述至少一个音素预测框的位置与所述样本音频上标注的至少一个音素检测框的位置之间的第一差异,和/或,根据所述至少一个音素预测框内频谱片段所属的目标音素和所述样本音频上标注的所述至少一个音素检测框内的标注音素之间的第二差异,对所述音素检测模型进行训练。
8.根据权利要求7所述的方法,其中,所述采用音素检测模型,基于所述类别编码序列对所述音频频谱图进行音素检测,以从所述音频频谱图中确定至少一个音素预测框的位置以及所述至少一个音素预测框内频谱片段所属的目标音素,包括:采用所述音素检测模型中的第一预测层,基于所述类别编码序列对所述音频频谱图进行音素检测,以从所述音频频谱图中确定至少一个音素预测框的位置,以及从所述类别编码序列所指示的音素中,确定所述至少一个音素预测框内频谱片段对应的多个候选音素;
采用所述音素检测模型中的第二预测层,对所述至少一个音素预测框内频谱片段对应的多个所述候选音素进行置信度预测,得到所述至少一个音素预测框对应的多个所述候选音素的置信度;
根据所述至少一个音素预测框对应的多个所述候选音素的置信度,从各所述候选音素中筛选出所述至少一个音素预测框内频谱片段所属的目标音素。
9.根据权利要求8所述的方法,其中,所述采用所述音素检测模型中的第一预测层,基于所述类别编码序列对所述音频频谱图进行音素检测,以从所述音频频谱图中确定至少一个音素预测框的位置,以及从所述类别编码序列所指示的音素中,确定所述至少一个音素预测框内频谱片段对应的多个候选音素,包括:采用所述第一预测层对所述音频频谱图进行音素检测,得到所述至少一个音素预测框的位置以及所述至少一个音素预测框内频谱片段对应的多个预测音素;
根据所述类别编码序列所指示的音素,对所述至少一个音素预测框内频谱片段对应的多个预测音素进行筛选,以保留与所述类别编码序列指示的各音素匹配的候选音素。
10.一种音素检测装置,所述装置包括:
第一获取模块,用于获取至少一个音频频段对应的音频频谱图;
第二获取模块,用于获取音频片段对应的目标文本片段的类别编码序列,其中,所述类别编码序列,用于指示所述目标文本片段中包含的音素;
检测模块,用于采用音素检测模型,基于所述类别编码序列对所述音频频谱图进行音素检测,以从所述音频频谱图中确定至少一个音素预测框,以及从所述类别编码序列所指示的音素中,确定所述至少一个音素预测框内频谱片段对应的多个候选音素;
确定模块,用于从所述至少一个音素预测框内频谱片段对应的多个候选音素中,确定所述至少一个音素预测框内频谱片段所属的目标音素。
11.根据权利要求10所述的装置,其中,所述检测模块,具体用于:采用所述音素检测模型对所述音频频谱图进行音素检测,得到至少一个音素预测框的位置以及所述至少一个音素预测框内频谱片段对应的多个预测音素;
根据所述类别编码序列所指示的音素,对所述至少一个音素预测框内频谱片段对应的多个预测音素进行筛选,以保留与所述类别编码序列指示的各音素匹配的候选音素。
12.根据权利要求10所述的装置,其中,所述第一获取模块,具体用于:获取输入文本,并将所述输入文本进行语音合成,得到音频流;
根据设定时间间隔,对所述音频流进行切分,得到至少一个音频片段;
对所述音频片段进行频谱特征提取,得到所述音频频谱图。
13.根据权利要求12所述的装置,其中,所述第二获取模块,具体用于:根据所述音频片段的个数和所述输入文本包含的字符个数,确定截取长度;
根据所述截取长度,将所述输入文本截取为至少一个文本片段;其中,所述文本片段的个数与所述音频片段的个数相同;
根据所述音频片段在所述音频流中的位置,从至少一个所述文本片段中确定与所述位置匹配的目标文本片段;
根据所述目标文本片段中的各字符的音素,生成类别编码序列。
14.根据权利要求12或13所述的装置,其中,所述音频片段为多个,所述装置还包括:生成模块,用于根据多个所述音频片段中至少一个音素预测框的位置和所述至少一个音素预测框内频谱片段所属的目标音素,生成音素信息序列,其中,所述音素信息序列中的音素信息包括:各目标音素以及对应的发音时间段;
第三获取模块,用于获取音节序列,其中,所述音节序列与所述音频流对应相同的文本;
所述确定模块,还用于根据所述音节序列、所述音素信息序列中的各目标音素以及对应的发音时间段,确定所述音节序列中音节对应的发音时间段;
所述生成模块,还用于根据所述音节序列中所述音节对应的发音时间段以及所述音节对应的动画帧序列,生成所述音频流对应的动画视频。
15.根据权利要求14所述的装置,其中,所述生成模块,具体用于:针对每个所述音频片段,根据所述音频片段中至少一个音素预测框的位置和所述至少一个音素预测框内频谱片段所属的目标音素,生成音素信息子序列;
按照各所述音频片段在所述音频流中的位置,对各所述音素信息子序列进行合并处理,以得到所述音素信息序列。
16.一种音素检测模型的训练装置,所述装置包括:
第一获取模块,用于获取样本音频对应的音频频谱图;
第二获取模块,用于获取所述样本音频对应的类别编码序列,其中,所述类别编码序列,用于指示所述样本音频对应的文本中所包含的音素;
检测模块,用于采用音素检测模型,基于所述类别编码序列对所述音频频谱图进行音素检测,以从所述音频频谱图中确定至少一个音素预测框的位置以及所述至少一个音素预测框内频谱片段所属的目标音素;
训练模块,用于根据所述至少一个音素预测框的位置与所述样本音频上标注的至少一个音素检测框的位置之间的第一差异,和/或,根据所述至少一个音素预测框内频谱片段所属的目标音素和所述样本音频上标注的所述至少一个音素检测框内的标注音素之间的第二差异,对所述音素检测模型进行训练。
17.根据权利要求16所述的装置,其中,所述检测模块,具体用于:采用所述音素检测模型中的第一预测层,基于所述类别编码序列对所述音频频谱图进行音素检测,以从所述音频频谱图中确定至少一个音素预测框的位置,以及从所述类别编码序列所指示的音素中,确定所述至少一个音素预测框内频谱片段对应的多个候选音素;
采用所述音素检测模型中的第二预测层,对所述至少一个音素预测框内频谱片段对应的多个所述候选音素进行置信度预测,得到所述至少一个音素预测框对应的多个所述候选音素的置信度;
根据所述至少一个音素预测框对应的多个所述候选音素的置信度,从各所述候选音素中筛选出所述至少一个音素预测框内频谱片段所属的目标音素。
18.根据权利要求17所述的装置,其中,所述检测模块,具体用于:采用所述第一预测层对所述音频频谱图进行音素检测,得到所述至少一个音素预测框的位置以及所述至少一个音素预测框内频谱片段对应的多个预测音素;
根据所述类别编码序列所指示的音素,对所述至少一个音素预测框内频谱片段对应的多个预测音素进行筛选,以保留与所述类别编码序列指示的各音素匹配的候选音素。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑6中任一项所述的音素检测方法,或者,执行权利要求7‑9中任一项所述的训练方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1‑6中任一项所述的音素检测方法,或者,执行权利要求7‑9中任一项所述的训练方法。