欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2022107690197
申请人: 广东机电职业技术学院
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2026-01-27
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于文本的虚拟对象唇形同步方法,其特征在于,包括:获取目标文本;

将所述目标文本转换得到目标语音,并将所述目标文本转换得到正字法转录;

将所述目标语音与所述正字法转录进行标注对齐,得到所述目标语音对应的音素序列,包括:对所述目标语音进行有声段分割,确定所述目标语音中的有声段部分,包括:在音频信号中,按照固定的持续时间划分窗口,估计每个窗口的均方根;

根据所述均方根的值的统计分布确定目标阈值;

确定所述目标阈值所使用的公式包括:

Θ=min+μ-δ;

其中,Θ为所述目标阈值,min为所述均方根的值的最小值,μ为平均值,δ为1.5σ,σ表示变异系数,是概率分布离散程度的一个归一化量度,定义为标准差与平均值之比;

将正字法转录填入所述有声段部分;

对有声段部分的文本进行规范化处理以及文本音素化处理,包括:将正字法转录中的数字、特殊符号、其他语言进行单独分词处理,并通过替换词典规范为标准输入;

通过用户给定的语言词典和正向最大匹配算法将剩余部分进行分词处理;

通过词典将得到的各个分词进行音素化处理;

通过词典将分词音素化,对未知词语,采用推理算法;

根据所述音素序列进行音视位映射,得到所述音素序列映射对应的视位序列,并确定所述视位序列的视位参数;

根据所述视位参数控制目标虚拟对象的渲染,并同步播放语音。

2.根据权利要求1所述的一种基于文本的虚拟对象唇形同步方法,其特征在于,所述将所述目标语音与所述正字法转录进行标注对齐,得到所述目标语音对应的音素序列,包括:生成语法约束,将音素和音频进行强制对齐,得到语音对应的音素序列以及音素序列的持续时间。

3.根据权利要求1所述的一种基于文本的虚拟对象唇形同步方法,其特征在于,所述对所述目标语音进行有声段分割,确定所述目标语音中的有声段部分,包括:根据所述目标阈值评估每个窗口,将均方根值低于所述目标阈值的窗口标注为静音,将均方根值高于所述目标阈值的窗口标注为发声;

将相邻的静音窗口组合为静音段,相邻的发声窗口组合为发声段;

当一个静音段的持续时间小于第一阈值,将该静音段与相邻发声段组合,得到一个新的发声段;

当一个发声段的持续时间小于第一阈值,将该发声段与相邻静音段组合,得到一个新的静音段。

4.根据权利要求1所述的一种基于文本的虚拟对象唇形同步方法,其特征在于,所述将正字法转录填入所述有声段部分,包括:将“#”符号或者换行符作为正字法转录的最低限度的静音停顿符号;

根据所述静音停顿符号分割的正字法转录,将所述正字法转录填入已产生的有声部分中;

当正字法转录中的有声部分数量和从语音分割出的有声部分数量不匹配时,调整音量阈值、静音或有声部分的最短持续时间,以获得匹配的有声部分数量。

5.根据权利要求1所述的一种基于文本的虚拟对象唇形同步方法,其特征在于,所述根据所述音素序列进行音视位映射,得到所述音素序列映射对应的视位序列,并确定所述视位序列的视位参数,包括:记录虚拟对象对应每个音素时的口型参数,得到与音素表对应的视位表;

根据所述视位表,通过音素序列映射对应的视位序列,在时间轴上平滑混合视位对应的参数。

6.根据权利要求1-5任一项所述的一种基于文本的虚拟对象唇形同步方法,其特征在于,所述正字法转录是指对应语言、对应语音、仅包含正规使用文本和系统定义符号的文本;

所述正字法转录的最低要求是带有正确数量、正确位置的表示静音段的符号;

所述正字法转录是以文本的逗号、句号、问号、分号、感叹号或括号作为断句标准,使用基于规则的算法处理文本后得到的。

7.一种基于文本的虚拟对象唇形同步系统,用于实现如权利要求1至6中任一项所述的基于文本的虚拟对象唇形同步方法,其特征在于,包括:第一模块,用于获取目标文本;

第二模块,用于将所述目标文本转换得到目标语音,并将所述目标文本转换得到正字法转录;

第三模块,用于将所述目标语音与所述正字法转录进行标注对齐,得到所述目标语音对应的音素序列,包括:对所述目标语音进行有声段分割,确定所述目标语音中的有声段部分,包括:在音频信号中,按照固定的持续时间划分窗口,估计每个窗口的均方根;

根据所述均方根的值的统计分布确定目标阈值;

确定所述目标阈值所使用的公式包括:

Θ=min+μ-δ;

其中,Θ为所述目标阈值,min为所述均方根的值的最小值,μ为平均值,δ为1.5σ,σ表示变异系数,是概率分布离散程度的一个归一化量度,定义为标准差与平均值之比;

第四模块,用于根据所述音素序列进行音视位映射,得到所述音素序列映射对应的视位序列,并确定所述视位序列的视位参数;

第五模块,用于根据所述视位参数控制目标虚拟对象的渲染,并同步播放语音。

8.一种电子设备,其特征在于,包括处理器以及存储器;

所述存储器用于存储程序;

所述处理器执行所述程序实现如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至6中任一项所述的方法。