欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2019104204161
申请人: 深圳市数字星河科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2026-04-02
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于语音训练克隆口音及声韵方法,其特征包括的步骤和要素有:以语音分割为基础,以训练文本代表不同语调为分类,经训练后获得用户同一音标几个不同语调下的单元(含口音偏向的特征),文本转语音时候,也根据文本的语调和训练经验获得对应的音素单元,经过缓差矫正阶差进行合成克隆语音,包括如下模块、步骤及要素:步骤一、语音信息处理模块,收集来自于麦克风或智能设备中语音传感器的功能等等语音硬件的信号,将用户的说话的声音,形成信号输入系统,并将采集后的语音转换成语音数字信号推送或等待系统进行运算处理;

步骤二、构建低通滤波算法;降低语音中的噪声,屏蔽语音信息里和用户语音内容不相关的内容进行过滤,容许低于截止频率的信号通过,截止高于截止频率的信号;

优选地,以MATLAB作为滤波的分析运算、编写程序的工具,滤波运算后的语音数据方便系统程序无缝对接;

步骤三、训练文本必须涵盖有多样性的典型;

步骤四、创建用户音库,用户对训练文本朗读的音频数据通过低通滤波等的解析运算,提取所述音频数据的特征信息包括用户音素、特殊语音片段单元、时长、等信息保存到系统中用户信息的相关数据库的用户音库表格及特定服务器特定路径的文件夹中;

步骤五、创建用户声韵特征库,对所述用户对训练文本朗读的音频数据通过低通滤波等的解析运算,提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值等信息保存到系统中用户信息的相关数据库的声韵特征库表格,作为用户的声韵特征标准,等待系统在克隆语音时候调用,用于修正克隆语音的声韵;

优选地,将语音分成帧长为12ms的时间段获取其绝对值的平均值,使计算的结果更加稳定;

步骤六、根据用户私有音库实现语音克隆,在用户输入文本需要模拟克隆语音时候,首先以标点符号等文本特征识别文本语调类别,识别无结果是默认陈述语调,进一步,将文本按照步骤三所述的方法分拆成音素、音节、单词,并根据分拆的音标等特征文本在用户私有音库中检索其对应的音素或语音片段单元,所述检索到多个记录时,根据语调类别进一步筛选,无语调识别结果时,将语调类为陈述的类别设为检索优选的结果,这样将文本对应一组音素、语音片段单元组y = (  ,  ,  ,….. ),并将音所述音素、语音片段单元的标准时长分别调出,获得s = (  ,  ,  ,….. ),待系统进一步的运算整理;

步骤七、声韵矫正,每个人的语音会因换气习惯、肺活量等因素的影响,朗读不同长度的文本会有不同的声韵特征,根据目标克隆语音的预判时长对合成语音进行声韵矫正运算,使得克隆所得语音更加个性化;

步骤八、缓差对齐矫正合成语音,使用原声音库根据文本英标进行语音合成最大的技术困难在于被合成的语音单元之间音量及语调衔接往往是断崖式的落差,合成出的声音会变得非常刺耳机械,音素、语音片段单元合成时候做缓冲对齐的修正,让克隆出的语音平缓自然。

2.根据权利要求1所述一种基于语音训练克隆口音及声韵方法,其特征还包含的步骤及要素:采用训练文本选择的方法有:a、所用文本词句单词,需要至少一次涵盖所有的音素、特殊组合发音的音节;

b、设置不同长度的语句,以获得用户朗读时候的换气等必要动作所造成的声韵特征;

c、尽可能涵盖多种典型语气的文本语句,例如疑问句,惊讶句、兴奋句、严肃语句等等,以获得用户在不同文本内涵意思,自然对语气声调影响的特征;

d、在系统中设置语调类,分别映射对应文本内容、音标、音素、语音片段单元等,实施例:疑问声调、陈述声调、感叹声调等。

3.根据权利要求1所述一种基于语音训练克隆口音及声韵方法,其特征还包含的步骤及要素:优选地,所述创建用户音库,将所述经过滤波分析整理过的用户基于文本朗读的语音,进行分拆,获得与文本中音标对应的语音片段,用户语音训练英语朗读是基于文本内容的,文本的范围局限在很小的范围,将句子文本分拆的音标映射语音分拆成音素、单词、音节,采循环递推打分分拆识别法,首先将文本分拆成单词组、音素、音节组,以单词、音素、音节的标准语音及其声学特征等作为标准参考模型,先假设音素、音节、单词被朗读的时长为标准时长,在被测语音上依次分拆该时长的语音段,进行比对获得最高分值的语音段,然后进行向前向后的加减时长的修正,获得音素、音节、单词较为理想匹配的语音段,将所述语音段、语音段时长、语音段声学特征、语音段映射的音节音素、用户信息及根据文本特征认定的语调类别等等一并保存到系统中。

4.一种声韵矫正的方法,其特征包含的步骤及要素:根据权利要求1-4的技术方法为基础,所述的语音帧时长,进行叠加求和运算j为目标克隆语音的预计时长,将j值为检索条件,在声韵特征库中检索时长和j值最为接近的记录,并读取记录中帧组声强数据组,读取为b=( ,  ,  ,….. ),按照权利要求1-5的技术方法,计算权利要求1-5中目标克隆语音y的在其内部帧单元的声强a=( , , ,….. ),从目标克隆语音的第一帧开始,修正声韵的声强强度,本发明独创的计算公式如下: 第i帧声强,声韵特征库中检索到合乎条件的第i帧声强,f为系统设置的声韵修正阀值,K为系统预设的声韵修正系数,在i大于等于m、n的前提下,通过循环计算矫正克隆模拟目标语音的声强;

优选地,系统设置的声韵修正阀值f赋值为28dB,系统预设声韵修正系数k赋值为0.13。

5.一种缓差对齐的语音合成矫正的方法,其特征包含的步骤及要素:根据权利要求1-5的技术方法,获得经过声韵语调修正过的目标克隆语音,其构成是一组被矫正运算过的音素、语音片段单元,其内容为新值的:y=(   ,  ,  ,….. );则每个相邻的音素或语音片段单元就需要进行缓冲对齐的矫正,取任意两个相邻音素或语音片段单元 、 进行矫正运算;

分别将 、 音素或语音片段单元进行分帧;

优选地,将帧长设定为12ms;

通过分帧,并通过权利要求1-5的技术方法所述的技术方法分别获得两组序列语音帧的声音强度组对应 为c=(   ,  ,  ,….. )、对应 根为d=( , ,  ,….. ),分别将、 根据时间轴上的分布找到重新开始时段设定,根据时长参数分别获得相应的时间段1至h、1至 的语音帧;

α=INT( 音素时长/帧时长*η);

β=INT( 音素时长/帧时长*η);

η为修正比例参数,即表示在音素中取η比例的帧参与缓差对齐的矫正;

优选地,η赋值为0.085;

将 、  音素的临界合成点声音强度L设定为:

L为临界合成点声音强度;

以变量i对 音素中的帧从1开始编号,将 音素中从第h-α+1个帧开始到最后一帧修正声音强度的公式:以变量i对 音素中的帧从1开始编号,将 音素中从第一帧开始到第β个帧结束修正声音强度的公式:通过以上所述及公示6、7、8,就可以完成相邻音素或语音片段单元的语音合成对声音强度的矫正,通过循环依次将所有相邻的音素或语音片段单元进行同样的矫正合成,完成目标克隆语音整体的合成矫正,得到声调和谐自然的克隆语音的效果。