知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种基于深度学习的语音驱动3D数字人生成方法

面议

专利号： 2025109272442

申请人：山东女子学院

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2026-04-06

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于深度学习的语音驱动3D数字人生成方法，其特征在于，包括以下步骤：步骤1：采集音频数据和对应的面部数据，并进行预处理；

步骤2：利用预处理后的音频数据和面部数据对Meta Former模型进行训练，获得面部预测模型；采用Wav2Vec模型对音频数据进行预处理，提取初步特征，获得音频向量；MetaFormer模型包括线性层、特征对齐层、动作编码器、周期性位置编码器、目标掩码层、内存掩码层和动作解码器；

线性层，设置角色向量并转换为角色特征；

特征对齐层，将音频向量转换为以帧为单位的向量，并与面部数据中的每一帧图像一一对应；

周期性位置编码器，采用改进正弦位置编码方法为预测的预测帧图像进行编码，获得周期性位置编码加入预测帧图像，并将周期性位置编码编码成可渲染格式；

目标掩码层，根据预测帧图像生成目标掩码矩阵；

内存掩码层，根据预测帧图像生成内存掩码矩阵；

动作解码器，根据对齐后的音频向量和面部数据、角色特征、目标掩码矩阵和内存掩码矩阵进行推理预测，生成预测帧图像并进行编码，所有预测帧图像构成预测面部数据；

目标掩码层根据当前的预测帧图像生成目标掩码矩阵，目标掩码矩阵表示为：其中，p表示时间周期；i表示矩阵的列，j表示矩阵的行，BF(i，j)表示第j行第i列的目标码权重；

内存掩码层根据当前的预测帧图像生成内存掩码矩阵，内存掩码矩阵BA表示为：其中，k表示当前连续帧的数量；i表示矩阵的列，j表示矩阵的行，BA(i，j)表示第j行第i列的内存权重；

改进正弦位置编码方法表示为：

PPE(t，2α)＝sin((t mod p)/100002α/d)/τPPE(t，2α+1)＝cos((t mod p)/100002α/d)/τ其中，τ表示缩放参数；t为当前帧时间；d为模型维度；α为维度指数；p为时间周期；PPE(t，2α)表示偶数预测帧图像对应的周期性位置编码；PPE(t，2α+1)表示奇数预测帧图像对应的周期性位置编码；mod表示计算相除后的余数；在预测帧图像中加入周期性位置编码表示为：其中，Sn表示当前预测帧图像；Wf为权重，bf为偏差，为上一帧预测帧图像的向量值；x表示循环次数k大于1，且小于或等于总帧数T的预测帧图像；f(x)表示推理出的所有预测帧图像；ft表示t时刻的预测帧图像；表示加入周期性位置编码后的t时刻的预测帧图像；

步骤3：采集待转换音频并输入至面部预测模型，获得预测面部数据；

步骤4：将预测面部数据通过客户端传输至UE5引擎，生成数字人。

2.根据权利要求1所述的一种基于深度学习的语音驱动3D数字人生成方法，其特征在于，特征对齐层包括依次连接的特征提取层、线性插入层和特征投影层，表示为：FP(LI(FE(audio)))

其中，audio表示输入的音频向量；FE表示特征提取操作；LI表示线性插入操作，将音频向量与面部数据中每帧图像一一对应；FP表示特征投影操作，将音频向量映射为与面部数据匹配的格式。

3.根据权利要求1所述的一种基于深度学习的语音驱动3D数字人生成方法，其特征在于，Meta Former模型的训练过程包括：步骤21：初始化角色向量并嵌入为角色特征；角色特征与面部数据的尺寸相同；

步骤22：获取面部数据的总长度作为总帧数；

步骤23：将音频向量和面部数据进行特征对齐；

步骤24：根据总帧数开始分批循环预测，令循环次数k＝1，将角色特征投影为与面部数据相同的维度，作为初始的预测帧图像；

步骤25：在预测帧图像中加入周期性位置编码，并根据预测帧图像分别生成目标掩码矩阵和内存掩码矩阵，将预测帧图像对应的周期性位置编码编码成可渲染格式；

步骤26：根据对齐后的音频向量和面部数据、角色特征、目标掩码矩阵和内存掩码矩阵进行推理，获得新的预测帧图像；

步骤27：将新的预测帧图像投影为面部数据相同的维度，令循环次数k增加1；

步骤28：如果循环次数k小于或等于总帧数，则返回步骤25；否则，所有预测帧图像构成预测面部数据，根据预测面部数据和采集的面部数据计算损失；

步骤29：根据损失进行反向传播，更新MetaFormer模型的参数，返回步骤21，直至达到模型迭代停止条件。

4.根据权利要求3所述的一种基于深度学习的语音驱动3D数字人生成方法，其特征在于，采用Huber损失函数计算损失Lδ(a)，表示为：a＝Y-f(x)

其中，δ为阈值；a表示预测面部数据和面部数据之间的差距；Y表示面部数据；f(x)表示推理预测的预测面部数据。

5.根据权利要求1所述的一种基于深度学习的语音驱动3D数字人生成方法，其特征在于，客户端包括接收模块、展示模块的数字人模块；接收模块接收预测面部数据和待转换音频；展示模块基于Linux/Windows系统组件开发，播放待转换音频；数字人模块基于JSONLiveLink插件开发，按照预测面部数据中预测帧图像的时间顺序将预测面部数据发送至UE5引擎，UE5引擎根据预测面部数据渲染生成数字人，并将数字人反馈至展示模块与待转换音频同步播放。