知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

确定虚拟形象唇部动作的方法和装置

￥28000

专利号： 2018110153618

申请人：百度在线网络技术(北京)有限公司

专利类型：发明专利

专利状态：已下证

专利领域：电通信技术

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种确定唇部动作系数模型的方法，包括：

获取发音人的音频样本以及所述音频样本所对应的视频样本；

将所述音频样本截断为音频样本片段序列，包括：基于所述视频样本每秒播放的帧数，确定所述音频样本片段序列中的各段音频样本片段的时长，以使所述各段音频样本片段每秒播放的帧数等于所述视频样本每秒播放的帧数；

基于所述视频样本，确定每一个音频样本片段对应的唇部动作所需的各个唇部动作基的唇部动作系数，其中，所述各个唇部动作基是相互正交的，所述唇部动作系数用于表征当前音频样本片段对应的唇部动作在这一维系数所对应的唇部动作基上的幅度；

将所述音频样本片段与所述唇部动作系数相对应，得到训练样本；

采用所述训练样本训练卷积神经网络的初始模型，得到训练完成的唇部动作系数模型。

2.根据权利要求1所述的方法，其中，基于所述视频样本，确定每一个音频样本片段对应的唇部动作所需的各个唇部动作基的唇部动作系数包括：提取所述视频样本的唇部关键点；

计算各个唇部动作基与对应的唇部动作系数的加权和；

基于所述加权和的以下约束确定所述唇部动作系数：所述加权和在屏幕上的投影与所述唇部关键点的误差最小，且所述加权和中的各唇部动作系数大于等于0小于等于1。

3.根据权利要求2所述的方法，其中，所述提取所述视频样本的唇部关键点包括以下任意一项：采用神经网络模型提取所述视频样本的唇部关键点；

采用主观形状模型提取所述视频样本的唇部关键点；

采用主动外观模型提取所述视频样本的唇部关键点；

采用有约束的局部模型提取所述视频样本的唇部关键点；

采用监督下降模型提取所述视频样本的唇部关键点。

4.一种确定虚拟形象唇部动作的方法，包括：

获取目标音频；

将所述目标音频截断为目标音频片段序列，包括：基于训练所述唇部动作系数模型的视频样本每秒播放的帧数，确定所述目标音频片段序列中的各段目标音频片段的时长，以使所述各段目标音频片段每秒播放的帧数等于所述视频样本每秒播放的帧数；

将所述目标音频片段序列中的各段目标音频片段分别输入如权利要求1-3任意一项所述的唇部动作系数模型，得到时序对应的唇部动作系数序列；

基于所述唇部动作系数序列，驱动目标虚拟人物做出与目标音频片段序列中的各段目标音频片段分别对应的唇部动作。

5.根据权利要求4所述的方法，其中，所述基于所述唇部动作系数序列，驱动目标虚拟人物做出与目标音频片段序列中的各段目标音频片段分别对应的唇部动作包括：对所述唇部动作系数序列中相邻的唇部动作系数进行滤波处理，得到滤波后的唇部动作系数序列；

将所述滤波后的唇部动作系数序列输出至前端，驱动目标虚拟人物做出与滤波后的唇部动作系数序列相对应的唇部动作。

6.根据权利要求4所述的方法，其中，所述将所述目标音频截断为音频序列还包括：若将所述目标音频截断为目标音频片段序列时末段音频的时长不足，将末段音频的不足部分补零。

7.一种确定唇部动作系数模型的装置，包括：

样本获取单元，被配置成获取发音人的音频样本以及所述音频样本所对应的视频样本；

样本截断单元，被配置成将所述音频样本截断为音频样本片段序列，包括：基于所述视频样本每秒播放的帧数，确定所述音频样本片段序列中的各段音频样本片段的时长，以使所述各段音频样本片段每秒播放的帧数等于所述视频样本每秒播放的帧数；

系数确定单元，被配置成基于所述视频样本，确定每一个音频样本片段对应的唇部动作所需的各个唇部动作基的唇部动作系数，其中，所述各个唇部动作基是相互正交的，所述唇部动作系数用于表征当前音频样本片段对应的唇部动作在这一维系数所对应的唇部动作基上的幅度；

样本确定单元，被配置成将所述音频样本片段与所述唇部动作系数相对应，得到训练样本；

模型训练单元，被配置成采用所述训练样本训练卷积神经网络的初始模型，得到训练完成的唇部动作系数模型。

8.根据权利要求7所述的装置，其中，所述系数确定单元进一步被配置成：提取所述视频样本的唇部关键点；

计算各个唇部动作基与对应的唇部动作系数的加权和；

9.根据权利要求8所述的装置，其中，所述系数确定单元中所述提取所述视频样本的唇部关键点包括以下任意一项：采用神经网络模型提取所述视频样本的唇部关键点；

采用主观形状模型提取所述视频样本的唇部关键点；

采用主动外观模型提取所述视频样本的唇部关键点；

采用有约束的局部模型提取所述视频样本的唇部关键点；

采用监督下降模型提取所述视频样本的唇部关键点。

10.一种确定虚拟形象唇部动作的装置，包括：

音频获取单元，被配置成获取目标音频；

音频截断单元，被配置成将所述目标音频截断为目标音频片段序列，包括：基于训练所述唇部动作系数模型的视频样本每秒播放的帧数，确定所述目标音频片段序列中的各段目标音频片段的时长，以使所述各段目标音频片段每秒播放的帧数等于所述视频样本每秒播放的帧数；

序列生成单元，被配置成将所述目标音频片段序列中的各段目标音频片段分别输入如权利要求7-9任意一项所述的唇部动作系数模型，得到时序对应的唇部动作系数序列；

动作驱动单元，被配置成基于所述唇部动作系数序列，驱动目标虚拟人物做出与目标音频片段序列中的各段目标音频片段分别对应的唇部动作。

11.根据权利要求10所述的装置，其中，所述动作驱动单元进一步被配置成：对所述唇部动作系数序列中相邻的唇部动作系数进行滤波处理，得到滤波后的唇部动作系数序列；

将所述滤波后的唇部动作系数序列输出至前端，驱动目标虚拟人物做出与滤波后的唇部动作系数序列相对应的唇部动作。

12.根据权利要求10所述的装置，其中，所述音频截断单元进一步被配置成：若将所述目标音频截断为目标音频片段序列时末段音频的时长不足，将末段音频的不足部分补零。

13.一种服务器，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。

推荐专利

一种基于文本的虚拟对象唇形同步方法及系统

发明专利

面议

确定虚拟形象的方法及装置、设备、介质和产品

发明专利

￥28000

基于虚拟化和云技术的远程网络攻防虚拟仿真系统

我要求购

我不想找了，帮我找吧

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

知嘟嘟

友情链接

关于我们

联系我们