欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2024112915537
申请人: 成都信息工程大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2026-01-27
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于跨模态特征互补和有向图学习的多模态对话情感识别方法,其特征在于,所述方法包括:获取视频对话数据,对所述视频对话数据进行特征提取,获得第一特征;对所述第一特征进行编码,获得第二特征;

基于所述第二特征构建跨模态异构图,基于所述跨模态异构图获得注意力权重;基于所述注意力权重对所述跨模态异构图进行更新,获得最终跨模态异构图,提取所述最终跨模态异构图的互补特征信息,基于所述互补特征信息,对所述最终跨模态异构图的特征进行融合获得增强特征;

基于所述增强特征构建多模态有向图;基于所述多模态有向图获得情感特征,将所述情感特征传输至预训练情感分类器进行预测,获得预测情感结果;

构建多模态有向图的具体步骤包括:

基于所述增强特征获得话语节点,基于所述话语节点获得话语边和所述话语边的关系类型,所述话语节点包括文本话语节点、视频话语节点和音频话语节点,话语边包括不同模态的话语节点之间的外部边和同一模态的话语节点之间的内部边,所述边的关系类型包括外部边类型和内部边类型;基于所述话语节点的时间顺序,控制所述话语节点的M个过去话语节点和N个未来话语节点,获得所述多模态有向图,M和N均表示大于或等于1的整数;

获得情感特征的具体步骤包括:

提取所述话语节点中内部节点之间和相邻所述话语节点之间的依赖关系,获得第三特征;基于所述第三特征,提取所述多模态有向图的局部信息和全局信息,获得第四特征;将所述第四特征进行邻居采样和聚合,获得所述情感特征;

获得第三特征的第一计算公式为:

其中,表示第三特征,ωtop和ωt均表示可学习参数,表示话语节点的特征,Pt(i)表示在关系t∈R下节点的邻居索引的集合,|Pt(i)|表示归一化常数,表示节点的邻居节点的特征,η表示三种不同的模态,包括文本模态、视频模态和音频模态,i和m均表示序号。

2.根据权利要求1所述的一种基于跨模态特征互补和有向图学习的多模态对话情感识别方法,其特征在于,所述第一特征包括第一文本模态特征、第一视频模态特征和第一音频模态特征,获得所述第一特征的具体步骤包括:对所述视频对话数据中的音频序列进行特征提取,获得所述第一音频模态特征;

对所述视频对话数据中的面部表情变化和手势变化进行特征提取,获得所述第一视频模态特征;

对所述视频对话数据中每个单词的单词向量进行特征提取,获得所述第一文本模态特征;

基于所述第一文本模态特征、所述第一视频模态特征和所述第一音频模态特征,获得所述第一特征。

3.根据权利要求2所述的一种基于跨模态特征互补和有向图学习的多模态对话情感识别方法,其特征在于,所述第二特征包括第二文本模态特征、第二视频模态特征和第二音频模态特征,获得所述第二特征的具体步骤包括:基于规范化层和全连接层对所述第一视频模态特征和第一音频模态特征进行编码,分别获得所述第二视频模态特征和所述第二音频模态特征;

基于规范化层和双向LSTM层对所述第一文本模态特征进行编码,获得所述第二文本模态特征;

基于所述第二文本模态特征、所述第二视频模态特征和所述第二音频模态特征,获得所述第二特征。

4.根据权利要求3所述的一种基于跨模态特征互补和有向图学习的多模态对话情感识别方法,其特征在于,所述跨模态异构图包括第一跨模态异构图、第二跨模态异构图和第三跨模态异构图,构建跨模态异构图的具体步骤包括:基于所述第二特征,获取文本模态的第一节点、视频模态的第二节点和音频模态的第三节点;

基于所述第一节点和所述第二节点获得第一节点集合和第一连接边集合;基于所述第一节点集合和所述第一连接边集合构建所述第一跨模态异构图;

基于所述第一节点和所述第三节点获得第二节点集合和第二连接边集合;基于所述第二节点集合和所述第二连接边集合构建所述第二跨模态异构图;

基于所述第二节点和所述第三节点获得第三节点集合和第三连接边集合;基于所述第三节点集合和所述第三连接边集合构建所述第三跨模态异构图;

基于所述第一跨模态异构图、所述第二跨模态异构图和所述第三跨模态异构图,获得所述跨模态异构图。

5.根据权利要求4所述的一种基于跨模态特征互补和有向图学习的多模态对话情感识别方法,其特征在于,获得最终跨模态异构图的具体步骤包括:获取所述跨模态异构图中第四节点的邻居节点,基于所述注意力权重对所述邻居节点进行聚合,获得聚合结果,基于所述聚合结果对所述第四节点进行更新,获得第五节点;基于所述第五节点对所述跨模态异构图进行更新,获得所述最终跨模态异构图。

6.根据权利要求5所述的一种基于跨模态特征互补和有向图学习的多模态对话情感识别方法,其特征在于,互补特征信息包括:视频模态转换为文本模态的第一互补特征,文本模态转换为视频模态的第二互补特征;

音频模态转换为文本模态的第三互补特征,文本模态转换为音频模态的第四互补特征;

视频模态转换为音频模态的第五互补特征,音频模态转换为视频模态的第六互补特征。

7.根据权利要求6所述的一种基于跨模态特征互补和有向图学习的多模态对话情感识别方法,其特征在于,获得增强特征的具体步骤包括:基于所述互补特征信息和所述最终跨模态异构图,将涉及同一模态的节点的特征进行融合,获得所述增强特征。