1.一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,所述系统包括:获取单元:用于基于采集设备获取多模态抑郁症数据,基于处理器对所述多模态抑郁症数据进行预处理,获得多模态数据;
第一特征单元:用于对所述多模态数据进行特征提取获得单模态的低级抑郁特征;对所述低级抑郁特征进行特征提取,获得单模态的高级抑郁特征;
融合单元:用于时间维度、空间维度和所述高级抑郁特征,获得时空融合抑郁特征;
关系图单元:用于所述时空融合抑郁特征和所述高级抑郁特征,获得模态融合关系图E;
第二特征单元:用于对所述模态融合关系图E的模态的平衡关系进行处理,获得多模态抑郁特征;
预测单元:用于将所述多模态抑郁特征输入抑郁预测模型,获得预测结果,将所述预测结果传输至显示设备。
2.根据权利要求1所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,所述获取单元具体包括:数据单元:用于基于所述采集设备获取所述多模态抑郁症数据;
划分单元:用于基于文件格式划分所述多模态抑郁症数据获得第一数据,所述第一数据包括音频数据、视频数据和文本数据;
音频单元:用于对所述音频数据进行特征提取获得音频特征,所述音频特征包括第一音频特征MFCC、第二音频特征eGeMAPS和第三音频特征Wav2Vec2;
视频单元:用于对所述视频数据进行特征提取获得视频特征,所述视频特征包括第一视频特征AUs、第二视频特征Gaze和第三视频特征Pose;
文本单元:用于对所述文本数据进行分词和编码获得第二数据,基于预训练模型DepRoBERTa对所述第二数据进行特征提取获得文本特征;
切片单元:用于对所述音频特征、所述视频特征和所述文本特征进行切片,获得所述多模态数据。
3.根据权利要求2所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,所述第一特征单元具体包括:第一高级单元:用于分别统一所述音频特征和所述视频特征的维度,获得第一特征和第二特征,分别增强所述第一特征和所述第二特征的权重,获得高级音频抑郁特征F第二高级单元:用于捕捉所述文本特征的上下文之间的关联,获得关联文本特征,对所述关联文本特征进行加权,获得所述高级文本抑郁特征F第三高级单元:用于基于所述高级音频抑郁特征F
4.根据权利要求3所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,所述融合单元具体包括:第一融合单元:用于将所述高级音频抑郁特征F
第二融合单元:用于基于所述时间维度和所述空间维度,将所述音频融合特征张量A和所述视频融合特征张量B分别进行融合,获得时空音频融合抑郁特征F2获得所述音频融合特征F1
其中,F1
5.根据权利要求4所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,获得所述时空音频融合抑郁特征F2基于所述时间维度,将所述音频融合特征张量A输入至前馈神经网络,经激活函数处理后,再次输入至前馈神经网络,获得第一融合特征A1;将所述第一融合特征A1进行转置,获得第一特征张量A2;基于所述空间维度,将所述第一特征张量A2输入至前馈神经网络,经激活函数处理后,再次输入至前馈神经网络,获得所述时空音频融合抑郁特征F2获得所述时空音频融合抑郁特征F2
A1=MLP(ηMLP((F1
F2
获得所述时空视频融合抑郁特征F2
基于所述时间维度,将所述视频融合特征张量B输入至前馈神经网络,经激活函数处理后,再次输入至前馈神经网络,获得第二融合特征B1;将所述第二融合特征B1进行转置,获得第二特征张量B2;基于所述空间维度,将所述第二特征张量B2输入至前馈神经网络,经激活函数处理后,再次输入至前馈神经网络,获得所述时空视频融合抑郁特征F2获得所述时空视频融合抑郁特征F2
B1=MLP(ηMLP((F1
F2
其中,A1和B1分别表示音频融合特征张量和所述视频融合特征张量,F1
6.根据权利要求5所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,所述关系图单元具体包括:单模态单元:用于将所述时空音频融合抑郁特征F2双模态单元:用于基于所述单模态节点层,获取所述第一节点集合V1的任意一个节点张量,获得第一节点张量,将所述第一节点张量与非所述第一节点张量进行相似性结合,获得第二节点集合V2,所述第二节点集合V2定义为:V2={N多模态单元:用于将所有所述第二节点张量进行两两拼接,获得聚合特征矩阵E2,所述聚合特征矩阵E2定义为:E2={M融合关系图单元:用于基于所述第一矩阵E1和所述第二矩阵E3获得所述模态融合关系图E,所述模态融合关系图E定义为:E={E1,E3}。
7.根据权利要求6所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,所述第二特征单元具体包括:节点单元:用于基于所述第一节点集合V1、所述第二节点集合V2和所述第三节点集合V3,获得节点集合V,所述节点集合V定义为:V={V1,V2,V3};
权重单元:用于计算所述节点集合V和所述模态融合关系图E的任意两个相邻节点的注意力权重系数;对所述注意力权重系数进行归一化获得权重系数;
抑郁特征单元:用于基于所述权重系数,对所述节点集合V和所述模态融合关系图E的节点进行加权求和,获得所述多模态抑郁特征。
8.根据权利要求3所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,获得所述高级音频抑郁特征和所述高级视频抑郁特征的第四计算方式为:获得所述高级文本抑郁特征F
h
其中,
9.根据权利要求6所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,获得所述第二节点集合V2的第六计算方式为:其中,
获得所述聚合特征矩阵E2的第七计算方式为:
M
其中,cross_att()表示相关函数,softmax()表示归一化指数函数,d表示节点张量N1的维度,N1、N2和N均表示第二节点集合的节点张量,V2表示第二节点集合,T表示转置,M获得所述第三节点集合V3的第八计算方式为:
fusion(z)=z⊙e(z),z∈E2;
其中,MaxPool(z)
10.根据权利要求7所述的一种基于多层次特征融合的多模态抑郁症识别系统,其特征在于,获得所述多模态抑郁特征的第九计算方式为:S(N
N
其中,S(N