1.一种基于自注意力的单词和标签联合的短文本分类预测方法,其特征在于包括以下步骤:D
步骤1:构造单词到向量的映射表E;
D
步骤2:基于映射表E ,将单条短文本V和所有的标签D分别映射为短文本向量表示矩阵X和标签向量表示矩阵Y;
步骤3:基于短文本向量表示矩阵X,通过自注意力机制,得到经由文本自注意力转换后A的文本表示矩阵X;
步骤4:基于短文本向量表示矩阵X和标签向量表示矩阵Y,通过交互注意力机制,得到B经由短文本与标签交互注意力转换后的交互文本表示矩阵X;
A B
步骤5:融合加权步骤3和步骤4中的文本表示矩阵X 和交互文本表示矩阵X ,得到文本语义表示向量z;
步骤6:根据文本语义表示向量z,经过全连接层预测分类结果与短文本实际标签y进行比较计算出预测误差,并通过不断迭代得到最优参数;
步骤7:对于新的短文本V′,顺序执行步骤2至步骤6得到计算分类结果,此时预测出来的结果即为最终的结果。
2.根据权利要求1所述基于自注意力的单词和标签联合的短文本分类预测方法,其特征在于:所述步骤1的具体实现方法为:采用预先训练好的glove词向量,通过预训练的词向D量将每个单词映射为对应的向量表示,得到单词到向量的映射表E ,D代表的是向量维度大小。
3.根据权利要求1所述基于自注意力的单词和标签联合的短文本分类预测方法,其特D征在于:所述步骤2的具体实现方法为:根据映射表E ,将单条短文本V={v1,v2...vI}映射IxD为向量表示矩阵X∈R ,其中,v1...vI代表单词序列,I代表短文本单词数目,将所有类别的CxD标签D={d1,d2...dC}分别映射为向量表示矩矩阵Y∈R ,其中,d1...dC代表标签序列,C代表标签类别的数目,这里的第i个标签di取自数据集中用于描述第i个标签类别的词组,其中,i=1,2..C。
4.根据权利要求3所述基于自注意力的单词和标签联合的短文本分类预测方法,其特征在于:所述标签di由1‑2个单词构成。
5.根据权利要求1所述基于自注意力的单词和标签联合的短文本分类预测方法,其特征在于:所述步骤3的具体实现方法为:短文本向量表示矩阵X通过自注意力机制分别产生相应的查询Q1、键K1和值V1,所述查询Q1、键K1和值V1与短文本向量表示矩阵X一样,根据查询Q1、键K1之间的匹配程度计算得到的权重系数,再通过权重系数对值V1相乘并进行加权求和A IxD得到文本表示矩阵X∈R 。
6.根据权利要求1所述基于自注意力的单词和标签联合的短文本分类预测方法,其特征在于:所述步骤4的具体实现方法为:标签向量表示矩阵Y产生相应的键K2和值V2,所述键K2和值V2与标签向量表示矩阵Y一样,根据查询Q1、键K2之间的匹配程度计算得到的权重系数,再通过权重系数对值V2相乘并进行加权求和得到经由短文本与标签交互注意力转换后B IxD的交互文本表示矩阵X∈R 。
7.根据权利要求1所述基于自注意力的单词和标签联合的短文本分类预测方法,其特A征在于:所述步骤5的具体实现方法为:融合加权步骤3和步骤4中的文本表示矩阵X 和交互B文本表示矩阵X 后,再通过平均池化操作直接得到文本语义表示向量z,向量z和输入向量维度保持一致。
8.根据权利要求1所述基于自注意力的单词和标签联合的短文本分类预测方法,其特征在于:所述步骤6的具体实现方法为:通过文本语义表示向量z,经过全连接层预测分类结果与短文本实际标签y进行比较计算出预测误差,通过最小化交叉熵损失函数,不断迭代得到最优参数。
9.根据权利要求8所述基于自注意力的单词和标签联合的短文本分类预测方法,其特征在于:所述短文本实际标签y是数据集中用来进行测试的标签类别,具体任务分为单标签任务和多标签任务。