1.一种基于语义的深度多实例弱监督文本分类方法,其特征在于,包括以下步骤:S1,将同一社交内容下的多条评论文本组织成文本包,给文本包分发标签,由此得到话题相关包;
S2,从话题相关包中抽取代表话题的关键词,通过关键词构建话题相关向量;
S3,将话题相关向量和词向量作为向量对输入双分支神经网络中,通过双分支神经网络对文本实例进行预测,得到文本实例的类别和包的类别。
2.根据权利要求1所述的一种基于语义的深度多实例弱监督文本分类方法,其特征在于,所述S2包括以下步骤:S2‑1,将话题相关包通过LDA算法聚类出若干话题,并提取话题关键词;
S2‑2,采用fasttext模型对话题中的每个关键词进行嵌入表示,并采用话题强相关关键词的向量平均值作为话题相关向量;
将话题关键词 的向量表示为 因此话题相关向量表示为:其中VT表示话题相关向量;
K表示话题强相关关键词的总数。
3.根据权利要求1所述的一种基于语义的深度多实例弱监督文本分类方法,其特征在于,还包括:将所述向量对转化为稠密向量输入双分支神经网络中;
所述稠密向量通过词向量 和话题相关向量VT做内积后再叠加到词向量从而得到,公式如下:其中 是叠加后的词向量,是双分支神经网络的输入;
[·,·]表示两个向量连接;
表示词向量;
×表示矩阵按位乘;
VT表示话题相关向量;
因此,双分支神经网络的输入可表示为:其中xij表示第i个包中的第j条文本表,为双分支神经网络的输入;
表示第一个叠加后的词向量, 表示第二个叠加后的词向量, 表示第L个叠加后的词向量;
L表示文本包含的词的个数;
[·,·,...,·,]表示向量的集合。
4.根据权利要求1所述的一种基于语义的深度多实例弱监督文本分类方法,其特征在于,在所述双分支神经网络中进行如下操作:引入隐变量Z={zij}来刻画文本实例与包之间的关系,zij表示第i个包的第j个实例对包i是正向包贡献的贡献度,0≤zij≤1;若Z服从分布p(z),那么第i个包为正向包的概率可以表示为:p(Yi=1|Xi)=fj∈{1,…,N}{pθ(yij=1|xij,zij)·[zij‑γ]} (7)其中,Xi表示第i个包;
Yi表示第i个包的标注;
f是由文本实例向包之间的映射算子;
N表示包的数量;
pθ(yij=1|xij,zij)表示实例xij被预测为1的概率;
yij表示第i个包中的第j条文本表的标注;
xij表示第i个包中的第j条文本表;
zij表示第i个包的第j个实例对包i是正向包贡献的贡献度;
γ是包中正实例的平均比例。
5.根据权利要求4所述的一种基于语义的深度多实例弱监督文本分类方法,其特征在于,所述f为均值算子。
6.根据权利要求1所述的一种基于语义的深度多实例弱监督文本分类方法,其特征在于,在所述双分支神经网络中还进行如下操作:多实例文本分类中,学习的目标是包的交叉熵最小化:Li=‑[Yi'logp(Yi|Xi)‑(1‑Yi')log(1‑p(Yi|Xi))] (8)其中Li表示第i个包的交叉熵;
p(Yi|Xi)表示实例Xi被预测为Yi的概率,为分支一的输出;
Xi表示第i个文本包的输入特征,为分支一的输入;
Yi表示第i个文本包的预测值,
Yi'表示第i个文本包的标注;
对于正包,Yi'=1,1‑Yi'=0,因此Li表示为:对于负包Yi'=0,因此Li表示为:负包中所有文本实例均为负,且当所有pθ(yij|xij,zij)和zij均为负时, 为0,达到最小值;
正包,最小化 等同于p(Yi|Xi)的似然值极大化,将公式(7)代入,则然后公式(11)引入变分推断
其中xij表示第i个包中的第j条文本表;
yij表示第i个包中的第j条文本表的标注;
zij表示第i个包的第j个实例对包i是正向包贡献的贡献度;
γ是包中正实例的平均比例;
pθ(yij|xij)表示实例xij被预测为yij的概率;
p(z)表示贡献度z的p分布;
pθ(yij|xij,z)表示xij的贡献度为z,实例xij被预测为yij的概率;
pθ(yij|xij,z>γ)表示xij的贡献度z>γ,且实例xij被预测为yij的概率;
q(z)表示贡献度z的q分布;
EZ~q[·]表示Z服从q分布的条件下的均值。
7.根据权利要求1所述的一种基于语义的深度多实例弱监督文本分类方法,其特征在于,所述神经网络为TextCNN,LSTM、Transformer中的任意一个。
8.根据权利要求1所述的一种基于语义的深度多实例弱监督文本分类方法,其特征在于,还包括:S4,对双分支神经网络的网络参数进行优化:S4‑1,E步以KL最小化为目标,优化参数 目标函数为:其中 表示对 p′进行KL最小化;
表示Y=1条件下双分支神经网络中分支一的输出,为文本实例的类别;
Yi=1表示第i个包为正;
xij表示第i个包中的第j条文本;
yij表示第i个包中的第j条实例对包为正的贡献度;
p′=pθ(y|x),表示参数θ决定的神经网络在θ固定的情况下计算出来的值,对于负向包,每个实例的pθ(y|x)均为0;
S4‑2,M步固定参数 使同样文本下 和pθ(z|x,Y)的KL散度不变,然后通过优化参数θ,让期望最大化,对数似然值的期望表示如下LM=EZ~q[logpθ(yij|xij,z>γ)] (18)其中LM表示对数似然值的期望;
EZ~q[·]表示Z服从q分布的条件下的均值;
pθ(yij|xij,z>γ)表示在z>γ,且文本包中的实例i经过θ分支后,被预测为正文本的概率;
z表示贡献度;
γ是一个超参数;
按照公式(7)的定义,可将LM以z=γ为界拆成两部分,对于z>γ只对yij=1有意义,而对z<γ只对yij=0有意义,因此,M步的代价函数LM可进一步拆解为其中r是一个超参数;
pθ(yij=1|xij)表示包i中文本实例j为正文本的概率;
pθ(yij=0|xij)表示包i中文本实例j为负文本的概率;
yij=1表示包i中文本实例j为正;
yij=0表示包i中文本实例j为负;
公式(19)可以转化为交叉熵
LM=y′ijlogpθ(yij|xij)‑(1‑y′ij)log(1‑pθ(yij|xij)) (20)其中y′ij是yij的伪标签,在正包中,它由z决定,在负包中,全部为0;
其中mean(·)表示求平均;
γ是包中正实例的平均比例。