欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2022113016464
申请人: 重庆理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于语义的深度多实例弱监督文本分类方法,其特征在于,包括以下步骤:S1,将同一社交内容下的多条评论文本组织成文本包,给文本包分发标签,由此得到话题相关包;

S2,从话题相关包中抽取代表话题的关键词,通过关键词构建话题相关向量;

S3,将话题相关向量和词向量作为向量对输入双分支神经网络中,通过双分支神经网络对文本实例进行预测,得到文本实例的类别和包的类别。

2.根据权利要求1所述的一种基于语义的深度多实例弱监督文本分类方法,其特征在于,所述S2包括以下步骤:S2‑1,将话题相关包通过LDA算法聚类出若干话题,并提取话题关键词;

S2‑2,采用fasttext模型对话题中的每个关键词进行嵌入表示,并采用话题强相关关键词的向量平均值作为话题相关向量;

将话题关键词 的向量表示为 因此话题相关向量表示为:其中VT表示话题相关向量;

K表示话题强相关关键词的总数。

3.根据权利要求1所述的一种基于语义的深度多实例弱监督文本分类方法,其特征在于,还包括:将所述向量对转化为稠密向量输入双分支神经网络中;

所述稠密向量通过词向量 和话题相关向量VT做内积后再叠加到词向量从而得到,公式如下:其中 是叠加后的词向量,是双分支神经网络的输入;

[·,·]表示两个向量连接;

表示词向量;

×表示矩阵按位乘;

VT表示话题相关向量;

因此,双分支神经网络的输入可表示为:其中xij表示第i个包中的第j条文本表,为双分支神经网络的输入;

表示第一个叠加后的词向量, 表示第二个叠加后的词向量, 表示第L个叠加后的词向量;

L表示文本包含的词的个数;

[·,·,...,·,]表示向量的集合。

4.根据权利要求1所述的一种基于语义的深度多实例弱监督文本分类方法,其特征在于,在所述双分支神经网络中进行如下操作:引入隐变量Z={zij}来刻画文本实例与包之间的关系,zij表示第i个包的第j个实例对包i是正向包贡献的贡献度,0≤zij≤1;若Z服从分布p(z),那么第i个包为正向包的概率可以表示为:p(Yi=1|Xi)=fj∈{1,…,N}{pθ(yij=1|xij,zij)·[zij‑γ]}             (7)其中,Xi表示第i个包;

Yi表示第i个包的标注;

f是由文本实例向包之间的映射算子;

N表示包的数量;

pθ(yij=1|xij,zij)表示实例xij被预测为1的概率;

yij表示第i个包中的第j条文本表的标注;

xij表示第i个包中的第j条文本表;

zij表示第i个包的第j个实例对包i是正向包贡献的贡献度;

γ是包中正实例的平均比例。

5.根据权利要求4所述的一种基于语义的深度多实例弱监督文本分类方法,其特征在于,所述f为均值算子。

6.根据权利要求1所述的一种基于语义的深度多实例弱监督文本分类方法,其特征在于,在所述双分支神经网络中还进行如下操作:多实例文本分类中,学习的目标是包的交叉熵最小化:Li=‑[Yi'logp(Yi|Xi)‑(1‑Yi')log(1‑p(Yi|Xi))]              (8)其中Li表示第i个包的交叉熵;

p(Yi|Xi)表示实例Xi被预测为Yi的概率,为分支一的输出;

Xi表示第i个文本包的输入特征,为分支一的输入;

Yi表示第i个文本包的预测值,

Yi'表示第i个文本包的标注;

对于正包,Yi'=1,1‑Yi'=0,因此Li表示为:对于负包Yi'=0,因此Li表示为:负包中所有文本实例均为负,且当所有pθ(yij|xij,zij)和zij均为负时, 为0,达到最小值;

正包,最小化 等同于p(Yi|Xi)的似然值极大化,将公式(7)代入,则然后公式(11)引入变分推断

其中xij表示第i个包中的第j条文本表;

yij表示第i个包中的第j条文本表的标注;

zij表示第i个包的第j个实例对包i是正向包贡献的贡献度;

γ是包中正实例的平均比例;

pθ(yij|xij)表示实例xij被预测为yij的概率;

p(z)表示贡献度z的p分布;

pθ(yij|xij,z)表示xij的贡献度为z,实例xij被预测为yij的概率;

pθ(yij|xij,z>γ)表示xij的贡献度z>γ,且实例xij被预测为yij的概率;

q(z)表示贡献度z的q分布;

EZ~q[·]表示Z服从q分布的条件下的均值。

7.根据权利要求1所述的一种基于语义的深度多实例弱监督文本分类方法,其特征在于,所述神经网络为TextCNN,LSTM、Transformer中的任意一个。

8.根据权利要求1所述的一种基于语义的深度多实例弱监督文本分类方法,其特征在于,还包括:S4,对双分支神经网络的网络参数进行优化:S4‑1,E步以KL最小化为目标,优化参数 目标函数为:其中 表示对 p′进行KL最小化;

表示Y=1条件下双分支神经网络中分支一的输出,为文本实例的类别;

Yi=1表示第i个包为正;

xij表示第i个包中的第j条文本;

yij表示第i个包中的第j条实例对包为正的贡献度;

p′=pθ(y|x),表示参数θ决定的神经网络在θ固定的情况下计算出来的值,对于负向包,每个实例的pθ(y|x)均为0;

S4‑2,M步固定参数 使同样文本下 和pθ(z|x,Y)的KL散度不变,然后通过优化参数θ,让期望最大化,对数似然值的期望表示如下LM=EZ~q[logpθ(yij|xij,z>γ)]                      (18)其中LM表示对数似然值的期望;

EZ~q[·]表示Z服从q分布的条件下的均值;

pθ(yij|xij,z>γ)表示在z>γ,且文本包中的实例i经过θ分支后,被预测为正文本的概率;

z表示贡献度;

γ是一个超参数;

按照公式(7)的定义,可将LM以z=γ为界拆成两部分,对于z>γ只对yij=1有意义,而对z<γ只对yij=0有意义,因此,M步的代价函数LM可进一步拆解为其中r是一个超参数;

pθ(yij=1|xij)表示包i中文本实例j为正文本的概率;

pθ(yij=0|xij)表示包i中文本实例j为负文本的概率;

yij=1表示包i中文本实例j为正;

yij=0表示包i中文本实例j为负;

公式(19)可以转化为交叉熵

LM=y′ijlogpθ(yij|xij)‑(1‑y′ij)log(1‑pθ(yij|xij))           (20)其中y′ij是yij的伪标签,在正包中,它由z决定,在负包中,全部为0;

其中mean(·)表示求平均;

γ是包中正实例的平均比例。