知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种基于语义的深度多实例弱监督文本分类方法

￥41000

专利号： 2022113016464

申请人：重庆理工大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于语义的深度多实例弱监督文本分类方法，其特征在于，包括以下步骤：S1，将同一社交内容下的多条评论文本组织成文本包，给文本包分发标签，由此得到话题相关包；

S2，从话题相关包中抽取代表话题的关键词，通过关键词构建话题相关向量；

S3，将话题相关向量和词向量作为向量对输入双分支神经网络中，通过双分支神经网络对文本实例进行预测，得到文本实例的类别和包的类别。

2.根据权利要求1所述的一种基于语义的深度多实例弱监督文本分类方法，其特征在于，所述S2包括以下步骤：S2‑1，将话题相关包通过LDA算法聚类出若干话题，并提取话题关键词；

S2‑2，采用fasttext模型对话题中的每个关键词进行嵌入表示，并采用话题强相关关键词的向量平均值作为话题相关向量；

将话题关键词的向量表示为因此话题相关向量表示为：其中VT表示话题相关向量；

K表示话题强相关关键词的总数。

3.根据权利要求1所述的一种基于语义的深度多实例弱监督文本分类方法，其特征在于，还包括：将所述向量对转化为稠密向量输入双分支神经网络中；

所述稠密向量通过词向量和话题相关向量VT做内积后再叠加到词向量从而得到，公式如下：其中是叠加后的词向量，是双分支神经网络的输入；

[·,·]表示两个向量连接；

表示词向量；

×表示矩阵按位乘；

VT表示话题相关向量；

因此，双分支神经网络的输入可表示为：其中xij表示第i个包中的第j条文本表，为双分支神经网络的输入；

表示第一个叠加后的词向量，表示第二个叠加后的词向量，表示第L个叠加后的词向量；

L表示文本包含的词的个数；

[·,·,...,·,]表示向量的集合。

4.根据权利要求1所述的一种基于语义的深度多实例弱监督文本分类方法，其特征在于，在所述双分支神经网络中进行如下操作：引入隐变量Z＝{zij}来刻画文本实例与包之间的关系，zij表示第i个包的第j个实例对包i是正向包贡献的贡献度，0≤zij≤1；若Z服从分布p(z)，那么第i个包为正向包的概率可以表示为：p(Yi＝1|Xi)＝fj∈{1,…,N}{pθ(yij＝1|xij,zij)·[zij‑γ]} (7)其中，Xi表示第i个包；

Yi表示第i个包的标注；

f是由文本实例向包之间的映射算子；

N表示包的数量；

pθ(yij＝1|xij,zij)表示实例xij被预测为1的概率；

yij表示第i个包中的第j条文本表的标注；

xij表示第i个包中的第j条文本表；

zij表示第i个包的第j个实例对包i是正向包贡献的贡献度；

γ是包中正实例的平均比例。

5.根据权利要求4所述的一种基于语义的深度多实例弱监督文本分类方法，其特征在于，所述f为均值算子。

6.根据权利要求1所述的一种基于语义的深度多实例弱监督文本分类方法，其特征在于，在所述双分支神经网络中还进行如下操作：多实例文本分类中，学习的目标是包的交叉熵最小化：Li＝‑[Yi'logp(Yi|Xi)‑(1‑Yi')log(1‑p(Yi|Xi))] (8)其中Li表示第i个包的交叉熵；

p(Yi|Xi)表示实例Xi被预测为Yi的概率，为分支一的输出；

Xi表示第i个文本包的输入特征，为分支一的输入；