欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2021106472326
申请人: 临沂大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2026-04-02
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于, 具体包括以下步骤:

S1:分词;利用字根向量R与ALBERT的位置向量、段向量、词向量融合,通过卷积神经网络序列标注得到法律数据集语料分词结果,构建法律数据集;具体包括以下步骤:S1‑1:特征表示;在ALBERT训练词向量的过程中,模型将文本数据处理成词向量、位置向量和段向量相加的模式,R‑ALBERT分词模型中,还加入字符的偏旁部首向量R,汉字的偏旁部首承载着一个汉字的形体特征和引申词义,与其他向量融合能够丰富词向量的表征内容;

S1‑2:特征提取;特征提取阶段使用卷积神经网络提取文本局部特征,获得相邻词语互相之间的关联信息;计算过程如公式(1), (1)

其中 表示卷积之后的文本特征, 为卷积核,表示文本序列,bt为偏置;

S1‑3:标签推理;将提取到的特征线性变换后,通过SoftMax计算每一个标签对于字符的概率,取最大概率标签标记字符,实现分词;字符标签包括{B,M,E,S},其中B表示一个词的开始字符,M表示词的中间字符,E表示结尾字符,S表示单字成词;标签推理过程如公式(2)(4),

~

 (2)

 (3)

 (4)

其中, 表示文本特征线性变换后的结果,之后作为条件概率的输入得到条件概率,条件概率中X为文本序列,y为标签序列;T表示文本序列中的字符个数;最后通过公式(4)得到最大标签概率;

S2:根据语料分词结果,对语料进行四词位标注;

S3:提取句子间特征;将分词后的训练语料利用BERT语言模型得到句子向量和BERT词向量,通过胶囊网络对句子向量表示的文本数据进行计算,提取句子间特征E;

S4:提取句子内部特征H;将BERT的词向量表示的文本向量通过BILSTM神经网络提取句子内部特征H;

S5:将语料句子内部特征和句子间特征联合表示得到文本特征;通过得到的文本特征进行序列标注得到实体识别结果,具体包括以下步骤:通过胶囊网络和BILSTM网络特征提取后会得到句子间特征E和句子内部特征H,将两种层级的特征通过拼接得到特征提取层的最终文本特征,通过SoftMax对序列进行计算,得到实体识别中每一个字符对应的标签概率,选取概率最大的标签作为字符最终的标签,得到实体识别结果,计算过程如公式(12)~

(13):

 (12)

 (13)

其中X表示融合句子间特征和句子内部特征的特征序列,w为线性变换参数,最后通过argmax得到最大概率的标签序列Y,完成实体识别。

2.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S2中,还包括检查利用R‑ALBERT分词模型分词之后的语料,将错误部分进行纠正,对专有名词进行重新标注。

3.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S3中,具体包括以下步骤:S3‑1:将训练语料通过BERT得到句向量,将句向量作为胶囊网络的输入,利用能够提取空间特征的胶囊网络来提取文本的句子间特征;

S3‑2:在胶囊网络中,首先经过卷积层对文本特征计算得到初级胶囊层中的胶囊;然后对文本进行n次卷积操作,将n次卷积提取到的特征组合,得到初级胶囊层中的特征;再对胶囊进行卷积得到胶囊卷积层中更深层次的特征,初级胶囊层和胶囊卷积层之间通过动态路由的方式进行迭代优化,动态路由计算过程如公式(5)(8),~

(5)

(6)

(7)

(8)

卷积胶囊层得到的特征为 ,通过权重共享矩阵 变换后得到投票向量 表示第i个胶囊与第j个实体的对应关系,然后经过SoftMax函数为每个投票向量分配一个权重系数,从而计算对应于每个命名实体类别j的 的加权和 ;最后通过非线性挤压函数作为激活函数得到对实体的向量 ,以用于下一次迭代。

4.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S4中,具体包括以下步骤:利用BILSTM网络对BERT词向量表示的文本进行特征提取,以得到文本句子内部的上下文特征;BILSTM计算过程如公式(9)(11),~

 (9)

 (10)

 (11)

其中 和 分别表示正向LSTM和反向LSTM提取的特征,H为隐藏层计算,公式(9)、(10)中的 、 表示正向和反向输入数据 的权重参数, 表示上一时刻正向和反向的隐藏层输出的权重参数, 、 表示正向LSTM层和反向LSTM层的偏置,由公式(9)(10)得到正向和反向文本特征之后,通过公式(11)的concat拼接得到最终特征向量 。