欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2021114057908
申请人: 长沙理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-12-24
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种多任务中文实体命名识别方法,其特征在于,包括以下步骤:步骤一,获取至少两个不同的已标注中文语句数据集,并进行预处理;

步骤二,构建包括双向编码器\解码器、双层长短期记忆网络层、注意力网络、隐藏层和条件随机场层的BERT‑‑BiLSTM‑CRF网络结构,其中编码器、解码器、双层长短期记忆网络层和条件随机场层均包括两个平行的相同结构,且两个双层长短期记忆网络层通过同一个注意力网络输出到同一个隐藏层;

步骤三,通过包括解码器和编码器的预训练部分BERT分别对不同的数据集进行特征抽取,获取词向量;

步骤四,将得到的词向量输入到双层长短期记忆网络层BiLSTM中,以通过包括遗忘门,记忆门和输出门在内的神经网络层来对词向量进行信息提取;

步骤五,让两个双层长短期记忆网络层的结果通过注意力网络输入到同一个隐藏层,其中注意力网络结合不同学习率来对两个结果进行全连接,再将隐藏层的输出结果输入到条件随机场层CRF,最后由CRF层约束,输出最优标签序列;

步骤六,重复步骤三‑五,并对模型超参数进行调整以得到最优参数从而完成模型训练,然后将待识别的数据集输入到模型中以进行识别。

2.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤一中,预处理包括对数据集中的句子进行长度统一化处理。

3.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤一中,中文语句数据集是采用以下方式对数据集中的实体进行标注:当命名实体由一个字描述时,标记为Begin‑named entity;当命名实体由超过一个字的词语描述时,以Begin‑named entity标记开头的字,其他字标记成In‑named entity;非命名实体的字词都标注成Out。

4.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤三中,进行特征抽取包括以下步骤:对于数据集中的句子,首先通过分词处理得到分词文本序列,然后对分词序列的部分词进行全词Mask;然后再用特殊标记[CLS]标记序列即一个句子的开头,用特殊标记[SEP]标记序列的结尾;从而得到由Token Embedding、Segment Embedding和Position Embedding这3个部分组成的Embedding,此时将序列向量每个词的输出Embedding输入到双向编码器\解码器进行特征提取,最后得到包含上下文语义特征的序列向量(x1,x2,...,xn)。

5.根据权利要求4所述的一种多任务中文实体命名识别方法,其特征在于,对分词序列的部分词进行全词Mask,是指对分词序列中预设比例的词执行以下处理:将预设比例中

80%的词替换成空白;10%的词替换成任意一个其他词;10%的词不变化。

6.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤四中,进行信息提取包括:

通过对网络中细胞状态中信息遗忘和记忆新的信息,使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态,其中双层长短期记忆网络层中的遗忘,记忆与输出由通过上个时刻的隐层状态和当前输入计算出来的遗忘门f,记忆门i和输出门o来控制:

遗忘门公式为:

ft=σ(Wf·[ht‑1,xt]+bf)其中σ是Sigmoid激活函数,W是权重矩阵,b是偏置向量,h是隐藏层状态,x是输入的词向量,下标t表示t时刻,下标f表示遗忘门下的相应参数;

然后计算记忆门以选择重要信息:输入:前一时刻的隐层状态ht‑1,偏移量b输出:记忆门的值it,临时细胞状态it=σ(Wf·[ht‑1,xt]+bi)其中下标i表示记忆门下的相应参数,tanh为Tanh激活函数,下标C表示当前细胞状态下的相应参数;

接下来计算当前细胞状态Ct:

最后计算输出门ot和当前时刻的隐藏状态ht:ot=σ(Wo·[ht‑1,xt]+bo)ht=ot*tanh(Ct)

其中下标o表示输出门下的相应参数;

BiLSTM通过对每个词序列分别采取前向和后向LSTM,然后将同一个时刻的输出进行合并,因此对于每一个时刻的ht而言,都对应着前向的信息 与后向的信息

7.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤五中,对不同的语料句子使用不同学习率,并通过相似度函数自动调整学习率,其中句子的学习率计算为:

α(x)=α*func(x,IN)其中α是固定学习速率,func(x,IN)表示句子x和作为语料库的步骤一中获取的数据集IN之间的相似性,相似性的取值从0到1;C为常数,vx为句子的矩阵表示,vIN为语料库的矩阵表示,d为维度;

通过得到的不同的学习率,将两个结果经过自注意力机制网络,结合学习率,进行全连接:

其中Softmax为多分类函数,Q,K,V是字向量矩阵,dk是Embedding维度,上标T表示矩阵的转置。

8.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤五中,由CRF层约束包括:对于任一个序列X=(x1,x2,...,xn),以P作为BiLSTM的输出得分矩阵,P的大小为n×k,其中n为词的个数,k为标签个数,Pij表示第i个词的第j个标签的分数;

则对于预测序列Y=(y1,y2,…,yn),得到它的分数函数s(X,Y)为:其中A表示转移分数矩阵,Aij代表标签i转移为标签j的分数,A的大小为k+2;

预测序列Y产生的概率为:

其中e表示自然对数的底;

两头取对数得到预测序列的似然函数:式中,表示真实的标注序列,Y|X表示所有可能的标注序列;解码后得到最大分数的输*

出序列Y:

其中 表示当 取最大值时,X, 的取值。

9.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤六中,对模型超参数进行调整包括:将数据集分为训练集和验证集,并监控模型训练过程中标签在训练集和验证集上的预测效果,即通过对训练集的损失值trainloss和验证集的损失值dev loss进行检测来进行监控,并以损失值保持稳定时的模型超参数作为最优参数,完成调整。