1.一种基于强化学习算法的实体关系联合抽取模型构建方法,其特征在于,采用强化学习算法对输入的自然语言类型原始语料进行实体和关系的抽取,包括以下步骤:S1:将原始语料中每条语句的词语采取联合抽取标注策略进行标注;标注策略具体表示为:其中该词语在实体中的位置信息标注为{B(实体开始)、I(实体内部)、E(实体结束)、S(单个实体)};关系类型被表示为实体{1,2}的信息,其中{1,2}分别表示为{实体1,实体2};
标签“O”表示除了实体以外的“其他”标签;
S2:对已标注的语料采用word2vec技术得到语句中词语的词向量为ht,将此词向量ht作为联合抽取器LSTM网络输入层中的输入值;同时,针对所有语料语句集合S={s1,s2,…,Ksn},将其具有相同实体对的语句划分至同一个袋子B (K∈[1,2,…,N]),从而将原始语料语
1 2 N
句集合S形成不同的袋子集合={B ,B ,…,B};N表示袋子的个数;
S3:建立预训练模型‑LSTM联合抽取器,再通过模型对袋子进行预训练;使用随机权重初始化联合抽取器LSTM模型的参数,再通过LSTM模型来预训练由联合抽取标注策略得到的语句实体及其关系;词向量ht作为当前时刻的输入值通过LSTM单元结构中的输入门得到的中间值为it=δ(Wwiht+Whiht‑1+Wcict‑1+bi),其中Wwi,Whi,Wci和bi分别为函数中的权重系数和偏置量,ht‑1是上一时刻的输出向量,ct‑1是上一时刻状态向量,δ为sigmoid函数,通过遗忘门得到的中间值为ft=δ(Wwfht+Whfht‑1+Wcfct‑1+bf),其中Wwf,Whf,Wcf和bf分别为该函数中的权重系数和偏置量,通过输出门得到的中间值为ot=δ(Wwoht+Whoht‑1+Wcoct+bo),其中Wwo,Who,Wco和bo分别为该函数中的权重系数和偏置量,zt=tanh(Wwcht+Whcht‑1+bc)表示输入的信息,其中Wwc,Whc和bc分别为该函数中的权重系数和偏置量,tanh为双曲正切函数,从而得到当前网络所表示的信息ct=ftct‑1+itzt,ct经过ht=ottanh(ct)计算得到的ht表示当前时刻输出的信息,对ht经过权重偏置的设置得到Tt=Wtsht+bts,其中Wts和bts分别为该函数中的权重系数和偏置量,再由softmax层yt=WyTt+by计算得到置信向量yt,其中Wy和by分别为该函数中的权重系数和偏置量,yt最终经过归一化处理得到预测值 其中由联合抽取器预训练得到的参数记为ψ, 为当前词语的预测值, 为每一个词语的预测值,指对所有词语预测值求和,Nt为标签总数,exp为以自然常数e为底的指数函数,其中ai为网络预测的动作,sj为通过由word2vec模型得到的词向量作为输入经过联合抽取标注器得到的预测值分布表达, 为输出值为在(0,1)之间当前预测词语的概率值;
S4:将经过LSTM联合抽取器预训练得到的结果yt作为强化学习模块中的动作值,并通过基于策略梯度的强化学习算法计算得到每一条语句即状态的奖励值R(si|B);
S41:初始化强化学习模块中的目标网络‑训练器,使得θ′=θ=ψ,对于每一个回合训1
练,打乱袋子的顺序,避免模型记忆不能达到很好的泛化效果,其中袋子集合记为B={B ,
2 N
B ,…,B};
K K
S42:对于每一个袋子B∈B,假设B中每条语句的实体和关系的参数为θ,将语句作为本强化学习模型的状态值,计算当前袋子下语句即状态的奖励值R(si|B),其中奖赏函数定义n‑i为R(si|B)=γ rj,其中γ为折扣系数,rj为每回合训练下每个袋子中每条语句的即时奖励值,n表示为当前袋子下的n条语句;
K
S5:对于一个包含n条语句的袋子B∈B,本模型通过强化学习算法期望得到的总奖励会最大化;因此对于当前袋子下语句的奖励函数R(si|B),目标函数定义为对该袋子下的n条语句s1,s2,…,sn求总期望值 其中, 表示获取n条语句s1,s2,…,sn的数学期望;
S6:由策略梯度算法S5中的目标函数,并根据模型设置的优化函数
其中 为当前时刻模型预测值的梯度值,再对当前袋
子下每条语句的梯度值和奖赏函数先求积再求和,以此更新模型的参数θ,返回S42,直至回合训练数结束;
S7:对已经过预训练并构建好强化学习模块的模型进行超参数的调优训练,设置参数值返回S4;根据调优参数得到的最优模型,生成最终的实体关系联合抽取方案。
2.根据权利要求1所述的基于强化学习算法的实体关系联合抽取模型构建方法,其特征在于,在S3步骤中:由最终的softmax输出层计算出置信向量值yt=WyTt+by,其中Wy和bt分别为该函数中的权重系数和偏置量,并经过归一化处理 得到预测值,其中由联合抽取器预训练得到的参数记为ψ, 为当前词语的预测值, 为每一个词语的预测值,指对所有词语预测值求和,Nt为标签总数,exp为以自然常数e为底的指数函数,其中ai为网络预测的动作,sj为通过由word2vec模型得到的词向量作为输入经过联合抽取标注器得到的预测值分布表达, 为输出值为在(0,1)之间当前预测词语的概率值;根据使用的标签策略,标签总数为Nt=2*4*|R|+1,其中|R|是预定义关系集的大小;
采用Hinton提出的RMSprop对神经网络进行预训练,定义联合抽取器的目标函数为其中ψ为模型训练的参数,|S|是整个进行训练的数据集,Lj是语句sj的长度, 是语句sj第j个单词的预测值, 是语句sj第j个单词的真实值即标签,log为求对函数。
3.根据权利要求1所述的基于强化学习算法的实体关系联合抽取模型构建方法,其特征在于,在S4步骤中:奖励函数是用来选择使最终抽取精度最大化的函数,首先,在预测每条语句的分布时,忽略预测的“O”标签;在剩余的预测实体关系标签中,选择概率值最大的关系作为当前语句,然后通过极大似然估计选择概率值;选择当前最大的预测关系作为当前袋子的关系,与真正的袋子关系相比较,如果它们的值是相同的,每个数据集标签的奖励值为+1;如果值不同,则奖励值为‑1;奖励函数的具体表达式为 其中γ为折扣系数,rj为即时奖励值。