1.一种基于分解‑重组策略的医学文本实体关系联合抽取方法,包括以下步骤:步骤S1,对医学文本数据进行数据预处理操作,以获得可供模型训练的医学文本数据;
步骤S2,将经过文本预处理后得到的句子输入到编码器,获取包含句子的特征的词向量序列;
步骤S3,将包含语义信息的词向量序列输入到基于跨度的实体标记模块,用于提取文本中的头实体和尾实体,并采用两个相同的二分类器分别预测头实体和尾实体的起始和结束位置,定义两个集合Msub和Mobj,分别用于存放预测出的头实体和尾实体;
步骤S4,为了获取句子中实体之间存在的关系,将编码器输出的词向量输入到关系分类模块,接着对所有关系类型进行预测,从而提取出序列中所有可能存在的关系,定义集合Mrel,用于存放提取出的关系;
步骤S5,为了解决实体重叠问题,将实体标记模块中获取的每一个头实体,与关系分类模块中获取的每一种关系进行两两重组,获得所有可能成为三元组的头实体和关系组合;
接着,将每个组合的头实体和关系的特征相结合,再使用Self‑Attention机制获得所有尾实体的相关性特征,以匹配最相关尾实体的起始位置,从而获得该三元组中的尾实体,最终完成医学实体关系三元组的抽取工作;
步骤S5的具体实现方式如下;
S51:将从实体标记模块中获取的Msub中的每一个头实体,与从关系分类模块中获取的Mrel中的每一种关系进行两两重组,获得所有可能成为三元组的头实体和关系的组合;
S52:将每个组合的头实体和关系的特征相结合;
S52的具体实现方式如下;
设置组合为{s1,r1},其中,s1表示头实体,r1表示关系,首先,利用基于跨度的实体标记模块中获取到的s1起始位置信息和结束位置信息,通过映射操作将s1表示为张量vs1;
为了能结合s1和r1的特征,将r1映射到与vs1维度相同的张量中,通过全连接层以获得关系r1的特征张量vr1;
将vs1和vr1相加,从而达到结合s1和r1特征的目的;
S53:使用Self‑Attention机制获得Mobj中所有尾实体的相关性特征;
S54:使用一个类似于实体标记模块中的二分类器来预测尾实体起始位置的概率,具体公式为:其中,Ai为输入词向量序列X中第i个词的注意力特征,该注意力特征为利用Self‑startAttention机制获得的尾实体相关性特征,pi 为X中第i个词为尾实体起始位置的概率,Watt和batt均为可训练的权重和偏差;
S55:获得尾实体起始位置的概率后,再与实体标记模块中的Mobj进行匹配,若起始位置相同,则该尾实体即为这个头实体和关系组合的尾实体,完成医学文本三元组的抽取任务。
2.如权利要求1所述一种基于分解‑重组策略的医学文本实体关系联合抽取方法,其特征在于:步骤S1中预训练包括对医学文本句子进行分句与分词。
3.如权利要求1所述一种基于分解‑重组策略的医学文本实体关系联合抽取方法,其特征在于:步骤S2中选择利用了大量医学文本训练的BioBERT预训练模型作为编码器,对于输入长度为n的句子,经过编码器后得到包含语义信息的词向量序列X:{x1,x2,…,xn}。
4.如权利要求1所述一种基于分解‑重组策略的医学文本实体关系联合抽取方法,其特征在于:步骤S3的具体实现方式如下;
S31:将步骤S2中得到的词向量序列X输入到实体标记模块,用于提取文本中的头实体和尾实体,对于输入词向量序列X中第i个位置的表示xi,利用一个二分类器预测xi为实体起始位置和结束位置的概率;
S32:如果概率超过阈值,则对应xi将会被标记1,否则将被标记为0;采用两个相同的二分类器分别预测头实体和尾实体的起始和结束位置,具体公式表示为:start end
其中,pi 和pi 分别表示xi为实体起始位置和结束位置的概率,Wstart和Wend为可训练的权重,bstart和bend为偏差,激活函数为sigmoid函数;
S33:基于跨度实体标记模块通过以下似然函数确定实体e的跨度,实体e表示头实体或尾实体;
其中,n表示输入词向量序列的长度,start和end分别表示实体的开始位置和结束位t置,yi 是xi为起始位置或结束位置的标记,即实体的开始位置和结束位置的真实值,开始位置和结束位置用1标记,其他位置用0标记;θ={Wstart,bstart,Wend,bend}表示可训练权重和偏差的集合,t的值可取start或end,当取值为start时,表示预测当前实体的起始位置;当取t t t值为end时,表示预测当前实体的结束位置;当yi =1时,I{yi =1}的值为1,否则为0;当yi =0t时,I{yi =0}的值为1,否则为0;
S34:基于跨度的实体标记模块利用以下损失函数进行训练;
其中,n表示输入词向量序列的长度,θ={Wstart,bstart,Wend,bend}表示可训练权重和偏差start的集合,X为输入序列,pθ(e|X)为实体e的跨度的概率,其中pθ (e|X)表示实体起始位置end概率,pθ (e|X)表示实体结束位置概率;
S35:将提取出来的所有头实体和尾实体分别表示为Msub和Mobj。
5.如权利要求1所述一种基于分解‑重组策略的医学文本实体关系联合抽取方法,其特征在于:步骤S4的具体实现方式如下;
S41:将编码器的输出词向量输入到关系分类模块,接着对所有关系类型进行概率预测,从而提取出序列X中所有可能存在的关系,具体公式表示为:其中,X为编码器输出的词向量序列,Wrel和brel为可训练的权重和偏差,激活函数为sigmoid函数;
S42:对于关系样本分布均衡的数据集,关系分类模块使用以下交叉熵损失函数:其中,n表示输入词向量序列的长度,ri表示所有关系中的第i种关系的概率,yi表示该文本中关系类型的真实值;
在关系样本分布失衡的数据集上,使用焦点损失(Focal Loss)函数代替交叉熵损失函数,作为关系分类模块的损失函数:其中,n表示输入词向量序列的长度,ri表示所有关系中的第i种关系的概率,yi表示该文本中关系类型的真实值,γ为可调节参数;
S43:将抽取出的关系表示为Mrel。
6.如权利要求1所述一种基于分解‑重组策略的医学文本实体关系联合抽取方法,其特征在于:步骤S5中Self‑Attention机制通过最小化以下损失函数来训练模型;
其中,n表示输入词向量序列的长度,当yi=1时,II{yi=1}的值为1,否则为0;当yi=0时,II{yi=0}的值为1,否则为0。