1.一种科技文献类目自动映射模型训练方法,基于IPC类目与高关联的CLC类目自动映射模型训练,其特征在于:步骤如下:步骤S1,构造IPC类目与高关联CLC类目数据集作为训练集,对训练集进行规范化处理,获得规范化处理后的训练集;其中训练集中每个样本由IPC类目描述文本、CLC类目描述文本和IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签组成,IPC类目描述文本和CLC类目描述文本均是类目层级文本之间用分号连接形成的一条句子;
步骤S2,将处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中,获取语义表示向量,分为IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量;
步骤S3,使用点积注意力计算步骤S2中IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量的注意力矩阵,获得交互表示向量;
步骤S4,将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络,输出增强表示向量;
步骤S5,将步骤S4的增强表示向量分别进行平均池化和最大池化提取类目描述文本的深层语义特征,将池化后的增强表示向量拼接后输入三层前馈神经网络,获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别;
步骤S6,根据步骤S5中在存在映射关系类别上的概率与不存在映射关系类别上的概率和步骤S1中训练集上IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签,通过最小化在训练集上的交叉熵损失来优化IPC类目与高关联CLC类目自动映射模型的参数,以得到训练后的IPC类目与高关联CLC类目自动映射模型;
步骤S1中构造IPC类目与高关联CLC类目数据集,具体为:
步骤S11,获取公开的IPC类目与CLC类目完全映射的数据集,数据集中每个样本是由一个IPC类目描述文本和与IPC类目描述文本存在映射关系的CLC类目描述文本组成,即只存在正样本;
步骤S12,步骤S11中数据集拆分为IPC类目描述文本与CLC类目描述文本,通过回溯获取每个IPC类目的类目号和对应的一个或者多个CLC类目的类目号关系字典;
步骤S13,对具有相同前缀的IPC类目号进行分组,获得分组字典;
步骤S14,遍历所有的IPC类目,对步骤S13的分组字典中对应的CLC类目进行过滤,通过判断条件,确立与步骤S12中存在映射关系的IPC类目号高度相似的CLC类目号;高度相似的CLC类目号对应的类目描述文本与步骤S12中IPC类目描述文本不存在映射关系,即获得负样本;
步骤S15,组合负样本和公开的IPC类目与CLC类目完全映射的数据集,构成IPC类目与高关联的CLC类目数据集;
步骤S2中处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中,获取语义表示向量,具体为:给定训练集中一个样本d=(sipc,sclc,y),其中d表示一个训练样本, Sipc表示IPC类目描述文本,Sclc表示CLC类目描述文本, y表示IPC类目与CLC类目是否存在映射关系,y值为0或
1;
将IPC类目描述文本Sipc和CLC类目描述文本Sclc使用BPE子词切分方法进行子词切分,分别得到包含n个子词和m个子词的子词序列:;
;
其中, 表示IPC类目描述文本切分后的第1个子词, 表示IPC类目描述文本切分后的第2个子词, 表示IPC类目描述文本切分后的第n个子词, 表示CLC类目描述文本切分后的第1个子词, 表示CLC类目描述文本切分后的第2个子词, 表示CLC类目描述文本切分后的第m个子词;n和m分别指IPC类目描述文本和CLC类目描述文本子词切分后包含的子词个数;
将类目描述文本切分后的子词序列依次输入预训练语言模型BERT中,获得每个子词的语义表示向量,见公式(1)和公式(2):(1);
(2);
其中,vipc和vclc分别表示IPC类目描述文本和CLC类目描述文本的语义表示向量, 、、 表示IPC类目描述文本第1个子词、第2个子词和第n个子词输入预训练语言模型BERT获得的输出向量; 、 、 表示CLC类目描述文本第1个子词、第2个子词和第m个子词输入预训练语言模型BERT获得的输出向量;BERT(•)表示预训练语言模型BERT,TE(•)表示查询嵌入表得到对应的词向量,SE(•)表示片段的嵌入向量,PE(•)表示位置的嵌入向量, 表示IPC类目描述文本切分后的第i个子词, 表示CLC类目描述文本切分后的第i个子词;
步骤S3中使用点积注意力计算步骤S2中IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量的注意力矩阵,以获得交互表示向量;见公式(3)、公式(4)和公式(5)所示;
(3);
(4);
(5);
其中,e表示注意力矩阵,T表示矩阵转置操作,softmax表示激活函数, 表示融合CLC类目语义信息的IPC类目交互表示向量, 表示融合IPC类目语义信息的CLC类目交互表示向量;
步骤S4中将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络,输出增强表示向量;进行增强表示见公式(6)、公式(7)、公式(8)和公式(9)所示;
(6);
(7);
(8);
(9);
其中,mipc和mclc分别表示IPC类目描述文本和CLC类目描述文本融合后的表示向量,符号 是向量拼接操作,符号‑为向量间的减法运算,⊙为向量对应元素相乘, 和 分别表示IPC类目描述文本和CLC类目描述文本增强表示向量,FFN(·)表示前馈神经网络,Bi‑LSTM(·)表示双向长短期记忆网络;
步骤S5中获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别,见公式(10)、公式(11)、公式(12)和公式(13)所示;
(10);
(11);
(12);
(13);
其中, 和 分别表示IPC类目描述文本平均池化后的表示向量和最大池化后的表示向量, 和 分别表示CLC类目描述文本平均池化后的表示向量和最大池化后的表示向量,Bi‑Pooling表示平均池化和最大池化即双池化,符号v表示所有池化后向量的拼接,描述IPC类目和CLC类目之间的映射关系,p表示在存在映射关系类别上的概率与不存在映射关系类别上的概率向量,Classifier表示三层前馈神经网络组成的分类器。
2.根据权利要求1所述的一种科技文献类目自动映射模型训练方法,其特征在于:步骤S6中交叉熵损失见公式(14)所示;
(14);
其中,Loss表示交叉熵损失,N表示训练集中样本的数量,yi表示训练集中第i条训练样本的真实类别标签,pi表示科技文献类目自动映射模型在训练集中第i条训练样本的真实类别标签yi类别上的预测概率。
3.一种科技文献类目自动映射模型预测方法,应用于权利要求2所述的科技文献类目自动映射模型训练方法,其特征在于:包括:步骤S7,对待映射的IPC类目和CLC类目进行类目号与类目描述文本分离,分别抽取IPC类目描述文本和CLC类目描述文本并进行规范化处理;
步骤S8,将步骤S7中规范化处理后的IPC类目描述文本和CLC类目描述文本输入至步骤S6中训练后的IPC类目与高关联CLC类目自动映射模型,获取是否存在映射关系的类别值。
4.一种科技文献类目自动映射模型的训练装置,应用于权利要求3所述的科技文献类目自动映射模型训练方法,其特征在于:包括:训练集模块,构造IPC类目与高关联CLC类目数据集作为训练集;训练集中每个样本由IPC类目描述文本、CLC类目描述文本和IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签组成;
预训练语言模型BERT,将训练集模块内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中,获取语义表示向量;
交互表示模块,使用点积注意力计算预训练语言模型BERT的语义表示向量的注意力矩阵,获得交互表示向量;
增强表示模块,语义表示向量和交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络获得增强表示向量;
类目映射类别预测模块,将增强表示模块的输出输入至池化层提取信息,再输入三层前馈神经网络,获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别;
模型参数调整模块,基于在存在映射关系类别上的概率与不存在映射关系类别上的概率和训练集上IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签,通过最小化在训练集上的交叉熵损失来优化IPC类目与高关联CLC类目自动映射模型的参数,以得到训练后的IPC类目与高关联CLC类目自动映射模型。
5.一种科技文献类目自动映射模型的预测装置,应用于权利要求4所述的科技文献类目自动映射模型的训练装置,其特征在于:包括:测试集数据预处理模块,对待映射的IPC类目和CLC类目进行类目号与类目描述文本分离;
分别抽取IPC类目描述文本和CLC类目描述文本并进行规范化处理,将分离后的待判断映射关系的IPC类目描述文本与CLC类目描述文本分别输入至已训练的IPC类目与高关联的CLC类目映射模型,获得映射类别标签值。