1.一种合同文书的数据增广方法,其特征在于,包括:
获取合同领域数据,所述合同领域数据分成标注样本数据和未标记合同文书数据,其中,所述标注样本数据中包括样本标签;
基于所述标注样本数据和所述未标记合同文书数据,构建微调数据,并通过所述微调数据对预训练语言模型进行微调处理,得到微调后的预训练语言模型;
获取原始合同文件,并通过所述微调后的预训练语言模型对所述原始合同文件进行样本生成处理,得到新样本数据;
对所述新样本数据进行初步筛选和语义筛选,得到基础样本数据;
基于所述标注样本数据,识别所述基础样本数据中的要素标签序列,并基于所述要素标签序列,对所述基础样本数据进行筛选和迭代训练,得到目标数据;
所述基于所述标注样本数据,识别所述基础样本数据中的要素标签序列,并基于所述要素标签序列,对所述基础样本数据进行筛选和迭代训练,得到目标数据,包括:将所述标注样本数据转换为向量序列;
将所述向量序列输入到双向长短期记忆网络中进行编码处理,得到输出结果;
通过条件随机场对所述输出结果进行解码,得到解码结果,并基于所述解码结果,识别所述基础样本数据中的要素标签序列;
从所述基础样本数据中随机获取数据样本集,并基于所述要素标签序列,获取所述数据样本集的动作反馈;
基于所述动作反馈,筛选所述数据样本集,并基于所述数据样本集对所述基础样本数据进行迭代训练,得到所述目标数据。
2.根据权利要求1所述的合同文书的数据增广方法,其特征在于,所述基于所述标注样本数据和所述未标记合同文书数据,构建微调数据,并通过所述微调数据对预训练语言模型进行微调处理,得到微调后的预训练语言模型,包括:按照所述样本标签与文本作为组合的方式,将所述标注样本数据和所述未标记合同文书数据转化为多个所述组合,得到所述微调数据;
通过所述微调数据对所述预训练语言模型进行微调处理,得到所述微调后的预训练语言模型,其中,所述微调后的预训练语言模型中生成所述微调数据对应的生成数据;
将所述微调数据与所述微调数据对应的生成数据作为句子组合,通过所述微调后的预训练语言模型生成句子。
3.根据权利要求1所述的合同文书的数据增广方法,其特征在于,所述获取原始合同文件,并通过所述微调后的预训练语言模型对所述原始合同文件进行样本生成处理,得到新样本数据,包括:获取所述原始合同文件;
通过预设模型,生成所述原始合同文件对应的遮蔽文件,并通过所述微调后的预训练语言模型对所述遮蔽文件进行样本生成处理,得到候选数据集;
基于所述样本标签和所述原始合同文件构建模板prompt,并基于所述模板prompt,通过所述微调后的预训练语言模型对所述候选数据集进行样本生成处理,得到所述新样本数据。
4.根据权利要求3所述的合同文书的数据增广方法,其特征在于,所述通过预设模型,生成所述原始合同文件对应的遮蔽文件,并通过所述微调后的预训练语言模型对所述遮蔽文件进行样本生成处理,得到候选数据集,包括:对所述原始合同文件插入预设数量的字符,生成第一重建文件,且基于所述预设模型生成所述第一重建文件对应的第一遮蔽文件;
通过随机遮蔽所述原始合同文件的非停用词,得到第二重建文件,并基于所述预设模型生成所述第二重建文件对应的第二遮蔽文件;
通过所述微调后的预训练语言模型对所述第一遮蔽文件和所述第二遮蔽文件进行样本生成处理,得到样本生成数据集;
通过对所述样本生成数据集进行筛选,得到所述候选数据集。
5.根据权利要求1所述的合同文书的数据增广方法,其特征在于,所述对所述新样本数据进行初步筛选和语义筛选,得到基础样本数据,包括:识别所述新样本数据与所述原始合同文件中的核心谓词和否定词,并判定所述核心谓词和所述否定词是否发生变化;
若所述核心谓词和所述否定词发生变化,则将所述核心谓词和所述否定词发生变化所对应的新样本数据作为初步筛选数据;
获取所述初步筛选数据与所述原始合同文件的语义信息;
基于所述语义信息对所述初步筛选数据进行语义筛选处理,得到所述基础样本数据。
6.根据权利要求1所述的合同文书的数据增广方法,其特征在于,所述通过条件随机场对所述输出结果进行解码,得到解码结果,并基于所述解码结果,识别所述基础样本数据中的要素标签序列,包括:通过条件随机场对所述输出结果进行解码,得到所述解码结果,并预测所述解码结果中的要素标签序列,得到候选要素标签序列;
采用最小贝叶斯风险对所述候选要素标签序列进行筛选,得到所述要素标签序列。
7.一种合同文书的数据增广装置,其特征在于,包括:
合同领域数据获取模块,用于获取合同领域数据,所述合同领域数据分成标注样本数据和未标记合同文书数据,其中,所述标注样本数据中包括样本标签;
语言模型微调处理模块,用于基于所述标注样本数据和所述未标记合同文书数据,构建微调数据,并通过所述微调数据对预训练语言模型进行微调处理,得到微调后的预训练语言模型;
新样本数据生成模块,用于获取原始合同文件,并通过所述微调后的预训练语言模型对所述原始合同文件进行样本生成处理,得到新样本数据;
新样本数据筛选模块,用于对所述新样本数据进行初步筛选和语义筛选,得到基础样本数据;
目标数据生成模块,用于基于所述标注样本数据,识别所述基础样本数据中的要素标签序列,并基于所述要素标签序列,对所述基础样本数据进行筛选和迭代训练,得到目标数据;
所述目标数据生成模块包括:
向量序列转换单元,用于将所述标注样本数据转换为向量序列;
输出结果生成单元,用于将所述向量序列输入到双向长短期记忆网络中进行编码处理,得到输出结果;
要素标签序列识别单元,用于通过条件随机场对所述输出结果进行解码,得到解码结果,并基于所述解码结果,识别所述基础样本数据中的要素标签序列;
动作反馈获取单元,用于从所述基础样本数据中随机获取数据样本集,并基于所述要素标签序列,获取所述数据样本集的动作反馈;
数据增广单元,用于基于所述动作反馈,筛选所述数据样本集,并基于所述数据样本集对所述基础样本数据进行迭代训练,得到所述目标数据。
8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的合同文书的数据增广方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的合同文书的数据增广方法。