1.一种基于语句通顺性的残断汉简图像缀合方法,其特征在于,包括以下步骤:A:对待缀合的汉简图像进行图像特征标注,图像特征包括缺失部位信息、纹路信息和文字内容类型;
其中,缺失部位信息是指汉简图像所对应汉简的缺失部位;纹路信息是指汉简图像所对应汉简上的竖向纹路的位置及数量信息;文字内容类型是指汉简图像中文字内容的类型;
B:利用现有的汉简图像的释文数据集构建训练集,并利用训练集对BERT预训练语言模型进行调优训练,得到调优训练后的BERT语言模型;
C:针对指定的残断汉简图像A,通过对图像特征中的缺失部位信息、纹路信息和文字内容类型的对比,在汉简图像A的缺失部位为缺上或缺下时,保留与汉简图像A缺失部位相对应且纹路信息和文字内容类型均相匹配的所有待缀合汉简图像,作为汉简图像A的待缀合比对组;在汉简图像A的缺失部位为缺左或缺右时,保留与汉简图像A缺失部位相对应且文字内容类型相匹配的所有待缀合汉简图像,作为汉简图像A的待缀合比对组;待缀合比对组内包含有一个或多个待缀合汉简图像;
D:利用调优训练后的BERT语言模型,将汉简图像A与汉简图像A的待缀合比对组内的汉简图像逐一进行语句通顺性检测,得到与汉简图像A语言通顺性最高的N个待选汉简图像,作为与汉简图像A缀合度最高的N个待选汉简图像;N为设定的待选汉简图像数量阈值。
2.根据权利要求1所述的基于语句通顺性的残断汉简图像缀合方法,其特征在于,所述的步骤B包括以下具体步骤:
B1:获取现有的汉简图像的释文数据集,汉简图像的释文数据集由若干段语句组成;
B2:对每段语句中的文字信息进行数据清洗,得到去除未知字符、空格、括号及括号中内容的由纯文字组成的释文数据集,作为数据清洗后的汉简图像的释文数据集;
B3:将数据清洗后的汉简图像的释文数据集中的繁体字转化为简体字,然后将繁转简处理后的数据集中未出现在BERT词表中的文字经去重后,补入BERT词表中;
B4:在繁转简处理后的汉简图像的释文数据集中,仅保留段落中文字数量大于等于文字数量阈值的每段语句,并根据保留下的每段语句建立训练集;
B5:依据得到的训练集,构建BERT语言模型训练所需的正负样本;
B6:利用得到的正样本和负样本,对BERT预训练语言模型进行调优训练,最终得到调优训练后的BERT语言模型。
3.根据权利要求2所述的基于语句通顺性的残断汉简图像缀合方法,其特征在于,所述的步骤B5中,按照下述方法构建BERT语言模型训练所需的正负样本:首先,将训练集中的每段语句分别输入到句读系统中,利用句读系统对每段语句中的文字进行标点符号标注;
然后,根据已标注标点符号后的整段语句,按照下述方法构建正样本:(1)寻找整段语句中的句号,通过一个或多个句号将整段语句划分为一句或多句语句;
(2)寻找每句语句中的逗号;
若整句语句中没有逗号,则随机选取整句语句中的前若干个文字作为正样本的第一划分句,剩余文字作为第二划分句;
若整句语句中存在逗号,则通过一个或多个逗号将整句语句划分为两个或多个子句;
然后将整句语句中的两个或多个子句,按照顺序分别划分为正样本的第一划分句和第二划分句,其中,正样本的第一划分句至少包含一个子句,正样本的第二划分句至少包含一个子句;
最终构建得到CSV格式的正样本数据集,正样本的表达式为[S1,S2,1];其中,S1表示正样本的第一划分句,S2表示正样本的第二划分句,标签1表示正样本;
最后,按照下述方法构建负样本:
(1)从两段不同的语句中随机选取子句作为负样本的第一划分句和第二划分句,其中,负样本的第一划分句至少包含一个子句,第二划分句至少包含一个子句;
(2)从包含句号的整段语句中,选择句号之前的句子中最后一个或多个子句作为负样本的第一划分句,然后选择句号之后的句子中最前一个或多个子句作为负样本的第二划分句;
最终构建得到CSV格式的负样本数据集,负样本的表达式为[S3,S4,0];其中,S3表示负样本的第一划分句,S4表示负样本的第二划分句,标签0表示负样本。
4.根据权利要求1所述的基于语句通顺性的残断汉简图像缀合方法,其特征在于,所述的步骤D包括以下具体步骤:
D1:提取汉简图像A与待缀合比对组中所有汉简图像上的文字信息并进行数据清洗,将文字信息中出现的未知字符、空格、括号及括号中的内容删除;然后将清洗后的文字信息中的繁体字转化为简体字;
D2:根据文字信息在汉简图像A中出现的位置,按照从右至左且从上至下的顺序,依次将经繁转简处理后的汉简图像A的文字信息划分为若干文本列,并利用文本列构建汉简图像A的文本列集合S,S={S1,S2,…,Sm},S1至Sm分别表示汉简图像A中从右至左的第1列至第m列文字信息;
将待缀合比对组中的第一幅汉简图像B,按照相同的方法构建汉简图像B的文本列集合T,T={T1,T2,…,Tn},T1至Tn分别表示汉简图像B中从右至左的第1列至第n列文字信息;
D3:计算汉简图像A与汉简图像B在各种相互位置关系及文本列对应状态下的语句通顺性最大值;
D4:根据按照上述方法,依次计算出汉简图像A与待缀合比对组内的所有汉简图像,在各种相互位置关系下及对齐状态下对应的语句通顺性数值,并选取与汉简图像A语句通顺性数值最高的N个待选汉简图像,作为与汉简图像A缀合度最高的N个待选汉简图像。
5.根据权利要求4所述的基于语句通顺性的残断汉简图像缀合方法,其特征在于:所述的步骤D3中,若汉简图像A为缺下,汉简图像B为缺上;则将汉简图像A的第1列文本列S1与汉简图像B的第1列文本列T1上下对应,然后将文本列S1和文本列T1中的文字按照顺序进行连接形成字符串,再将字符串输入句读系统进行标点符号标注,然后判断文本列S1和文本列T1中文字的连接处是否标注有符号:若连接处未标注任何符号,则选取连接处所在的子句,以该子句在连接处前的文字和连接处后的文字作为S1‑T1位置下的待预测子句对;
若连接处标注的符号为句号或逗号,则选取句号或逗号的前后各一个子句作为S1‑T1位置下的待预测子句对;
将S1‑T1位置下的待预测子句对输入调优训练后的BERT语言模型,得到语句通顺性数值NSP(S1,T1);然后按照上述方法求得S2‑T2位置下的待预测子句对并输入调优训练后的BERT语言模型,得到语句通顺性数值NSP(S2,T2),…,求得Sm‑Tn位置下的待预测子句对并输入调优训练后的BERT语言模型,得到语句通顺性数值NSP(Sm,Tn);(Sm,Tn)表示当前对齐状态为文本列Sm与文本列Tn上下对应;
然后,按照上述方法将汉简图像A的第2列文本列S2与汉简图像B的第1列文本列T1上下对应,求得S2‑T1位置下的待预测子句对并输入调优训练后的BERT语言模型中,得到语句通顺性数值NSP(S2,T1);求得S3‑T2位置下的待预测子句对并输入调优训练后的BERT语言模型中,得到语句通顺性数值NSP(S3,T2),…,求得Sm‑Tn‑1位置下的待预测子句对并输入调优训练后的BERT语言模型中,得到语句通顺性数值NSP(Sm,Tn‑1);
以此类推;直至将汉简图像A的第m列文本列Sm与汉简图像B的第1列文本列T1上下对应,再求得Sm‑T1位置下的待预测子句对并输入调优训练后的BERT语言模型中,得到语句通顺性数值NSP(Sm,T1);
同理,按照上述方法,依次得到汉简图像A的第1列文本列S1与汉简图像B的第2列文本列T2上下对应后,S1‑T2位置下对应的语句通顺性数值NSP(S1,T2),S2‑T3位置下对应的语句通顺性数值NSP(S2,T3),…,Sm‑1‑Tn位置下对应的语句通顺性数值NSP(Sm‑1,Tn);
以此类推;直至将汉简图像A的第1列文本列S1与汉简图像B的第n列文本列Tn上下对应后,S1‑Tn位置下对应的语句通顺性数值NSP(S1,Tn);
最终得到汉简图像A与汉简图像B的所有对齐状态下的语句通顺性数值NSP(S1,T1),NSP(S2,T2),…,NSP(Sm,Tn);NSP(S2,T1),NSP(S3,T2),…,NSP(Sm,Tn‑1);…,NSP(Sm,T1);NSP(S1,T2),NSP(S2,T3),…,NSP(Sm‑1,Tn);…,NSP(S1,Tn);
若汉简图像A为缺上,汉简图像B为缺下;则按照上述方法,依次获得汉简图像B与汉简图像A的所有对齐状态下的语句通顺性数值NSP(T1,S1),NSP(T2,S2),…,NSP(Tn,Sm);NSP(T2,S1),NSP(T3,S2),…,NSP(Tn,Sm‑1);…,NSP(Tn,S1);NSP(T1,S2),NSP(T2,S3),…,NSP(Tn‑1,Sm);…,NSP(T1,Sm);
若汉简图像A为缺左,汉简图像B为缺右时,则将从汉简图像A的第m列文本列Sm与汉简图像B的第1列文本列T1中得到的Sm‑T1位置下的待预测子句,输入调优训练后的BERT语言模型,得到语句通顺性数值NSP(Sm,T1),此时(Sm,T1)表示当前对齐状态为文本列Sm与文本列T1右左分布;
若汉简图像A为缺右,汉简图像B为缺左时,则将从汉简图像A的第1列文本列S1与汉简图像B的第n列文本列Tn中得到的S1‑Tn位置下的待预测子句,输入调优训练后的BERT语言模型,得到语句通顺性数值NSP(S1,Tn),此时(S1,Tn)表示当前对齐状态为文本列S1与文本列Tn左右分布。
6.根据权利要求1所述的基于语句通顺性的残断汉简图像缀合方法,其特征在于:所述的步骤C中,在进行图像特征中的缺失部位信息、纹路信息和文字内容类型的对比时:在汉简图像A的缺失部位为缺上或缺下时,同时考虑缺失部位信息、纹路信息和文字内容类型三个因素,仅保留纹路信息与汉简图像A的纹路信息相匹配,且文字内容类型与汉简图像A的文字内容类型相同,且缺失部位与汉简图像A缺失部位相对应的待缀合汉简图像作为待缀合比对组;
在汉简图像A的缺失部位为缺左或缺右时,同时考虑缺失部位信息和文字内容类型两个因素,仅保留文字内容类型与汉简图像A的文字内容类型相同,且缺失部位与汉简图像A缺失部位相对应的待缀合汉简图像作为待缀合比对组;
纹路信息相匹配,是指两个汉简图像中汉简上竖向纹路的位置相对应,竖向纹路的数量相同;文字内容类型相同,是指两个汉简图像的文字内容类型同为书信或其他相同类型。
7.根据权利要求2所述的基于语句通顺性的残断汉简图像缀合方法,其特征在于:所述的正样本和负样本的数量比例为1:3。
8.根据权利要求2所述的基于语句通顺性的残断汉简图像缀合方法,其特征在于:所述的数据清洗包括如下操作:
(1)删除语句中出现的未知字符;
(2)删除语句中出现的空格;
(3)删除语句中的括号及括号中的内容。
9.根据权利要求2所述的基于语句通顺性的残断汉简图像缀合方法,其特征在于:所述的步骤B3中,利用OPENCC程序进行繁体转简体操作。
10.根据权利要求2所述的基于语句通顺性的残断汉简图像缀合方法,其特征在于:所述的步骤B4中,文字数量阈值为4。