1.一种合同文书语法的纠错方法,其特征在于,包括:
收集合同领域数据,并基于所述合同领域数据,创建合同文书纠错数据集,其中,所述合同文书纠错数据集包括未登录词库、混淆数据集以及合同纠错数据集;
获取待处理合同数据,识别出所述待处理合同数据中的待处理错误语句;
基于所述合同文书纠错数据集,获取正确合同语句和标注合同语句,并将所述正确合同语句、所述标注合同语句以及所述待处理错误语句输入预设模型中进行训练,以识别出所述待处理错误语句对应的错误类型;
获取所述错误类型对应的纠错方式,通过所述纠错方式对所述待处理错误语句进行纠错处理,得到正确合同文书;
爬取所述正确合同文书中每一词语的释义,生成纠错释义知识库;
其中,所述收集合同领域数据,并基于所述合同领域数据,创建合同文书纠错数据集,包括:获取所述合同领域数据,将所述合同领域数据中的字符进行两两组合,得到候选词;
构建所述候选词的前缀字典树和后缀字典树,其中,所述前缀字典树和所述后缀字典树以单个字符为节点,每个所述节点记录从根节点到当前节点构成词汇出现的频次;
获取所述前缀字典树和所述后缀字典树的频次列表,并计算每一所述候选词以及所述候选词构成片段的左右信息熵;
基于所述左右信息熵和所述频次列表,从所述合同领域数据中筛选出未登录词,得到所述未登录词库;
构建所述合同领域数据的所述混淆数据集以及所述合同纠错数据集。
2.根据权利要求1所述的合同文书语法的纠错方法,其特征在于,所述构建所述合同领域数据的所述混淆数据集以及所述合同纠错数据集,包括:将所述合同领域数据返回开发端,以使得所述开发端对所述合同领域数据进行标注校对,得到所述混淆数据集;
识别合同领域数据中的错误语句以及所述错误语句对应的错误类型;
根据所述错误类型以及所述混淆数据集,对所述错误语句进行纠错处理,得到初始数据集,其中,所述初始数据集中包括多个合同文书数据集;
计算所述初始数据集中每一所述合同文书数据集的困惑度,并基于所述困惑度对所述合同文书数据集进行筛选,得到所述合同纠错数据集。
3.根据权利要求1所述的合同文书语法的纠错方法,其特征在于,所述获取待处理合同数据,识别出所述待处理合同数据中的待处理错误语句,包括:获取所述待处理合同数据;
对所述待处理合同数据进行分词处理和实体识别处理,判断所述待处理合同数据是否存在错误词语;
若存在所述错误词语,则统计所述错误词语对应的错误词频,并判断所述错误词语是否属于所述未登录词库中的未登录词;
若所述错误词语属于所述未登录词且所述错误词频超过预设阈值,则获取所述错误词语对应的语句,作为所述待处理错误语句。
4.根据权利要求1所述的合同文书语法的纠错方法,其特征在于,所述基于所述合同文书纠错数据集,获取正确合同语句和标注合同语句,并将所述正确合同语句、所述标注合同语句以及所述待处理错误语句输入预设模型中进行训练,以识别出所述待处理错误语句对应的错误类型,包括:基于所述合同文书纠错数据集,获取所述正确合同语句和所述标注合同语句;
将所述正确合同语句、所述标注合同语句以及所述待处理错误语句输入序列化标注模型中进行训练,以使得识别所述待处理错误语句对应的错误类型标签序列;
基于所述错误类型标签序列,生成所述待处理错误语句对应的错误类型。
5.根据权利要求1至4任一项所述的合同文书语法的纠错方法,其特征在于,所述错误类型包括缺失错误、冗余错误以及机构名错误,所述获取所述错误类型对应的纠错方式,通过所述纠错方式对所述待处理错误语句进行纠错处理,得到正确合同文书,包括:若所述错误类型为所述缺失错误,则获取预训练语言模型中的填补词语,并通过所述填补词语对所述待处理错误语句进行纠错处理,得到所述正确合同文书;
若所述错误类型为所述冗余错误,则识别所述待处理错误语句的起始错误位置和结束错误位置,并删除所述起始错误位置至所述结束错误位置上对应的字符,得到所述正确合同文书;
若所述错误类型为机构名错误,则通过法律知识图谱构建目标前缀字典树,并根据所述目标前缀字典树中的编辑距离,筛选出候选实体,且通过所述候选实体对待处理错误语句进行纠错处理,得到所述正确合同文书。
6.根据权利要求5所述的合同文书语法的纠错方法,其特征在于,所述若所述错误类型为所述缺失错误,则获取预训练语言模型中的填补词语,并通过所述填补词语对所述待处理错误语句进行纠错处理,得到所述正确合同文书,包括:若所述错误类型为所述缺失错误,则获取合同专业文件,并通过所述合同专业文件微调所述预训练语言模型;
通过集束搜索算法预测所述预训练语言模型中的填补词语集,其中,填补词语集中包括多个所述填补词语;
识别所述待处理错误语句对应的缺失位置,通过多个所述填补词语对所述缺失位置进行填补,得到填补数据集,其中,所述填补数据集包括多个填补数据;
计算所述填补数据集中填补数据的困惑度,得到目标困惑度,并基于所述目标困惑度对所述填补数据进行筛选,得到所述正确合同文书。
7.一种合同文书语法的纠错装置,其特征在于,包括:
合同文书纠错数据集创建模块,用于收集合同领域数据,并基于所述合同领域数据,创建合同文书纠错数据集,其中,所述合同文书纠错数据集包括未登录词库、混淆数据集以及合同纠错数据集;
待处理错误语句识别模块,用于获取待处理合同数据,识别出所述待处理合同数据中的待处理错误语句;
错误类型识别模块,用于基于所述合同文书纠错数据集,获取正确合同语句和标注合同语句,并将所述正确合同语句、所述标注合同语句以及所述待处理错误语句输入预设模型中进行训练,以识别出所述待处理错误语句对应的错误类型;
正确合同文书生成模块,用于获取所述错误类型对应的纠错方式,通过所述纠错方式对所述待处理错误语句进行纠错处理,得到正确合同文书;
纠错释义知识库生成模块,用于爬取所述正确合同文书中每一词语的释义,生成纠错释义知识库;其中,合同文书纠错数据集创建模块包括:
候选词生成单元,用于获取所述合同领域数据,将所述合同领域数据中的字符进行两两组合,得到候选词;
字典树构建单元,用于构建所述候选词的前缀字典树和后缀字典树,其中,所述前缀字典树和所述后缀字典树以单个字符为节点,每个所述节点记录从根节点到当前节点构成词汇出现的频次;
信息熵计算单元,用于获取所述前缀字典树和所述后缀字典树的频次列表,并计算每一所述候选词以及所述候选词构成片段的左右信息熵;
未登录词筛选单元,用于基于所述左右信息熵和所述频次列表,从所述合同领域数据中筛选出未登录词,得到所述未登录词库;
数据集构建单元,用于构建所述合同领域数据的所述混淆数据集以及所述合同纠错数据集。
8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的合同文书语法的纠错方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的合同文书语法的纠错方法。