欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 202011604257X
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-12-10
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种文本标点纠正方法,其特征在于,包括:获取目标文本内容,所述目标文本内容为用户输入的需要进行标点纠正处理的文本内容;

分别采用预先配置的错误检测规则引擎以及预先训练好的错误检测模型对所述目标文本内容进行标点错误检测,对应获得第一检测结果和第二检测结果;

通过将所述第一检测结果与所述第二检测结果进行比对合并,获取与所述目标文本内容对应的错误标点列表,根据所述错误标点列表对所述目标文本内容进行标点纠正处理。

2.根据权利要求1所述的文本标点纠正方法,其特征在于,采用预先配置的错误检测规则引擎对所述目标文本内容进行标点错误检测的步骤,包括:在所述目标文本内容中获取待检测标点;

按照所述待检测标点遍历基于通用规范标点配置的第一错误类型表,判断所述待检测标点是否属于所述第一错误类型表中的至少一种错误类型;和/或按照所述待检测标点遍历基于文本标点搭配配置的第二错误类型表,判断所述待检测标点是否属于所述第二错误类型表中的至少一种错误类型;

若所述待检测标点属于所述第一错误类型表中的至少一种错误类型和/或所述待检测标点属于所述第二错误类型表中的至少一种错误类型,则在所述第一检测结果中标记所述待检测标点为错误标点。

3.根据权利要求1或2所述的文本标点纠正方法,其特征在于,采用预先训练好的错误检测模型对所述目标文本内容进行标点错误检测的步骤,包括:按标点将所述目标文本内容拆解成无标点句段;

在所述目标文本内容中获取待检测标点,将所述待检测标点前后两个无标点句段进行拼装,获得用于检测所述待检测标点的待检测语句;

采用预先训练好的嵌入模型对获得的待检测语句进行向量化处理,获得用于表征所述待检测语句的向量矩阵;

采用预先训练好的双向长短期记忆网络模型对所述向量矩阵进行分类预测处理,以基于所述待检测语句获取与所述待检测标点对应的预测标点类型;

将所述预测标点类型与所述待检测标点进行比对,若所述待检测标点与所述预测标点类型不一致,则在所述第二检测结果中标记所述待检测标点为错误标点。

4.根据权利要求3所述的文本标点纠正方法,其特征在于,所述采用预先训练好的嵌入模型对获得的待检测语句进行向量化处理,获得用于表征所述待检测语句的向量矩阵的步骤之前,还包括:

识别所述待检测语句的序列长度;

将所述待检测语句的序列长度与预设的序列长度阈值进行比对,获取比对结果;

若所述比对结果为待检测语句的序列长度小于所述预设的序列长度阈值,则对所述待检测语句进行填充处理,使所述待检测语句的序列长度与所述预设的序列长度阈值一致;

若所述比对结果为待检测语句的序列长度大于所述预设的序列长度阈值,则对所述待检测语句进行截断处理,使所述待检测语句的序列长度与所述预设的序列长度阈值一致。

5.根据权利要求3所述的文本标点纠正方法,其特征在于,所述采用预先训练好的嵌入模型对获得的待检测语句进行向量化处理,获得用于表征所述待检测语句的向量矩阵的步骤,包括:

基于嵌入模型内置的Embedding词表获取所述待检测语句的ID序列,并根据所述ID序列遍历所述Embedding词表,获取所述ID序列中每个ID对应的Embedding向量;

将所述每个ID对应的Embedding向量进行拼接处理,获得用于表征所述待检测语句的向量矩阵。

6.根据权利要求4所述的文本标点纠正方法,其特征在于,所述采用预先训练好的双向长短期记忆网络模型对所述向量矩阵进行分类预测处理,以基于所述待检测语句获取与所述待检测标点对应的预测标点类型的步骤,包括:对所述向量矩阵进行双向特征提取,获得所述向量矩阵所表征的待检测语句的上下文特征;

按照所述双向长短期记忆网络模型中预设的标点类型将所述上下文特征转化为标点类型对应的维度向量;

采用softmax函数将所述标点类型对应的维度向量归一化成概率值,获取最大概率值对应维度表示的标点类型作为与所述待检测标点对应的预测标点类型。

7.根据权利要求3所述的文本标点纠正方法,其特征在于,所述通过将所述第一检测结果与所述第二检测结果进行比对合并,获取与所述目标文本内容对应的错误标点列表,根据所述错误标点列表对所述目标文本内容进行标点纠正处理的步骤,包括:判断所述待检测标点是否属于所述预先配置的错误检测规则引擎的检测范围内,若是,则在将所述第一检测结果与所述第二检测结果进行比对合并时对于所述待检测标点采用所述第一检测结果进行合并。

8.一种文本标点纠正装置,其特征在于,包括:获取模块,用于获取目标文本内容,所述目标文本内容为用户输入的需要进行标点纠正处理的文本内容;

检测模块,用于分别采用预先配置的错误检测规则引擎以及预先训练好的错误检测模型对所述目标文本内容进行标点错误检测,对应获得第一检测结果和第二检测结果;

纠正模块,用于通过将所述第一检测结果与所述第二检测结果进行比对合并,获取与所述目标文本内容对应的错误标点列表,根据所述错误标点列表对所述目标文本内容进行标点纠正处理。

9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。