欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2018108347507
申请人: 徐庆
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-12-10
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种形近字识别判定方法,其特征在于,包括:获取输入元素;所述输入元素为输入图像或输入文字;其中,在所述输入元素为输入文字的情况下,按预设书写字体对所述输入文字进行图像转换,得到输入图像;

对所述输入元素进行识别,提取所述输入元素的关联信息,并获取所述输入元素对应的文字;所述输入元素的关联信息包括图像特征描述符、图像特征描述符最小单元以及组合单元数据;所述图像特征描述符为对图像特征进行描述而得到的一组或多组字符串的集合;所述图像特征描述符最小单元为所述图像特征描述符的每一图像特征点所对应的每一个或多个字符串;所述组合单元数据为按照预设最小单元组合规则对各最小单元进行组合得到的组合单元;

对所述输入元素对应的文字进行笔顺编码,得到整体笔顺组合单元;

对所述整体笔顺组合单元进行笔顺分词处理,得到局部笔顺组合单元;所述整体笔顺组合单元为笔顺字符串;所述笔顺分词处理包括对所述笔顺字符串进行最小连笔单位的笔画做分割处理和对所述最小连笔单位的笔画编码做组合处理;

以所述整体笔顺组合单元和所述局部笔顺组合单元为关键词,检索样本图像数据库,得到匹配的样本文字,并获取所述样本文字对应的样本图像的关联信息;所述样本图像的关联信息包括所述样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;

将所述样本文字确认为所述输入元素的笔顺形近字,将所述样本图像的关联信息确认为所述笔顺形近字的关联信息;根据所述输入元素的关联信息和所述笔顺形近字的关联信息、进行所述输入元素与所述样本图像的图像特征比对,得到所述笔顺形近字的图像特征近似率;

将所述图像特征近似率符合应用要求的所述笔顺形近字,确认为所述输入元素的形近字。

2.根据权利要求1所述的形近字识别判定方法,其特征在于,所述预设书写字体包括宋体、黑体以及已知的各种字体;

所述样本图像包括各字体形式的任一汉语文字所构成的图样、各字体形式的任一非汉语文字所构成的图样、任一具有文字含义的商标图样、任一具有文字含义的外观设计图样、任一具有文字含义的著作权登记的美术作品图样以及自定义图像;所述样本文字包括汉语文字、非汉语文字;

所述样本图像数据库包括所述样本文字,所述样本文字的整体笔顺组合单元和局部笔顺组合单元以及所述样本文字对应的样本图像;所述样本图像数据库还包括所述样本图像对应的样本文字,所述样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;

对所述笔顺字符串进行最小连笔单位的笔画做分割处理的步骤包括:对所述笔顺字符串的最小连笔单位的笔画进行识别,将所述笔顺字符串中的最小连笔单位的笔画分割出来;

对所述最小连笔单位的笔画编码做组合处理的步骤包括:对所述最小连笔单位的笔画编码按照预设的组合规则进行组合,得到所述局部笔顺组合单元;其中,所述局部笔顺组合单元指笔顺编码所表示的文字的任一局部笔画所构成的多个文字部件及其笔画顺序;所述预设的组合规则包括:每一文字的整体笔顺编码视为该文字的整体组合单元,每一文字预设笔画数的组合视为该文字的局部部件组合单元;所述预设笔画数的取值范围为大于或等于2;

在对输入元素进行识别,提取所述输入元素的关联信息,并获取所述输入元素对应的文字的步骤之前还包括步骤:

建立所述样本图像数据库。

3.根据权利要求2所述的形近字识别判定方法,其特征在于,所述整体笔顺组合单元为按规范笔画书写顺序编码形成的笔顺字符串;所述笔顺字符串为笔顺数字串、笔顺字母串或笔顺符号串。

4.根据权利要求2所述的形近字识别判定方法,其特征在于,建立所述样本图像数据库的步骤包括:

对所述样本图像进行图像特征描述符分割处理,得到所述样本图像的各图像特征描述符最小单元;所述图像特征描述符最小单元为对应所述图像特征描述符所表示的任一图像特征点的一个或多个字符串;

按照预设最小单元组合规则对各所述图像特征描述符最小单元进行组合,得到所述样本图像的各组合单元数据;

以及

获取所述样本图像对应的样本文字的整体笔顺组合单元、局部笔顺组合单元。

5.根据权利要求1至4任意一项所述的形近字识别判定方法,其特征在于,根据所述输入元素的关联信息和所述笔顺形近字的关联信息、进行所述输入元素与所述样本图像的图像特征比对,得到所述笔顺形近字的图像特征近似率的步骤包括:获取所述输入元素与所述笔顺形近字的图像特征描述符最小单元匹配率、图像特征描述符最小单元不匹配率;其中,所述图像特征描述符最小单元匹配率是指输入元素的图像特征描述符最小单元与笔顺形近字的图像特征描述符最小单元相匹配的比率;所述图像特征描述符最小单元不匹配率是指输入元素的图像特征描述符最小单元与笔顺形近字的图像特征描述符最小单元不相匹配的比率;

将所述图像特征描述符最小单元匹配率减除所述图像特征描述符最小单元不匹配率所得的比率,确定为所述图像特征近似率。

6.根据权利要求5所述的形近字识别判定方法,其特征在于,获取所述输入元素与所述笔顺形近字的图像特征描述符最小单元匹配率、图像特征描述符最小单元不匹配率的步骤包括:

获取所述输入元素的图像特征描述符最小单元的总数,所述笔顺形近字匹配所述输入元素的图像特征描述符最小单元合计数,所述笔顺形近字不匹配所述输入元素的图像特征描述符最小单元合计数;

基于以下公式得到所述图像特征描述符最小单元匹配率:Ma=(Ua÷U0)×100%

其中,Ma表示所述图像特征描述符最小单元匹配率,U0表示所述输入元素的图像特征描述符最小单元的总数,Ua表示所述笔顺形近字匹配所述输入元素的图像特征描述符最小单元合计数;

基于以下公式得到所述图像特征描述符最小单元不匹配率:Mi=(Uc÷U0)×100%+(n‑1)×ω其中,Mi表示所述图像特征描述符最小单元不匹配率,U0表示所述输入元素的图像特征描述符最小单元的总数,Uc表示所述笔顺形近字不匹配所述输入元素的图像特征描述符最小单元合计数,n表示所述笔顺形近字与所述输入元素在图像特征线最小单元组合连线上所不相匹配的处数,ω表示所述处数的权数;其中,ω的取值范围为小于或等于90%。

7.根据权利要求5所述的形近字识别判定方法,其特征在于,根据所述图像特征描述符最小单元匹配率和所述图像特征描述符最小单元不匹配率,得到图像特征近似率的步骤包括:

基于以下公式,得到所述图像特征近似率:M=Ma‑Mi×β

其中,M表示所述图像特征近似率,Ma表示所述图像特征描述符最小单元匹配率,Mi表示所述图像特征描述符最小单元不匹配率,β表示Mi的权数;其中,β的取值范围为小于或等于

90%。

8.根据权利要求5所述的形近字识别判定方法,其特征在于,将所述图像特征近似率符合应用要求的所述笔顺形近字,确认为所述输入元素的形近字的步骤之前还包括步骤:选取出所述图像特征描述符最小单元匹配率大于匹配率阈值,且所述图像特征描述符最小单元不匹配率小于不匹配率阈值的笔顺形近字;

将所述图像特征近似率符合应用要求的所述笔顺形近字,确认为所述输入元素的形近字的步骤包括:

根据所述图像特征近似率对各所述笔顺形近字进行排序,将满足预设排序名次的笔顺形近字所对应的文字确认为所述输入元素的形近字。

9.根据权利要求8所述的形近字识别判定方法,其特征在于,所述匹配率阈值为30%;

所述不匹配率阈值为70%;所述预设排序名次为小于300。

10.一种形近字识别判定装置,其特征在于,包括:识别提取模块,用于获取输入元素;所述输入元素为输入图像或输入文字;其中,在所述输入元素为输入文字的情况下,按预设书写字体对所述输入文字进行图像转换,得到输入图像;以及对所述输入元素进行识别,提取所述输入元素的关联信息,并获取所述输入元素对应的文字;所述输入元素的关联信息包括图像特征描述符、图像特征描述符最小单元以及组合单元数据;所述图像特征描述符为对图像特征进行描述而得到的一组或多组字符串的集合;所述图像特征描述符最小单元为所述图像特征描述符的每一图像特征点所对应的每一个或多个字符串;所述组合单元数据为按照预设最小单元组合规则对各最小单元进行组合得到的组合单元;

编码模块,用于对所述输入元素对应的文字进行笔顺编码,得到整体笔顺组合单元;

分词模块,用于对所述整体笔顺组合单元进行笔顺分词处理,得到局部笔顺组合单元;

所述整体笔顺组合单元为笔顺字符串;所述笔顺分词处理包括对所述笔顺字符串进行最小连笔单位的笔画做分割处理和对所述最小连笔单位的笔画编码做组合处理;

检索模块,用于以所述整体笔顺组合单元和所述局部笔顺组合单元为关键词,检索样本图像数据库,得到匹配的样本文字,并获取所述样本文字对应的样本图像的关联信息;所述样本图像的关联信息包括所述样本图像的图像特征描述符、图像特征描述符最小单元以及组合单元数据;

图像特征近似率获取模块,用于将所述样本文字确认为所述输入元素的笔顺形近字,将所述样本图像的关联信息确认为所述笔顺形近字的关联信息;根据所述输入元素的关联信息和所述笔顺形近字的关联信息、进行所述输入元素与所述样本图像的图像特征比对,得到所述笔顺形近字的图像特征近似率;

选取模块,用于将所述图像特征近似率符合应用要求的所述笔顺形近字,确认为所述输入元素的形近字。

11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。

12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。