欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2021111065673
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-12-10
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种文字识别方法,其特征在于,包括:基于YOLO模型获取待识别文字对应的参考矩形图像;

基于生成式对抗网络对所述参考矩形图像进行图像增强,得到目标矩形图像;

基于直线检测模型从所述目标矩形图像中选取参考直线;

获取所述目标矩形图像中每一行文字图像的虚拟下划线;

基于所述虚拟下划线和所述参考直线确定所述行文字图像的倾斜角度;

基于光学字符识别模型对所述倾斜角度对应的行文字图像进行文字识别;

建立所述目标矩形图像的坐标系;

其中,所述获取所述目标矩形图像中每一行文字图像的虚拟下划线,包括:确定所述待识别文字的语种;

基于所述坐标系获取所述目标矩形图像中每一文字的坐标信息;

基于所述坐标信息和所述语种确定所述文字的预设间隔;

基于所述预设间隔和所述坐标信息在所述文字的下方画出子线段;

对所述子线段进行调整,得到所述目标矩形图像中每一行文字图像的虚拟下划线;

在所述基于光学字符识别模型对所述倾斜角度对应的行文字图像进行文字识别之前,所述方法还包括:确定所述待识别文字的场景信息;

基于所述场景信息确定所述待识别文字的识别精度;

从预设光学字符识别模型库中,选取与所述语种、所述识别精度和所述倾斜角度对应的所述光学字符识别模型。

2.根据权利要求1所述的方法,其特征在于,所述基于直线检测模型从所述目标矩形图像中选取参考直线,包括:基于直线检测模型获取所述目标矩形图像中的多条第一直线;

从所述多条第一直线中选取第二直线;

对所述第二直线进行聚类,得到所述目标矩形图像中的参考直线。

3.根据权利要求2所述的方法,其特征在于,所述从所述多条第一直线中选取第二直线,包括:基于所述坐标系获取所述第一直线的长度和角度;

从所述第一直线中选取所述长度大于预设长度,且所述角度属于预设角度范围的第一直线,得到第二直线。

4.根据权利要求1-3中任一项所述的方法,其特征在于,所述基于所述虚拟下划线和所述参考直线确定所述行文字图像的倾斜角度,包括:若所述参考直线与所述虚拟下划线相交,则确定所述行文字图像的倾斜角度为所述参考直线和所述虚拟下划线之间的夹角;或者若所述参考直线与所述虚拟下划线不相交,则确定所述行文字图像的倾斜角度为所述参考直线与参考轴之间的夹角,和所述虚拟下划线与所述参考轴之间的夹角的平均值;或者若所述参考直线的数量大于或等于2,则从所述参考直线中选取目标参考直线,基于所述目标参考直线和所述虚拟下划线确定所述行文字图像的倾斜角度。

5.根据权利要求1-3中任一项所述的方法,其特征在于,在所述基于YOLO模型获取待识别文字对应的参考矩形图像之前,所述方法还包括:接收用户发送的目标区域的文字识别指令;

所述基于YOLO模型获取待识别文字对应的参考矩形图像,包括:基于YOLO模型对所述目标区域进行定位,得到待识别文字的参考矩形图像。

6.一种文字识别装置,其特征在于,包括用于执行如权利要求1-5中任一项所述的方法对应的单元。

7.一种计算机设备,其特征在于,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1-5中任一项方法中的步骤的指令。

8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序使得计算机执行以实现权利要求1-5中任一项所述的方法。