1.一种复杂自然场景图像中的文字检测方法,其特征在于,包括以下步骤:
S1、进行图像数据预处理,准备好包含不同形状文字图像的数据集;
S2、构建网络框架采用基于批量规格化的VGG‑16的全卷积网络架构作为骨干,模型在译码部分有跳过连接,与U‑net类似,因为它聚合低级特性,对于VGG‑16,使用4个上采样比的卷积特征图作为最终的卷积图,最终输出有两个分支:字符检测分支和文字行检测分支;
图像首先送入一个全卷积神经网络进行特征提取,再由文字判别模块对输入文字框进行文字检测;
S3、对模型进行预训练,引入信息迁移机制对模型进行预训练;
S4、训练网络框架:训练深度神经网络来预测字符区域;
S5、生成文字真实标签:对于每一幅训练图像,使用字符级边界框生成字符区域得分,字符区域得分表示给定像素为字符中心的概率;
S6、输入一张待检测的自然场景下的文字图像;
S7、将S6中的文字图像首先送入S2中的全卷积神经网络进行特征提取,再由文字判别模块对输入文字框进行文字检测;
S8、根据判定结果决定将图像送入文字行检测分支或字符检测分支;
字符检测分支检测步骤如下:首先输入一张待检测的图像,则卷积神经网络会生成字符区域得分,字符区域得分用于定位图像中的单个字符,这一步骤在训练时需要相应的字符级标签,但字符的边界标注非常复杂以及耗时,与合成数据集不同,数据集中的真实图像通常有单词级别的标注,故设计了一个信息迁移机制,它在现有的附有单词标注的真实图像中,迁移学习文字图像的字符区域得分,生成字符级边界框,迁移学习步骤如下:B1、从原始图像中裁剪出字符级图像;
B2、最新训练的模型预测字符区域得分;
B3、使用分水岭算法分割字符区域,使字符边界框覆盖图像上的文字区域;
B4、使用裁剪步骤的反变换将字符框的坐标转换回原始图像坐标;
B5、利用获得的四边形字符级边界盒,生成字符区域得分的伪真实值;
该过程迭代实现,逐步增强模型的字符检测能力,进而不断提高字符区域得分的伪真实值的质量,当使用信息迁移机制训练模型时,被迫使用不完全伪真实值进行训练,因为如果用不准确的区域分值训练模型,输出的结果可能会在字符区域内模糊,为防止这种情况发生,需要测量模型生成的每个伪真实值的质量,在文字标注中有一个非常强的提示,即单词长度,在大多数数据集中,单词的转录是被提供的且和单词的长度用来评估伪真实值的置信度,将训练数据中的一个单词级标注样本记为w,设R(w)和l(w)分别为样本的边界框区c域和单词长度,通过字符分割过程,得到估计的字符边界框及其对应的字符长度l (w),对样本w的置信分数sconf(w)计算为:图像的像素级置信度映射Sc(P)计算为:
式中,p为区域R(w)内的像素,目标L定义为:
式中 和 分别表示字符区域得分的伪真实值和字符关联得分的伪真实值;Sr(p)和Sa(p)分别表示预测的字符区域得分和字符关联得分;
在推断阶段,最终的输出是各种形状的,形状是单词框或字符框,以及进一步的多边形,为了得到更紧凑的表示,对于不规则的文字,因为四边形的提案形式很容易覆盖大量的背景区域,因此使用文字关系探索模块学习文字区域、文字中心线和边框偏移量的几何属性来重构文字实例,将得到的字符边界框重构成单词边界框或者完整的文字行边界框,寻找边界框的后处理总结如下:首先,将覆盖图像的二进制映射记为M并初始化为0,如果区域得分真实值大于区域阈值,则覆盖图像的像素二进制映射设置为1;其次,对M进行连接部件标记,最后,通过寻找一个旋转矩形并将每个标签对应的连通分量围成最小面积,得到边界框,此外,还在整个字符区域周围生成一个多边形,从而有效地处理弯曲文字,除了上面采用的寻找边界框的后处理方法,不再需要任何的后处理方法;
S9、文字校正模块,自然地添加到端到端的文字识别方法使用,将任意形状的文字矫正成水平形状的文字,以方便后续的识别操作;首先将文字表现形式拟合三种文字线模型,其复杂度不断增加;首先是零阶模型:文字行可以是水平的,也可以是垂直的;第二是一阶模型:文字行可以任意方向定位;第三是分段线性模型,文字行用一个有限多边形表示,任何n形状的文字都可由一组中心线{li}i=1和一个高度值h表示,其中li=(ai,bi,ci)表示一条aix+biy+ci=0的线;
对于零阶和一阶模型,利用所有字符的中心坐标n来估计一条中心线,n=1;对于分段线性模型,利用每个字符的相邻的字符k=min(N,11)估计每两个字符组成的N‑1个线段,N表示字符数,高度值h设为其中G为所有字符角坐标的集合,d(g,li)为点g与直线li之间的距离;
通过最小参数来选择最佳的线模型D计算如下:
式中,hd为模型D的高度估计值,hd越小,表明模型拟合越好;Cd为模型复杂度惩罚,对零阶、一阶和分段线性模型分别将模型复杂度惩罚分别设为1.0,1.2和1.4,然后对文字进校正。
2.根据权利要求1所述的一种复杂自然场景图像中的文字检测方法,其特征在于:所述S1中的数据集包括:ICDAR2013、ICDAR2015、ICDAR2017、CTW‑1500、MSRA‑TD500、VGGSynthText‑part。
3.根据权利要求2所述的一种复杂自然场景图像中的文字检测方法,其特征在于:所述S4中由于S3中引入信息迁移机制对模型进行预训练,因此采用S1中准备好的ICDAR2013、ICDAR2015和ICDAR2017作为训练数据集。
4.根据权利要求3所述的一种复杂自然场景图像中的文字检测方法,其特征在于:所述S4中训练网络框架包括以下步骤:首先使用SynthText‑part数据集对网络进行50k迭代训练,然后使用每个基准数据集对模型进行微调;在训练时,将sconf(w)设置为0,忽略ICDAR
2015和ICDAR2017数据集中的非文字区域,在所有训练过程中使用ADAM优化器;在微调期间,还以1:5的比率使用SynthText‑part数据集,以确保字符区域确实是分开的,为了在自然场景中过滤出类似纹理的文字,在线硬负挖掘按1:3的比例应用,此外,还应用了基本的数据增广技术,采用但不限于采用裁剪、旋转和/或颜色变化的数据增广技术。
5.根据权利要求1所述的一种复杂自然场景图像中的文字检测方法,其特征在于:所述S5中字符区域得分表示给定像素为字符中心的概率,与离散标记每个像素的二值分割映射不同,用高斯热力图编码字符中心的概率,由于图像上的字符边界框通过透视投影通常会发生畸变,故采用以下步骤来近似生成字符区域得分真实标签:A1、准备二维各向同性高斯图;
A2、计算高斯映射区域与每个字符框之间的透视变换;
A3、扭曲高斯映射到边界区域。
6.根据权利要求1所述的一种复杂自然场景图像中的文字检测方法,其特征在于:所述S8中的文字行检测分支主要是针对不易分割成字符的特殊语言,针对此类文字,检测步骤如下:首先,通过将输入图像输入到主干网络中提取特征图,然后,采用文字定位模块对文字进行定位预测每个像素中的单词或文字行边界框,通常,由于接受域的限制,文字定位模块无法完整的检测到长文字,因此,引入下一个分支即迭代求精模块来解决这个问题,迭代求精模块可以迭代地从文字定位模块或自身的输出中提炼输入建议,使它们更接近于真实值边界框,迭代求精模块可以根据不同场景的需要,执行一次或多次细化操作,在迭代求精模块的帮助下,初步建议能更完整的覆盖文字实例。
7.根据权利要求1所述的一种复杂自然场景图像中的文字检测方法,其特征在于:所述S9中的文字校正步骤如下:C1、在给定估计模型的基础上,首先将文字行分割为H×W的条形图像,再估计每个条形图像的中心点和高度值,然后连接每个中心点得到一条文字中心线;
C2、根据文字中心线和高度值就能确定文字行的控制点,这里需要指出的是,控制点的在生成过程需确保其满足空间分布中的对称性约束;
C3、最后采用薄板样条法对控制点进行校正,从而得到能方便后续识别工作的水平文字行。
8.应用于权利要求1所述的一种复杂自然场景图像中的文字检测方法的一种复杂自然场景图像中的文字检测装置,其特征在于:包括:图像获取模块,用于获取待处理的文档图片;
特征提取判别模块,用于对所述文档图片进行文字特征提取,并根据检测文字特征提取结果判别,根据判别结果进入文字行检测模块或字符检测模块;
文字行检测模块,用于对不易分割成字符的特殊语言对其进行精确定位后进入迭代求精模块,并通过迭代求精模块得到更完整的文字边界框;
字符检测模块,用于对多数文字进行字符的边界标注,之后通过信息迁移模块,得到文字边界框;
文本校正模块,用于对所述任意形状的文字矫正成水平形状的文字,以方便后续的识别操作。
9.一种电子设备,其特征在于:包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7任一所述一种复杂自然场景图像中的文字检测方法。