欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2020103397418
申请人: 佛山市南海区广工大数控装备协同创新研究院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-12-19
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种面向任意角度的场景文本检测方法,其特征在于,包括以下步骤:S1:获得包含多张训练图片的训练集,且训练图片为已标记出文本位置的场景图像;

S2:构建卷积神经网络和旋转区域提议网络,将训练图片输入到卷积神经网络中进行特征提取,将提取的特征图输入到旋转区域提议网络中得到文本区域,根据预测区域是前景或背景分类和文本预测位置构建损失函数;

S3:重新选取训练图片,反复执行步骤S2以训练卷积神经网络和旋转区域提议网络模型,直至损失函数收敛保存模型;

S4:将旋转区域提议网络输出的文本区域映射到卷积神经网络模型的最后一层特征图上,通过旋转池化操作得到固定大小的特征图;

S5:通过由两个全连接层组成的分类器,实现边框分类和边框回归;

S6:将待检测的图片输入到卷积神经网络和旋转区域提议网络中,得到初步的文本区域,再通过旋转池化和全连接操作得到文本检测结果。

2.根据权利要求1所述的一种面向任意角度的场景文本检测方法,其特征在于,所述步骤S2还包括:首先对训练图片进行缩放处理,然后经过卷积层和池化层进行特征提取,其中所有卷积层的卷积核大小都是3x3,步长是1,填充是1,这种设置使卷积后不改变特征图的大小;所有的池化层的池化核大小为2x2,步长为2,每经过一次池化,输出特征图的长宽都会变为原来的1/2,卷积神经网络最后一层输出的特征图的长宽均为原图的1/16。

3.根据权利要求2所述的一种面向任意角度的场景文本检测方法,其特征在于,所述步骤S2还包括:将卷积神经网络的最后一层特征输入所述旋转区域提议网络,首先对输入特征使用一个n x n的窗口使每个滑动窗口都映射到一个低维特征,然后将低维特征输入到两个平行的卷积层中,一个是分类层,一个是回归层。

4.根据权利要求1所述的一种面向任意角度的场景文本检测方法,其特征在于,所述步骤S3还包括:将文本区域的真实边界表示为具有5个元组(x,y,w,h,θ)的旋转边界框,每一个判定为文本区域的旋转边界框,输出7维预测向量,坐标(x,y)表示边界框的几何中心,高度h为边界框的短边,宽度w为边界框的长边,方向θ为从x轴的正方向到与旋转的边界框的长边平行的方向的角度,由于场景文本检测读取方向及其相反方向不会影响检测到的区域,因此方向参数θ只覆盖一半的角度空间。

5.根据权利要求4所述的一种面向任意角度的场景文本检测方法,其特征在于,所述步骤S3还包括:在训练过程中,首先添加方向参数以控制候选框方向,使用6个不同方向的输入,即-π/

6,0,π/6,π/3,π/2,2π/3,它们在方向覆盖和计算效率之间进行权衡;其次,预置旋转默认框的宽高比设为1:2、1:5和1:8以覆盖广泛的文本行,为了不忽略小文本目标,尺度设为4、8、

16和32,在滑动位置的特征图上的每一点将生成72个旋转默认框,每个滑动窗口位置分别产生用于分类层的360个输出和用于回归层的288个输出,因此为高度为H宽度为W特征图共生成H x W x 72个旋转默认框。

6.根据权利要求5所述的一种面向任意角度的场景文本检测方法,其特征在于,对旋转区域提议网络输入一张图像,会输出大量的旋转默认框,而旋转默认框中包含着大量的不平衡的正负样本,正负样本区域提取的划定准则为:(1)将交并比IOU定义为真实边框和旋转默认框的重叠度;

(2)正样本情形:与真实边框的IOU>0.7,或与真实边框的0.3

(3)负样本情形:与真实边框的IOU<0.3,或与真实边框的IOU>0.7但与真实边框的角度夹角大于π/12;

(4)没有被归为上述两种情况的样本在训练过程中不被使用;

如果对所有的旋转默认框进行训练,则训练结果会偏向负样本,因为负样本多,因此训练时从默认框中随机采样出256个旋转默认框,正负样本比例保持在1:1,使训练更加稳定;

如果一张图像中正样本不满128个的话,用负样本来做填充,将这256个旋转默认框作为样本计算损失函数。

7.根据权利要求6所述的一种面向任意角度的场景文本检测方法,其特征在于,对样本损失函数采用多重任务损失形式,直到损失函数收敛时训练完成,使用的损失函数定义为如下形式:* *

L(p,l,v ,v)=Lcls(p,l)+λ*l*Lreg(v ,v)其中l=1代表前景,l=0代表背景,p是分类的概率,v*代表真实边框回归的目标元组,v代表文本标签的预测元组,两项之间的权衡由平衡参数λ控制,对于分类损失定义为:Lcls(p,l)=-log(pl)

对于边界框的回归,背景区域被忽略,我们对文本区域采用smooth-L1损失,损失函数定义为:

8.根据权利要求1所述的一种面向任意角度的场景文本检测方法,其特征在于,在步骤

2得到文本区域过程中还包括:

计算旋转候选框中两个矩形的交点和一个顶点,使用红色虚线将交叠区域划分为多个三角形,通过计算多个三角形的和,从而得到交叠区域的面积;并且,(1)保留IOU大于0.7中IOU最大的框;(2)如果所有候选框的IOU都介于0.3和0.7之间,保留与真实文本框有最小角度差的框。

9.根据权利要求1所述的一种面向任意角度的场景文本检测方法,其特征在于,在所述步骤S4中,通过旋转池化操作得到固定大小的特征图的过程如下:(1)将固定特征图的大小设置为Hr和Wr,对于高度h,宽度w的候选框,旋转后的候选区域可以划分为(h/Hr×w/Wr)个大小为Hr×Wr的子区域,每个子区域的方向与候选框相同;

(2)对每一个子区域的四个顶点进行仿射变换,得到子区域的边界;

(3)执行最大池化得到一个固定大小的特征图。