欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021111181636
申请人: 山东师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-09-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于特征金字塔与注意力融合的文本检测方法,其特征在于,包括:

获取待检测图像;

将待检测图像输入文本检测模型,得到图像中的文本位置;

其中,文本检测模型包括特征提取网络和特征融合网络;所述特征提取网络的骨干网为多层依次连接的不同结构的卷积网络,且第二层卷积网络的输出上引入了位置注意力网络;所述特征融合网络用于融合卷积网络和位置注意力网络的输出特征,得到最终特征;

所述特征融合网络首先是多分辨率特征金字塔的自上而下的上采样融合输出,同时所述第二层卷积网络的输出与位置注意力网络的输出逐点相乘融合,最后将融合后的特征图与多分辨率特征金字塔其他支路输出的特征融合映射;

所述位置注意力网络具体为:将所述第二层卷积网络输出的特征图分别经过三个卷积层得到三个三维特征图,并将三个三维特征图分别变形为二维特征图,记为第一二维特征图、第二二维特征图和第三二维特征图;对第一二维特征图进行转置之后与第二二维特征图做矩阵乘法,并将结果经过激活函数得到空间注意力图;将第三二维特征图与空间注意力图做矩阵相乘,将所得特征图变形为三维特征图,将该三维特征图乘尺度参数后与第二层卷积网络输出的特征图做对应元素特征相加操作,得到输出特征;

所述骨干网包括依次连接的第一层卷积网络、第二层卷积网络、第三层卷积网络、第四层卷积网络和第五层卷积网络;

所述第一层卷积网络对图像进行卷积处理后输入第二层卷积网络,得到第一输出特征;所述第二层卷积网络对第一输出特征进行池化后,依次输入双卷积通道和两个单卷积通道,得到第二输出特征;所述第三层卷积网络将第二输出特征依次输入双卷积通道和三个单卷积通道,得到第三输出特征;所述第四层卷积网络将第三输出特征依次输入双卷积通道和五个单卷积通道,得到第四输出特征;所述第五层卷积网络将第四输出特征依次输入双卷积通道和两个单卷积通道,并进行全局平均池化后,得到第五输出特征。

2.如权利要求1所述的基于特征金字塔与注意力融合的文本检测方法,其特征在于,所述单卷积通道将输入图像依次经过1*1卷积层、3*3卷积层和1*1卷积层处理后,与输入图像进行融合,融合后的特征进入激活函数。

3.如权利要求1所述的基于特征金字塔与注意力融合的文本检测方法,其特征在于,所述双卷积通道包括第一卷积分支、第二卷积分支和激活函数;

所述第一卷积分支包括为一个1*1卷积层;

所述第二卷积分支包括依次连接的1*1卷积层、3*3卷积层和1*1卷积层;

所述第一卷积分支和第二卷积分支的输出结果进行融合后进入激活函数。

4.如权利要求1所述的基于特征金字塔与注意力融合的文本检测方法,其特征在于,所述特征融合网络具体为:所述第五输出特征依次经过卷积层、BN层和Relu层后,得到第五中间特征;所述第四输出特征依次经过卷积层、BN层和Relu层后,与上采样后的第五中间特征进行相加,得到第四中间特征;所述第三输出特征依次经过卷积层、BN层和Relu层后,与上采样后的第四中间特征进行相加,得到第三中间特征;所述第五中间特征、第四中间特征和第三中间特征分别经过卷积层、BN层、Relu层和上采样层后,得到第五特征、第四特征和第三特征;

所述第二输出特征依次经过卷积层、BN层和Relu层后,与上采样后的第三中间特征进行相加得到第二中间特征,第二中间特征依次经过卷积层、BN层和Relu层后得到第二特征,第二特征与所述位置注意力网络的输出特征逐点相乘融合,得到第一特征;

所述第五特征、第四特征、第三特征和第一特征相加后,得到最终特征。

5.基于特征金字塔与注意力融合的文本检测系统,其特征在于,包括:

图像获取模块,其被配置为:获取待检测图像;

文本检测模块,其被配置为:将待检测图像输入文本检测模型,得到图像中的文本位置;

其中,文本检测模型包括特征提取网络和特征融合网络;所述特征提取网络的骨干网为多层依次连接的不同结构的卷积网络,且第二层卷积网络的输出上引入了位置注意力网络;所述特征融合网络用于融合卷积网络和位置注意力网络的输出特征,得到最终特征;

所述特征融合网络首先是多分辨率特征金字塔的自上而下的上采样融合输出,同时所述第二层卷积网络的输出与位置注意力网络的输出逐点相乘融合,最后将融合后的特征图与多分辨率特征金字塔其他支路输出的特征融合映射;

所述位置注意力网络具体为:将所述第二层卷积网络输出的特征图分别经过三个卷积层得到三个三维特征图,并将三个三维特征图分别变形为二维特征图,记为第一二维特征图、第二二维特征图和第三二维特征图;对第一二维特征图进行转置之后与第二二维特征图做矩阵乘法,并将结果经过激活函数得到空间注意力图;将第三二维特征图与空间注意力图做矩阵相乘,将所得特征图变形为三维特征图,将该三维特征图乘尺度参数后与第二层卷积网络输出的特征图做对应元素特征相加操作,得到输出特征;

所述骨干网包括依次连接的第一层卷积网络、第二层卷积网络、第三层卷积网络、第四层卷积网络和第五层卷积网络;

所述第一层卷积网络对图像进行卷积处理后输入第二层卷积网络,得到第一输出特征;所述第二层卷积网络对第一输出特征进行池化后,依次输入双卷积通道和两个单卷积通道,得到第二输出特征;所述第三层卷积网络将第二输出特征依次输入双卷积通道和三个单卷积通道,得到第三输出特征;所述第四层卷积网络将第三输出特征依次输入双卷积通道和五个单卷积通道,得到第四输出特征;所述第五层卷积网络将第四输出特征依次输入双卷积通道和两个单卷积通道,并进行全局平均池化后,得到第五输出特征。

6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的基于特征金字塔与注意力融合的文本检测方法中的步骤。

7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一项所述的基于特征金字塔与注意力融合的文本检测方法中的步骤。