欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2023113387609
申请人: 中南大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2026-03-04
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于置信度门控时空记忆网络的半监督视频目标分割方法,其特征在于包括以下步骤:(1)获取数据集与分割标签:

获取半监督视频目标分割数据集与对应的分割标签;

(2)构建分割模型:所述模型由编码器、置信度门控时空记忆读取模块、空洞卷积金字塔模块、解码器组成,具体构建过程包括以下步骤:(2‑a)构建编码器,包括查询编码器和记忆编码器,两者具有相同结构,都包括一个卷积模块、三个残差模块和一个特征嵌入模块;

查询编码器只对查询帧图像信息进行编码,当前查询帧图像依次经过查询编码器的卷r1 r2 r3 r3积模块和三个残差模块,得到三个残差模块对应的输出特征图x 、x 和x ;x 经过特征嵌Q Q Q Q入模块编码后得到当前查询帧图像的特征对(k ,v),其中k和v 分别是查询帧图像的键信息和值信息;

记忆编码器对图像和对应掩膜进行编码,当前查询帧图像的上一帧图像被视作记忆帧图像,该记忆帧图像及其掩膜依次经过记忆编码器的卷积模块和三个残差模块后,再经特M M M M征嵌入模块编码,得到记忆帧图像的特征对(k,v),其中k和v分别表示记忆帧图像的键信息和值信息;

记忆编码器对记忆帧图像和该记忆帧图像之前帧的图像及其掩膜的编码结果共同构成记忆编码库 其中 表示记忆编码库中的第j个特征对,j≤T,T为正整数,T表示记忆编码库中特征对的最大个数;当记忆帧图像及其之前的所有帧图像的总个数小于等于T时,则记忆编码库H由记忆帧图像和该记忆帧图像之前所有帧的图像及其掩膜的编码结果共同构成;当记忆帧图像及其之前的所有帧图像的总个数大于T时,则记忆编码库H由记忆帧图像和该记忆帧图像之前T‑1帧的图像及其掩膜的编码结果共同构成;

Q

(2‑b)构建置信度门控时空记忆读取模块:分别计算由步骤(2‑a)得到的k 与记忆编码库H中每一个键信息 之间的置信度 j为正整数,且j≤T;置信度门控机制根据置信度的大小从记忆编码库H中筛选出与当前查询帧图像关联性最强的前N个特征对,N为正整数,N

表示与当前查询帧图像关联性最强的第t个值信息;利用键信息集合Keys中的元素计算权值,然后用计算得到的权值对值信息集合Values中的元素加权求和得到vsum,最后将vsum与Q步骤(2‑a)得到的v进行特征拼接,得到综合特征信息R;

(2‑c)构建空洞卷积金字塔模块:所述模块包括并行的四个不同卷积模块,利用四个不同的卷积模块对步骤(2‑b)得到的综合特征信息R分别进行多尺度特征提取,对提取的结果进行逐像素相加操作,得到增强特征J;

(2‑d)构建解码器:对步骤(2‑c)得到的增强特征J进行两次卷积和一次上采样后得到r2中间特征f1;对由步骤(2‑a)得到的x 进行两次卷积得到中间特征 将 和f1逐像素相r1加后再进行一次上采样得到中间特征f2;对由步骤(2‑a)得到的x 进行两次卷积得到中间特征 将 和f2逐像素相加后再进行一次卷积和一次上采样得到当前查询帧图像的预测分割掩膜Y;

(2‑e)当前查询帧图像的预测分割掩膜得到以后,该查询帧图像成为新的记忆帧图像,而该查询帧图像的下一帧图像成为新的查询帧图像,利用步骤(2‑a)构建的记忆编码器对新的记忆帧图像进行编码,将编码结果保存至记忆编码库H,更新记忆编码库;利用步骤(2‑a)构建的查询编码器对新的查询帧图像进行编码,得到新查询帧图像的编码特征对,利用步骤(2‑b)构建的置信度门控时空记忆读取模块计算新查询帧图像的综合特征信息;利用步骤(2‑c)构建的空洞卷积金字塔模块对综合特征信息进行多尺度特征提取得到增强特征;利用步骤(2‑d)构建的解码器对增强特征进行解码,得到新查询帧图像的预测分割掩膜;新查询帧图像的预测分割掩膜完成以后,该查询帧图像成为最新的记忆帧图像,该查询帧图像的下一帧图像成为最新的查询帧图像;如此循环,直到视频序列最后一帧图像的预测分割掩膜完成;

(3)训练分割模型:

利用步骤(1)得到的数据集训练步骤(2)构建完成的分割模型:使用交叉熵作为分割模型的损失函数得到损失值,并使用Adam优化器更新分割模型的模型参数,直到损失值不再下降,得到训练好的分割模型;

(4)推理:

获取测试视频数据,将其输入至步骤(3)训练好的分割模型,得到该测试视频数据各帧图像的分割掩膜;

(5)视频目标分割:

获取推理阶段中测试视频数据各帧图像的分割掩膜,将原图与分割掩膜加权混合,制作成视频流,得到视频目标分割结果。

2.如权利要求1所述的一种基于置信度门控时空记忆网络的半监督视频目标分割方法,其特征在于,所述步骤(2‑b)中的置信度,其计算公式为:其中,表示点积操作。

3.如权利要求1所述的一种基于置信度门控时空记忆网络的半监督视频目标分割方法,其特征在于,所述步骤(2‑b)中的置信度门控机制权值计算和加权求和,它们的计算公式分别为:其中,Wt表示权值,exp(·)表示以自然常数e为底的指数运算。

4.如权利要求1所述的一种基于置信度门控时空记忆网络的半监督视频目标分割方法,其特征在于,所述步骤(2‑c)中的空洞卷积金字塔模块,包含并行的四个不同的卷积模块,分别为1×1大小的标准卷积模块、膨胀率为6的3×3空洞卷积模块、膨胀率为12的3×3空洞卷积块以及膨胀率为18的3×3空洞卷积模块。

5.如权利要求1所述的一种基于置信度门控时空记忆网络的半监督视频目标分割方法,其特征在于,所述步骤(2‑d)中的解码器,解码器中卷积层的卷积核大小都为3×3。