1.一种基于时空卷积循环神经网络与空洞卷积的视频目标分割方法,其特征在于,包括如下步骤:
步骤一、建立编码器‑解码器网络结构;
步骤二、利用数据集对编码器‑解码器网络结构进行训练,包括以下两阶段训练:阶段一,在前40次迭代过程中,以真实标定数据掩膜作为引导掩膜输入至下一帧卷积循环神经网络操作;阶段二,在后20次迭代过程中,将所述编码器‑解码器网络结构模型分割出的掩膜作为引导掩膜输入至下一帧卷积循环神经网络操作;
步骤三、将待分割视频输入训练好的编码器‑解码器网络结构输出分割结果;
所述编码器‑解码器网络结构包括编码器和解码器,所述编码器包括第一卷积模块、第二卷积模块、第三卷积模块、第一空洞卷积模块和并行空洞卷积模块,所述并行空洞卷积模块包括四个空洞卷积模块,所述空洞卷积模块的输出与浅层特征图拼接后得到多尺度模块的特征图作为所述并行空洞卷积模块的输出,所述并行空洞卷积模块的输出连接第一降维卷积模块,所述第一空洞卷积模块的输出连接第二降维卷积模块,所述第三卷积模块的输出连接第三降维卷积模块,所述第二卷积模块的输出连接第四降维卷积模块,所述第一卷积模块的输出连接第五降维卷积模块;所述解码器包括第一卷积循环神经网络模块、第二卷积循环神经网络模块、第三卷积循环神经网络模块和第四卷积循环神经网络模块,所述第一卷积循环神经网络模块的输入由上一帧的分割结果和所述第一降维卷积模块的输出进行拼接得到,所述第二卷积循环神经网络模块的输入由上一帧的分割结果、所述第二降维卷积模块的输出和所述第一卷积循环神经网络模块的输出进行拼接得到,所述第三卷积循环神经网络模块的输入由上一帧的分割结果、所述第三降维卷积模块的输出和所述第二卷积循环神经网络模块的输出进行拼接得到,所述第四卷积循环神经网络模块的输入由上一帧的分割结果、所述第四降维卷积模块的输出和所述第三卷积循环神经网络模块的输出进行拼接得到,上一帧的分割结果、所述第五降维卷积模块的输出和所述第四卷积循环神经网络模块的输出进行拼接然后上采样得到编码器‑解码器网络结构的输出。
2.根据权利要求1所述的基于时空卷积循环神经网络与空洞卷积的视频目标分割方法,其特征在于,所述第一卷积模块、第二卷积模块和第三卷积模块输出的特征图尺寸依次下降,所述第三卷积模块输出和第一空洞卷积模块输出的特征图尺寸相同。
3.根据权利要求2所述的基于时空卷积循环神经网络与空洞卷积的视频目标分割方法,其特征在于,所述第一卷积模块输出的特征图大小为原图的1/4,所述第二卷积模块输出的特征图大小为原图的1/8,所述第三卷积模块输出的特征图大小为原图的1/16,所述第一降维卷积模块、所述第二降维卷积模块、所述第三降维卷积模块、所述第四降维卷积模块和所述第五降维卷积模块是1*1卷积模块。
4.根据权利要求1所述的基于时空卷积循环神经网络与空洞卷积的视频目标分割方法,其特征在于,所述并行空洞卷积模块中的四个空洞卷积模块的空洞率各不相同。
5.根据权利要求1所述的基于时空卷积循环神经网络与空洞卷积的视频目标分割方法,其特征在于,所述第一卷积循环神经网络模块、所述第二卷积循环神经网络模块、所述第三卷积循环神经网络模块和所述第四卷积循环神经网络模块的输出均包括当前帧分割出的目标掩码、当前帧建立的空间相关性和当前帧建立的时间相关性。
6.根据权利要求1所述的基于时空卷积循环神经网络与空洞卷积的视频目标分割方法,其特征在于,所述步骤二利用数据集对编码器‑解码器网络结构进行训练首先在Youtube‑VOS数据集训练,之后将经过Youtube‑VOS数据集训练的编码器‑解码器网络结构迁移到Davis‑2017数据集上进行训练。