1.一种手语翻译实现方法,其特征在于,包括:
获取待翻译的视频信息;
通过yolo3算法和yolo‑lite+ROI+CBAM模型,对视频信息进行区域检测并提取手势特征;
将手势特征与基于CBAM注意力模型和CNN分类算法的特征识别分类器进行匹配,输出分词信息;
通过nltk框架、jieba工具和NMS算法对分词信息进行整合,并形成文字信息或语音信息。
2.如权利要求1所述的手语翻译实现方法,其特征在于,所述通过yolo3算法和yolo‑lite+ROI+CBAM模型,对视频信息进行区域检测并提取手势特征;具体包括:通过yolo3算法对手语动作进行检测,将视频信息数据集的图片作为学习的对象,以图片所对应的真实标签为基准,通过卷积神经网络学习图片的特征,仿造人体神经元细胞的构造,对ROI感兴趣区域持续激活和学习参数;
通过yolo‑lite浅层目标检测模型对数据集进行训练,对每个图片提取特征,通过层层学习,细化得到输入图片的关键信息,再和数据集中的标签进行对比矫正,通过反向传播的方式训练得到一个网络模型;
将CBAM注意力模块加入yolo‑lite浅层目标检测模型,将原来的卷积分化成多个部分的卷积激活。
3.如权利要求1所述的手语翻译实现方法,其特征在于,所述基于CBAM注意力模型和CNN分类算法的特征识别分类器;具体包括:将CBAM注意力模块的二维卷积模块扩充为三维卷积模块,对于图片序列的分词预测首先使用三维结构的卷积网络做深层次的语义特征的特征提取,并转化成为二维结构的图片,然后通过CBAM模块结合Inception‑Resnet‑v2模型进行分词预测。
4.如权利要求1所述的手语翻译实现方法,其特征在于,所述通过nltk框架、jieba工具和NMS算法对分词信息进行整合;具体包括:对于经过单帧和多帧共同识别出来的各个分词,通过jieba分词工具包进行词性标注,并对词性标注后的分词通过NMS算法进行日常用语训练;
在实时翻译时,采用自然语言处理中的nltk工具包进行翻译。
5.一种手语翻译装置,其特征在于,包括:服务器端和客户端;
所述服务器端,用于通过yolo3算法和yolo‑lite+ROI+CBAM模型,对视频信息进行区域检测并提取手势特征;用于将手势特征与基于CBAM注意力模型和CNN分类算法的特征识别分类器进行匹配,输出分词信息;以及用于通过nltk框架、jieba工具和NMS算法对分词信息进行整合;
所述客户端,用于获取待翻译的视频信息;以及用于显示文字信息或语音信息。
6.如权利要求5所述的手语翻译装置,其特征在于,所述服务器端,
还用于通过yolo3算法对手语动作进行检测,将视频信息数据集的图片作为学习的对象,以图片所对应的真实标签为基准,通过卷积神经网络学习图片的特征,仿造人体神经元细胞的构造,对ROI感兴趣区域持续激活和学习参数;
还用于通过yolo‑lite浅层目标检测模型对数据集进行训练,对每个图片提取特征,通过层层学习,细化得到输入图片的关键信息,再和数据集中的标签进行对比矫正,通过反向传播的方式训练得到一个网络模型;
以及还用于将CBAM注意力模块加入yolo‑lite浅层目标检测模型,将原来的卷积分化成多个部分的卷积激活。
7.如权利要求5所述的手语翻译装置,其特征在于,所述服务器端,
还用于将CBAM注意力模块的二维卷积模块扩充为三维卷积模块,对于图片序列的分词预测首先使用三维结构的卷积网络做深层次的语义特征的特征提取,并转化成为二维结构的图片,然后通过CBAM模块结合Inception‑Resnet‑v2模型进行分词预测。
8.如权利要求5所述的手语翻译装置,其特征在于,所述服务器端,
还用于对于经过单帧和多帧共同识别出来的各个分词,通过jieba分词工具包进行词性标注,并对词性标注后的分词通过NMS算法进行日常用语训练;
以及还用于在实时翻译时,采用自然语言处理中的nltk工具包进行翻译。