1.一种基于RGB-D图像的方形吊装物姿态估计方法,其特征在于,具体步骤包括:S1、使用深度相机采集方形吊装物不同时刻的RGB-D图像数据,所述RGB-D图像数据包括方形吊装物的RGB图像数据和RGB图像内部各个像素点相对于深度相机的深度信息图;
S2、使用图像分割算法对RGB图像数据中方形吊装物进行图像分割,分割出方形吊装物掩膜的像素,并根据像素点的深度信息确定通过方形吊装物掩膜中各个像素的深度信息,并依据方形吊装物的掩膜和掩膜内各个像素的深度信息通过相机内参矩阵转化为三维的点云信息;
S3、估计点云中各点的法线,确定当前时刻关键帧i与相邻前一时刻关键帧i-1,并处理得到第i与i-1个关键帧中长方体三个面的法向量,对掩膜中的所有点法线向量进行平均化处理得到中心点,并以此识别点云的结构特征;
S4、使用由第i个和第i-1个关键帧得到的法向量和中心点计算旋转矩阵R和平移向量T;
S5、通过激光雷达或超声波传感器采集关于环境中方形吊装物体的位置、形状物理属性的信息,并结合激光雷达或超声波传感器数据与RGB-D图像,生成综合环境感知值数学模型,并以此判断传感器数据质量以及数据融合程度;根据实时RGB-D数据动态生成并调整物体3D模型,以判断3D模型与实际物体形状接近程度;
S6、引入强化学习技术,增强模型在复杂环境中的学习和适应能力,实现通过分析RGB-D图像数据,确定吊装物的当前姿态属于预先划分的哪个区间,从而估计其精确的S7、设定深度信息图上的预设坐标为(u,v),使用透视投影和仿射变换计算像素坐标系与世界坐标系;
S8、对得到的法线的单位法向量进行聚类,将球面的点的三维坐标转化为使用极角和方向角表示的球面坐标,分别对聚类出的不同类的数据进行二维核密度估计找到密度最大的区域,确定每个面朝向的法向量,应用旋转矩阵和旋转向量之间的转换公式计算旋转和平移矩阵,得到三维姿态变换矩阵。
2.根据权利要求1所述的一种基于RGB-D图像的方形吊装物姿态估计方法,其特征在于:所述使用深度相机采集方形吊装物不同时刻的RGB-D图像数据,所述RGB-D图像数据包括方形吊装物的RGB图像数据和RGB图像内部各个像素点相对于深度相机的深度信息,具体包括以下内容,将输入的RGB-D图像调整至网络要求的分辨率,并将RGB-D图像输入到SAM算法模型中;
SAM算法模型通过多层卷积神经网络提取特征,再运用深度学习技术进行语义分割,识别方形物体;从分割结果中提取方形物体区域,生成掩膜,掩膜具体为遮挡或突出显示图像中特定区域的二进制图像。
3.根据权利要求2所述的一种基于RGB-D图像的方形吊装物姿态估计方法,其特征在于:使用图像分割算法对RGB图像数据中方形吊装物进行图像分割,分割出方形吊装物掩膜的像素,并根据像素点的深度信息确定通过方形吊装物掩膜中各个像素的深度信息,并依据方形吊装物的掩膜和掩膜内各个像素的深度信息通过相机内参矩阵转化为三维的点云信息具体逻辑包括,使用掩膜从深度图中提取目标物体的深度信息;通过深度相机厂家提供的API导出相机的内参矩阵:其中
将掩膜内各个像素通过相机内参矩阵转换为三维空间中的点云,对每个像素点应用转换公式:其中:P是点云中的三维坐标(X,Y,Z),点云中的每个点表示为D(p)是像素点p的深度值;
4.根据权利要求3所述的一种基于RGB-D图像的方形吊装物姿态估计方法,其特征在于:所述估计点云中各点的法线,确定当前时刻关键帧i与相邻前一时刻关键帧i-1,并处理得到第i与i-1个关键帧中长方体三个面的法向量,对掩膜中的所有点法线向量进行平均化处理得到中心点,并以此识别点云的结构特征具体逻辑包括,三个面的法向量表示为:
获取三维点云数据后对每个点云数据点采用K近邻KNN算法找到临近点集;对每个点的邻域点集进行协方差矩阵计算,然后进行特征值分解;特征值最小对应的特征向量作为该点的法线方向;生成每个点的法线估计;
法线估计公式:
对于点云中的每个点
对每个点
其中,
对协方差矩阵
对所有点的法线向量进行平均化处理以得到中心点的法线综合以上步骤,我们得到以下公式:
其中,
字符解释:
N:点云中点的总数;
K:每个点
值域解释:
具体的,
引入一个额外的分类函数F(
其中,
类别说明:
类别A:对应于较低的模长范围,代表点云具有较弱的方向性或不规则的结构,这意味着点云是非常分散的或者形状复杂;
类别B:中等模长范围,指点云具有中等程度的方向性和一定的结构特征,这通常表示点云形状较为规则,但仍含有一定的复杂性;
类别C:高模长范围,表示点云具有强烈的方向性和明确的结构特征,这意味着点云呈现出清晰的线性或规则的几何形状。
5.根据权利要求4所述的一种基于RGB-D图像的方形吊装物姿态估计方法,其特征在于:所述使用由第i个和第i-1个关键帧得到的法向量和中心点计算旋转矩阵R和平移向量T包括以下内容,获取法线估计和物体中心点;并使用法线估计确定物体的朝向;通过比较关键帧中的法线方向,计算物体的旋转;
计算旋转矩阵R和平移向量T使得物体从一个关键帧姿态变换到另一个公式:其中(
输出:旋转矩阵R和平移向量T。
6.根据权利要求5所述的一种基于RGB-D图像的方形吊装物姿态估计方法,其特征在于:所述结合激光雷达或超声波传感器数据与RGB-D图像,提供更全面的环境感知,并以此判断传感器数据质量以及数据融合程度的功能具体逻辑包括,分别采集激光雷达数据和RGB-D图像数据;确保激光雷达数据和RGB-D图像数据时间上的一致性,并对数据进行时间标记;
空间校准:对激光雷达和RGB-D相机进行空间校准,确定它们之间的相对位置和姿态;
数据预处理:对激光雷达数据进行噪声过滤和地面点移除;并对RGB-D图像数据进行深度图像和彩色图像的配准;
数据融合:结合激光雷达或超声波传感器数据与RGB-D图像,生成综合环境感知值数学模型公式,数学公式解释:
F(x,y,z)代表在点云坐标(x,y,z)的综合环境感知值;
N是RGB-D图像的数量,
值域解释:
F(x,y,z)的值域取决于融合后的数据值,这个值越高,表示在该点的环境感知越准确,反之则感知能力较低;
F(x,y,z)的理论值域是非负的,在0到1之间,具体取决于传感器数据和图像处理函数的性质进行适应性调整。
7.根据权利要求6所述的一种基于RGB-D图像的方形吊装物姿态估计方法,其特征在于:所述根据实时RGB-D数据动态生成或调整物体3D模型,以判断3D模型与实际物体形状接近程度具体逻辑包括,实时数据获取:连续获取RGB-D图像数据;
设(R,G,B)分别表示RGB-D数据中的红色、绿色、蓝色通道,D表示深度数据,设M表示3D模型,t为时间变量,考虑物理约束其中,
函数定义:
其中,
其中,
其中,
值域和含义:
公式的值域将取决于M(t)的实际计算结果,M(t)的值域取决于RGB-D数据的变化和物理、几何约束的应用,具体含义如下:较低的M(t)值:表示3D模型与实际物体形状相差较大,或者物理和几何约束没有得到很好的满足;
较高的M(t)值:表示3D模型与实际物体形状非常接近,物理和几何约束得到了良好的满足,且M(t)值的取值范围设立在0至1范围内。
8.根据权利要求7所述的一种基于RGB-D图像的方形吊装物姿态估计方法,其特征在于:所述引入强化学习技术,增强模型在复杂环境中的学习和适应能力,实现通过分析RGB-D图像数据,确定吊装物的当前姿态属于预先划分的哪个区间,从而估计其精确的RGB-D图像数据:这是基本且关键的数据类型,RGB-D图像包括颜色信息RGB和深度信息D(p),可以从不同角度和不同光照条件下捕捉吊装物体的图像;这些图像提供了关于物体形状、大小、姿态和相对于摄像机的位置的重要信息;
环境特征数据:包括光照条件、背景噪声、附近的物体;
物体标注数据:对RGB-D图像中吊装物体的准确标注,包括物体的边界框、中心点、姿态角度;
操作数据:当涉及到自动化吊装,吊装操作的数据,包括吊钩位置、速度、吊装路径需要代入考虑;
历史数据和模拟数据:历史的吊装操作记录,包括成功和失败的案例,以及通过模拟生成的数据;
反馈和校正数据:操作过程中的反馈数据,包括物体在吊装过程中的实际移动轨迹与预期的偏差,可用于进一步优化算法;
物体物理属性数据:吊装物体的质量、材质、表面纹理信息;
定义以下变量:
(R,G,B):分别代表RGB-D图像中的红色、绿色、蓝色强度值;
D:代表深度信息;
E:表示环境特征数据,包括光照和背景噪声;
L:代表物体标注数据,包括边界框的位置和大小;
O:表示操作数据,包括吊钩的位置和速度;
H:代表历史和模拟数据;
F:表示反馈和校正数据;
P:代表物体的物理属性数据,包括质量和材质;
公式如下:
其中,F是一个复杂信息过滤函数,定义为:这里,
公式中的字符解释如下:(R,G,B,D)分别是RGB-D图像数据的红色、绿色、蓝色和深度信息;(E,L,O,H,P)分别代表环境特征、物体标注、操作数据、历史和模拟数据、反馈和校正数据以及物体的物理属性;
这个公式的值域取决于各项数据的范围和函数的设计,将
这个范围允许模型覆盖方形吊装物的所有可能旋转姿态;
姿态情况的分类:
将
模型输出:
模型通过分析图像数据,确定吊装物的当前姿态属于哪个区间,从而估计其精确的这个估计值将用于指导吊装机械或操作员调整吊装物的位置,以确保安全和效率。
9.根据权利要求8所述的一种基于RGB-D图像的方形吊装物姿态估计方法,其特征在于:所述设定深度信息图上的坐标(u,v),使用透视投影和仿射变换计算像素坐标系与世界坐标系具体逻辑包括,转化公式为:
其中(u,v)是深度图像上的像素坐标,Z是从深度图像中获取的深度值,(X,Y,Z)是点云中的三维坐标,经过变换可得到如下公式:
10.根据权利要求9所述的一种基于RGB-D图像的方形吊装物姿态估计方法,其特征在于:所述应用旋转矩阵和旋转向量之间的转换公式计算旋转和平移矩阵,得到三维姿态变换矩阵,具体逻辑包括,将所有单位法向量进行kmeans聚类后进行可视化;
进一步将视角以球壳内为基准,得到聚类中心点;
基于得到的中心点的法线
通过叉乘得到旋转轴为如下:
通过点乘计算旋转角度,由于
使用反余弦函数即可得到
其中E是单位矩阵,K是反对称矩阵:
由下公式得到平移矩阵T:
最终得到以下三维姿态变化矩阵: