欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2022100707553
申请人: 南华大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-05-07
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种云存储相似数据检测方法,特别是一种基于块级语义的云存储相似数据检测方法,其特征在于,所述云存储相似数据检测方法包括:模型训练阶段,训练步骤为:

预处理训练数据,得到训练数据块;

采用MinHash算法提取全部训练数据块的特征向量,得到未嵌入语义的第一向量;

基于所述第一向量训练机器学习模型,得到所述第一向量与嵌入上下文语义后的向量间的权重矩阵和训练后的模型;

模型预测阶段,预测步骤为:

利用训练后的模型,以预处理训练数据相同的处理方法处理预测数据,得到预测数据块;

并采用MinHash算法提取全部预测数据块的特征向量,得到预测数据的未嵌入语义的向量;

将所述预测数据的未嵌入语义的向量与所述权重矩阵做矩阵乘法,得到训练数据的嵌入语义后的向量;

通过Annoy算法将训练数据的嵌入语义后的所有向量构造成二叉树,每个向量为二叉树的节点,判断距离当前数据块对应结点的最近的其他结点,从而找到与其最相似的数据块。

2.如权利要求1所述的一种云存储相似数据检测方法,其中,采用MinHash算法提取全部训练数据块的特征向量的步骤包括:取预设数量的哈希函数,并扫描训练数据块的内容,计算得到每个哈希函数对应的哈希值,然后对计算得到的哈希值求和取平均,得到训练数据块的初始特征值;

利用滑动窗口扫描所述初始特征值,滑动窗口每移动一次,将处于该窗口内部的数据信息作为一个子特征值,根据子特征值和特征向量之间的映射函数,生成子特征值对应的特征向量,最后将所有子特征值对应的特征向量求和取平均,作为该数据块的特征向量。

3.如权利要求1所述的一种云存储相似数据检测方法,其中,预处理训练数据,得到训练数据块的步骤包括:将输入的训练数据类型统一为比特流;

并将比特流划分为若干个训练数据块。

4.如权利要求1所述的一种云存储相似数据检测方法,其中,基于所述第一向量训练机器学习模型,得到所述第一向量与嵌入上下文语义后的向量间的权重矩阵,具体包括步骤:将所述数据块的上下文对应的第一向量输入所述机器学习模型的输入层,将所述数据块对应的第一向量作为所述机器学习模型的输出层,将所述输入层和所述输出层的差值作为损失,不断更新权重矩阵,最后得到嵌入了上下文信息的权重矩阵。

5.如权利要求4所述的一种云存储相似数据检测方法,其中,所述权重矩阵具体包括输出层的权重矩阵和输入层的权重矩阵。

6.如权利要求5所述的一种云存储相似数据检测方法,其中,将所述预测数据的未嵌入语义的向量与所述权重矩阵做矩阵乘法,得到训练数据的嵌入语义后的向量还包括:做矩阵乘法的权重矩阵为所述机器学习模型的输出层的权重矩阵。

7.如权利要求1所述的一种云存储相似数据检测方法,其中,找到最相似的数据块之后,还利用差分编码将相似数据块之间的冗余部分进行删除。

8.一种云存储相似数据检测系统,特别是一种基于块级语义的云存储相似数据检测系统,所述云存储相似数据检测系统包括存储器和处理器,所述存储器中存储有计算机程序;

所述处理器,用于在运行所述计算机程序时,执行如权利要求1‑7中任一项所述的一种云存储相似数据检测方法。