欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 202010788790X
申请人: 广州大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-11-04
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种DNA存储方法,其特征在于,包括:

对合成DNA进行DNA测序,得到若干测序序列,所述测序序列包括若干测序碱基序列;

确定编码表中不存在所述测序碱基序列,获取所述编码表中与所述测序碱基序列汉明距离最小的碱基序列替换所述测序碱基序列;

根据所述编码表对替换后的所述测序序列进行解码,得到解码字符行,所述解码字符行包括字符行索引和字符行字符;

根据所述字符行索引对所述解码字符行进行分组,得到若干个索引分组,所述解码字符行的数量小于第二阈值的索引分组为第一类别,所述解码字符行的数量大于等于第二阈值的索引分组为第二类别;

计算所述第一类别的索引分组的解码字符行与每个中心字符行的第一字符相似度的均值的最大值;所述中心字符行为所述第二类别的索引分组中与同一索引分组的其他解码字符行的字符相似度最高的解码字符行,所述第一字符相似度的均值为所述第一类别的索引分组的每个解码字符行与中心字符行的第一字符相似度的均值;

确认所述第一字符相似度的均值的最大值大于第三阈值,将所述第一类别的索引分组的解码字符行提取到第一字符相似度的均值的最大值对应的中心字符行所在的索引分组;

计算所述第二类别的索引分组的每个解码字符行与同一索引分组的其他解码字符行的第二字符相似度,确定所述第二字符相似度小于第四阈值,将所述解码字符行提取到第一类别;

确定所述第二类别的索引分组的解码字符行的索引超过索引范围,将所述解码字符行提取到第一类别;

计算所述第一类别的解码字符行与每个所述中心字符行的第三字符相似度,确定所述第三字符相似度的最大值大于第五阈值,将所述解码字符行提取到所述第三字符相似度的最大值对应的中心字符行所在的索引分组中;

将所述第一类别的索引分组和所述第二类别的索引分组作为解码分组;

计算所述解码分组的解码字符行的每个位置的解码字符出现的频率,将出现的频率最高的解码字符作为所述位置的高频解码字符;

连接所述高频解码字符,得到高频解码字符行;

根据所述高频解码字符行的字符行索引和所述高频解码字符行的字符行字符,获取解码文本;

其中,所述编码表包括字符编码表和索引编码表,所述字符编码表的任意两个碱基序列的汉明距离大于第一阈值。

2.根据权利要求1所述一种DNA存储方法,其特征在于,还包括:确定所述测序序列的碱基数量小于碱基下限数量,删除所述测序序列;确定所述测序序列的碱基数量大于碱基上限数量,删除所述测序序列;

其中,所述碱基下限数量为测序序列中不存在特殊控制对应的碱基数量;所述碱基上限数量为测序序列中的每个解码字符对应一个特殊控制字符对应的碱基数量。

3.根据权利要求1所述一种DNA存储方法,其特征在于,还包括:确定所述测序序列中存在连续四个相同的碱基,删除所述测序序列;

其中,所述编码表的碱基序列的起始两个碱基不相同,所述编码表的碱基序列的结尾两个碱基不相同。

4.一种DNA存储系统,其特征在于,包括:

测序模块,用于对合成DNA进行DNA测序,得到若干测序序列,所述测序序列包括若干测序碱基序列;

纠错模块,用于确定编码表中不存在所述测序碱基序列,获取所述编码表中与所述测序碱基序列汉明距离最小的碱基序列替换所述测序碱基序列;

解码模块,用于根据所述编码表对替换后的所述测序序列进行解码,得到解码字符行,所述解码字符行包括字符行索引和字符行字符;

合成模块,用于执行以下步骤:

根据所述字符行索引对所述解码字符行进行分组,得到若干个索引分组,所述解码字符行的数量小于第二阈值的索引分组为第一类别,所述解码字符行的数量大于等于第二阈值的索引分组为第二类别;

计算所述第一类别的索引分组的解码字符行与每个中心字符行的第一字符相似度的均值的最大值;所述中心字符行为所述第二类别的索引分组中与同一索引分组的其他解码字符行的字符相似度最高的解码字符行,所述第一字符相似度的均值为所述第一类别的索引分组的每个解码字符行与中心字符行的第一字符相似度的均值;

确认所述第一字符相似度的均值的最大值大于第三阈值,将所述第一类别的索引分组的解码字符行提取到第一字符相似度的均值的最大值对应的中心字符行所在的索引分组;

计算所述第二类别的索引分组的每个解码字符行与同一索引分组的其他解码字符行的第二字符相似度,确定所述第二字符相似度小于第四阈值,将所述解码字符行提取到第一类别;

确定所述第二类别的索引分组的解码字符行的索引超过索引范围,将所述解码字符行提取到第一类别;

计算所述第一类别的解码字符行与每个所述中心字符行的第三字符相似度,确定所述第三字符相似度的最大值大于第五阈值,将所述解码字符行提取到所述第三字符相似度的最大值对应的中心字符行所在的索引分组中;

将所述第一类别的索引分组和所述第二类别的索引分组作为解码分组;

计算所述解码分组的解码字符行的每个位置的解码字符出现的频率,将出现的频率最高的解码字符作为所述位置的高频解码字符;

连接所述高频解码字符,得到高频解码字符行;

根据所述高频解码字符行的字符行索引和所述高频解码字符行的字符行字符,获取解码文本;

其中,所述编码表包括字符编码表和索引编码表,所述字符编码表的任意两个碱基序列的汉明距离大于第一阈值。

5.一种DNA存储系统,其特征在于,包括:

存储器,用于存储程序;

处理器,用于加载所述程序以执行如权利要求1‑3任一项所述的DNA存储方法。

6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1‑3任一项所述的DNA存储方法。