欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2023101734143
申请人: 广州大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-04
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于调制技术的多级目录DNA存储编解码方法,其特征在于,包括如下步骤:S100:生成引物序列和文件数据序列的调制码表,进而构建引物序列数据集和文件绝对路径集;

S200:按需从引物序列数据集选择合适引物、从文件绝对路径集选择合适的文件绝对路径,将待存储二进制文件调制成一定长度的DNA序列,合成后进行体外存储;

S300:选择目标引物,从合成池中扩增出目标逻辑磁盘下的DNA分子,并测序;

S400:对测序数据的每个读长根据观测调制序列,按照编辑距离最近原则,确定该读长的文件绝对路径;并根据文件绝对路径将测序数据进行分组;

S500:参照各分组测序数据对应的文件绝对路径和DNA编码序列长度生成用于解码该分组数据的调制序列;并用此调制序列按照调制DNA存储解码算法解码数据;

所述S200具体包括:

1)从引物序列数据集P中选择一条引物pr用做逻辑磁盘标识符;

2)从文件绝对路径集Cdir中选一条文件绝对路径ci,根据编码DNA序列长度N,重复该文件绝对路径次构成用于待存储文件fi的调制序列cf;

3)使用cf将待存储文件fi调制成DNA序列集合Si;

4)将Si每一序列头部添加引物pr构成DNA序列集合S'i,用于DNA合成后存储;

所述S400具体包括:

1)对测序数据的每个读长rj根据调制规则得到其对应的观测调制序列oj;

2)按照编辑距离最近原则,从文件绝对路径集Cdir中选择一条与oj编辑距离最近的文件绝对路径ci,并将该文件绝对路径分配给当前测序读长rj;

3)根据每条测序读长对应的文件绝对路径进行分组;

根据所述观测调制序列oj确定其所属的文件绝对路径ci的具体方法为:

1)将文件绝对路径集Cdir中每一条文件绝对路径,重复次得到用于存储文件的调制序列,新的调制序列集记为C'dir;

2)按照编辑距离最近原则确定观测调制序列oj所属的调制序列c'i∈C'dir,进而将文件绝对路径ci∈Cdir分配给该观测调制序列。

2.根据权利要求1所述的基于调制技术的多级目录DNA存储编解码方法,其特征在于,所述步骤S100具体包括以下步骤:

1)生成指定长度n的二进制序列集M,作为后续引物和文件数据序列的调制码表,n>0,|M|≥3,该调制码表集合满足如下三个条件:条件一:任意一个元素字符‘0’和‘1’的含量介于45%到55%之间;

条件二:任意一个元素连续相同字符的个数不超过3;

条件三:任意两个元素的移位距离均大于一定阈值d,0

假定两个长度为n的字符串xi和xj,字符串xi和xj之间的移位距离H(xi,xj)定义为其中ρk表示偏移k个位置,cij为序列xj偏移k个位置后与xi的最大相同字符之和;

2)二进制序列集M中的任意一个元素mi用于生成引物序列所需的调制序列cp,生成长度为|cp|的二进制序列集合Cb,且集合Cb任意两个元素的最小汉明距离大于等于|Cp|/2,将Cb集合的每一个元素与cp,调制成DNA序列放入引物集合P中;

3)二进制序列集M中删除mi,新集合表示为M',文件绝对路径是一串长度为n的倍数的二进制字符串构成,且该字符串从左到右每n个字符构成的子串均来自于M';为了便于用户管理文件,文件绝对路径可划分为目录ID和文件ID两部分,假定文件绝对路径长度为Adir,动态调整目录ID和文件ID的比例,获得不同数量的文件绝对路径,将满足条件的文件绝对路径放入集合Cdir中。

3.根据权利要求2所述的基于调制技术的多级目录DNA存储编解码方法,其特征在于,所述二进制序列集M中的任意一个元素mi用于生成引物序列所需的调制序列cp,调制序列按如下原则生成:原则1:cp由mi拼接次而成;

原则2:cp的长度介于设计常规引物序列的长度范围。

4.根据权利要求2所述的基于调制技术的多级目录DNA存储编解码方法,其特征在于,所述目录ID表示为多层嵌套目录便于用户管理文件,具体表示方法如下:假定目录ID长度为DL,则该长度的目录最多可以表示的嵌套层数为DL/n个,每一层表示|M'|个同级目录,最大可表示的目录数量为

5.根据权利要求2所述的基于调制技术的多级目录DNA存储编解码方法,其特征在于,所述文件ID表示的文件数量是|M'|的指数形式,具体表示的数量为:假定文件ID的长度为FL,则该长度的文件ID可以表示的最大文件数量为

6.根据权利要求1所述的基于调制技术的多级目录DNA存储编解码方法,其特征在于,所述步骤S500具体包括:

1)参照各分组测序数据对应的文件绝对路径ci∈Cdir和DNA编码序列长度生成用于解码该分组数据的调制序列c'i∈C'dir;

2)应用调制序列c'i按照调制DNA存储解码算法解码文件绝对路径为ci∈Cdir的所有测序读长。