欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019106123328
申请人: 厦门极元科技有限公司
专利类型:发明专利
专利状态:授权未缴费
专利领域: 基本电子电路
更新日期:2025-07-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种数据压缩方法,包括:

获取测序数据中的质量值序列;

获取所述质量值序列中的任一质量值的优先级分数,所述优先级分数表征所述任一质量值对于与所述测序数据相关的基因型的影响程度;

基于所述优先级分数对所述任一质量值的比特平面进行位移,得到更新的质量值序列;以及基于比特平面编码算法对所述更新的质量值序列进行编码,得到所述质量值序列的压缩比特流。

2.根据权利要求1所述的方法,其中,所述获取所述质量值序列中的任一质量值的优先级分数包括:为所述任一质量值设置第一偏差量和第二偏差量;

在所述任一质量值增加所述第一偏差量的情况下,计算与所述测序数据相关的基因型的第一概率;

在所述任一质量值减少所述第二偏差量的情况下,计算与所述测序数据相关的基因型的第二概率;以及基于所述第一偏差量、所述第二偏差量、所述第一概率和所述第二概率,得到所述任一质量值的优先级分数。

3.根据权利要求2所述的方法,其中,所述计算与所述测序数据相关的基因型的第一概率和所述计算与所述测序数据相关的基因型的第二概率包括:基于贝叶斯算法计算与所述测序数据相关的基因型的后验概率。

4.根据权利要求2所述的方法,其中,所述得到所述任一质量值的优先级分数包括:计算所述第一概率和所述第二概率之间的第三偏差量;

将所述第一偏差量和所述第二偏差量之和作为第四偏差量;以及基于所述第三偏差量和所述第四偏差量的比值,得到所述任一质量值的优先级分数。

5.根据权利要求2所述的方法,其中,所述计算与所述测序数据相关的基因型的第一概率和所述计算与所述测序数据相关的基因型的第二概率包括:当与所述测序数据相关的基因型包括多个基因型时,分别计算所述多个基因型中的任一基因型的第一概率和第二概率;

所述得到所述任一质量值的优先级分数包括:

计算所述任一基因型的第一概率和第二概率之间的第三偏差量;

将所述第一偏差量和所述第二偏差量之和作为第四偏差量;以及基于与所述多个基因型中的各基因型对应的第三偏差量的均值与所述第四偏差量的比值得到所述任一质量值的优先级分数,或者,当与所述任一基因型对应的第三偏差量大于与所述多个基因型中的其他基因型对应的第三偏差量时,基于与所述任一基因型对应的第三偏差量与所述第四偏差量的比值得到所述任一质量值的优先级分数。

6.根据权利要求1所述的方法,其中,所述基于所述优先级分数对所述任一质量值的比特平面进行位移包括:当所述优先级分数小于等于零时,确定位移量为0;

当所述优先级分数大于零小于第一数值时,确定所述位移量为所述优先级分数的取整结果;

当所述优先级分数大于等于所述第一数值时,确定所述位移量为所述第一数值;以及将所述任一质量值的比特平面移动所述位移量,得到所述更新的质量值序列。

7.根据权利要求1所述的方法,其中,所述测序数据包括按照预定顺序排列的多个短读长序列,所述短读长序列包括多个质量值,所述多个短读长序列中的质量值构成所述质量值序列。

8.根据权利要求7所述的方法,还包括:

在基于所述优先级分数对所述任一质量值的比特平面进行位移之前,根据所述任一质量值的属性信息为所述任一质量值划分区间,所述属性信息包括如下至少一项:所述任一质量值所在的短读长序列的比对方向是正向比对或反向比对,所述任一质量值所在的短读长序列是第一条序列或第二条序列,以及,所述任一质量值在其所在的短读长序列上的位置;以及对于任一区间内的任一质量值,基于预定映射规则将所述任一质量值映射为更新质量值,使得所述任一区间内的最大更新质量值小于等于所述任一区间内的最大质量值;

则所述基于所述优先级分数对所述任一质量值的比特平面进行位移包括:基于所述优先级分数对所述更新质量值的比特平面进行位移。

9.根据权利要求8所述的方法,其中,所述基于所述优先级分数对所述更新的所述任一质量值的比特平面进行位移包括:对于所述任一区间,基于所述任一区间内的最大更新质量值确定关于所述任一区间的最大比特平面;

对于任一更新质量值,计算所述任一更新质量值的二进制数据,以所述任一更新质量值所属的区间的最大比特平面作为所述二进制数据的最高位;

基于与所述任一更新质量值对应的质量值的优先级分数对所述二进制数据的比特平面进行位移;以及由位移后的各更新质量值的二进制数据构成所述更新的质量值序列。

10.根据权利要求9所述的方法,其中,所述基于比特平面编码算法对所述更新的质量值序列进行编码包括:按照比特平面从高至低的顺序对所述更新的质量值序列进行扫描,依次记录扫描到的比特位的取值,其中,如果扫描到的比特位的取值不存在,则跳过该比特位。

11.根据权利要求9所述的方法,其中,

所述基于所述任一区间内的最大更新质量值确定关于所述任一区间的最大比特平面包括:将所述最大更新质量值的最高位作为所述最大比特平面;并且/或者所述计算所述任一更新质量值的二进制数据包括:将所述任一更新质量值与所述任一更新质量值所属的区间内的最小更新质量值之间的差值转换为二进制形式,得到所述二进制数据。

12.一种数据解压方法,包括:

获取质量值序列的压缩比特流,所述质量值序列被划分为一个或多个区间,所述质量值序列包括多个质量值;

获取任一区间的最大比特平面和任一质量值的优先级分数;

基于所述最大比特平面、所述优先级分数、以及比特平面编码算法对所述压缩比特流进行解码,得到所述质量值序列;以及基于所述质量值序列,得到与所述质量值序列匹配的测序数据;

其中,所述优先级分数表征所述任一质量值的比特平面的位移,所述优先级分数表征所述任一质量值对于与所述测序数据相关的基因型的影响程度。

13.根据权利要求12所述的方法,其中,

所述获取质量值序列的压缩比特流包括:获取所述质量值序列的全部压缩比特流;

所述基于所述最大比特平面、所述优先级分数、以及比特平面编码算法对所述压缩比特流进行解码包括:对于任一质量值,根据各区间的最大比特平面、所述任一质量值所属的区间的最大比特平面、以及所述任一质量值的优先级分数,确定所述任一质量值的比特位分布;以及基于所述比特位分布,按照比特平面从高至低的顺序将所述压缩比特流的取值依次填入各比特位,得到所述质量值序列。

14.根据权利要求12所述的方法,其中,

所述获取质量值序列的压缩比特流包括:获取所述质量值序列的压缩比特流的前预定数量个比特位;

所述基于所述最大比特平面、所述优先级分数、以及比特平面编码算法对所述压缩比特流进行解码包括:对于任一质量值,根据各区间的最大比特平面、所述任一质量值所属的区间的最大比特平面、以及所述任一质量值的优先级分数,确定所述任一质量值的比特位分布;

基于所述比特位分布,按照比特平面从高至低的顺序将所述前预定数量个比特位的取值依次填入各比特位;以及对于任一质量值,如果存在无取值的比特位,对所述任一质量值进行重构,得到所述质量值序列。

15.根据权利要求14所述的方法,其中,所述对所述任一质量值进行重构包括:对于任一质量值,令所述任一质量值中无取值的比特位取值均为0,得到所述质量值的第一取值;

所述任一质量值中无取值的比特位取值均为1,得到所述质量值的第二取值;以及将所述第一取值作为所述任一质量值的重构取值,或者,将所述第二取值作为所述任一质量值的重构取值,或者,将所述第一取值和第二取值的均值作为所述任一质量值的重构取值。

16.根据权利要求12所述的方法,还包括:

在得到所述质量值序列之后,

获取预定映射规则;以及

基于所述预定映射规则将所述质量值序列逆向映射为原始质量值序列;

则所述得到与所述质量值序列匹配的测序数据包括:得到与所述原始质量值序列匹配的测序数据。

17.一种数据压缩装置,包括:

第一获取模块,用于获取测序数据中的质量值序列;

第二获取模块,用于获取所述质量值序列中的任一质量值的优先级分数,所述优先级分数表征所述任一质量值对于与所述测序数据相关的基因型的影响程度;

位移模块,用于基于所述优先级分数对所述任一质量值的比特平面进行位移,得到更新的质量值序列;以及编码模块,用于基于比特平面编码算法对所述更新的质量值序列进行编码,得到所述质量值序列的压缩比特流。

18.一种数据解压装置,包括:

第三获取模块,用于获取质量值序列的压缩比特流,所述质量值序列被划分为一个或多个区间,所述质量值序列包括多个质量值;

第四获取模块,用于获取任一区间的最大比特平面和任一质量值的优先级分数;

解码模块,用于基于所述最大比特平面、所述优先级分数、以及比特平面编码算法对所述压缩比特流进行解码,得到所述质量值序列;以及匹配模块,用于基于所述质量值序列,得到与所述质量值序列匹配的测序数据;

其中,所述优先级分数表征所述任一质量值对于与所述测序数据相关的基因型的影响程度。

19.一种计算机系统,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时用于实现如权利要求1~16任一项所述的方法。