1.一种等位基因的信息化鉴定方法,其特征在于,该方法包括以下步骤:
分别获取待鉴定基因碱基序列、比对基因碱基序列;
采用尼德曼-翁施Needleman-Wunsch算法获取待鉴定匹配碱基序列与每个比对匹配碱基序列的基因相似得分系数,用于表征待鉴定匹配碱基序列与每个比对匹配碱基序列中每个次序碱基的匹配程度;
采用均匀分段的方式将待鉴定匹配碱基序列、每个比对匹配碱基序列分别划分成相同长度的待鉴定二级序列、比对碱基二级序列;根据待鉴定二级序列与比对碱基二级序列之间碱基的匹配特征获取待鉴定二级序列与比对碱基二级序列之间的序列匹配得分系数;
利用阈值分割算法获取鉴定匹配碱基序列与每个比对匹配碱基序列之间所有所述序列匹配得分系数的分割阈值;将所述序列匹配得分系数大于分割阈值的比对碱基二级序列标记为相似序列,将所述序列匹配得分系数小于分割阈值的比对碱基二级序列标记为偏差序列;
将每个比对匹配碱基序列划分的所有比对碱基二级序列中每处相邻偏差序列组成的集合作为一个基因偏差组;
将当前基因偏差组中最后一个偏差序列的次序值与当前基因偏差组相邻下一个基因偏差组中第一个偏差序列的次序值之间差值的绝对值作为当前基因偏差组的基因偏差距离;
其中,对于每个比对匹配碱基序列中最后一个基因偏差组,将每个比对匹配碱基序列中第一个基因偏差组至倒数第二个基因偏差组的基因偏差距离的均值作为最后一个基因偏差组的基因偏差距离;
根据每个比对匹配碱基序列中所有基因偏差组的基因偏差距离获取待鉴定匹配碱基序列与每个比对匹配碱基序列之间的基因差异反馈系数根据待鉴定匹配碱基序列与所有比对匹配碱基序列之间的基因差异反馈系数获取待鉴定匹配碱基序列与每个比对匹配碱基序列之间的基因吻合优异指数;根据所述基因吻合优异指数以及每个比对匹配碱基序列的等位基因组获取待鉴定匹配碱基序列与每个比对匹配碱基序列之间的等位基因类别关联指数;根据每个比对匹配碱基序列对应的基因吻合优异指数的取值情况获取每个比对基因碱基序列的等位特征向量;每个等位特征向量中包含基因吻合优异指数、等位基因类别关联指数、等位基因置信系数三个元素;,其中,为待鉴定匹配碱基序列,为第i个比对匹配碱基序列,为第i个比对基因碱基序列;待鉴定匹配碱基序列与比对匹配碱基序列之间的相似性越高,碱基序列匹配程度越高,的值越大;待鉴定基因碱基序列W、比对基因碱基序列是等位基因的概率越大,的值越大,的值越大;
采用随机抽取的方式从所有比对基因碱基序列中分别获取每个比对基因碱基序列的同类基因组、非同类基因组;
获取每个比对基因碱基序列与其对应非同类基因组内所有比对基因碱基序列之间的基因吻合优异指数的均值作为所述非同类基因组的代表值,将预设数量个所述非同类基因组的代表值的均值作为第一决策阈值;
获取每个比对基因碱基序列与其对应同类基因组内所有比对基因碱基序列之间的基因吻合优异指数的均值作为所述同类基因组的代表值,将预设数量个所述同类基因组的代表值的均值作为第二决策阈值;
根据每个比对匹配碱基序列对应的基因吻合优异指数与第一决策阈值、第一决策阈值的对比结果获取每个比对匹配碱基序列的等位基因置信系数;
采用聚类算法基于所述等位特征向量得到所有比对基因碱基序列的分类结果;根据所述分类结果得到待鉴定基因碱基序列的等位基因的鉴定结果。
2.根据权利要求1所述的一种等位基因的信息化鉴定方法,其特征在于,所述采用尼德曼-翁施Needleman-Wunsch算法获取待鉴定匹配碱基序列与每个比对匹配碱基序列的基因相似得分系数的方法为:将待鉴定基因碱基序列与每一个比对基因碱基序列作为尼德曼-翁施Needleman-Wunsch算法的输入,将尼德曼-翁施Needleman-Wunsch算法输出的待鉴定基因碱基序列的最优匹配碱基序列记为待鉴定匹配碱基序列;将尼德曼-翁施Needleman-Wunsch算法输出的每一个比对基因碱基序列的最优匹配碱基序列记为一个比对匹配碱基序列;
根据待鉴定匹配碱基序列与每一个比对匹配碱基序列之间的碱基匹配结果获取待鉴定匹配碱基序列与每一个比对匹配碱基序列之间的基因相似得分系数。
3.根据权利要求2所述的一种等位基因的信息化鉴定方法,其特征在于,所述根据待鉴定匹配碱基序列与每一个比对匹配碱基序列之间的碱基匹配结果获取待鉴定匹配碱基序列与每一个比对匹配碱基序列之间的基因相似得分系数的方法为:将待鉴定匹配碱基序列与每一个比对匹配碱基序列中满足预设条件、不满足预设条件的每个次序下碱基的匹配得分分别置为1、-1;
根据待鉴定匹配碱基序列与每一个比对匹配碱基序列中每个次序下碱基为空白碱基的数量确定每个次序下碱基的匹配得分权重;
将所述每个次序下碱基的匹配得分与匹配得分权重的乘积作为第一累加因子,将第一累加因子在待鉴定匹配碱基序列与每一个比对匹配碱基序列中所有次序上的累加作为待鉴定匹配碱基序列与每一个比对匹配碱基序列之间的基因相似得分系数。
4.根据权利要求1所述的一种等位基因的信息化鉴定方法,其特征在于,所述根据待鉴定二级序列与比对碱基二级序列之间碱基的匹配特征获取待鉴定二级序列与比对碱基二级序列之间的序列匹配得分系数的方法为:将待鉴定二级序列与每个比对碱基二级序列中所有次序下碱基的匹配得分的和作为待鉴定二级序列与每个比对碱基二级序列之间的序列匹配得分系数。
5.根据权利要求4所述的一种等位基因的信息化鉴定方法,其特征在于,所述根据每个比对匹配碱基序列中所有基因偏差组的基因偏差距离获取待鉴定匹配碱基序列与每个比对匹配碱基序列之间的基因差异反馈系数的方法为:将每个比对匹配碱基序列中所有相似序列对应的序列匹配得分系数的均值与所有偏差序列对应的序列匹配得分系数的均值之间的差值作为第一差值;将以自然常数为底数,以第一差值为指数的计算结果作为第一乘积因子;
将分割阈值与每个基因偏差组中每个偏差序列对应的序列匹配得分系数的差值在每个基因偏差组上的累加作为分子,将每个基因偏差组的基因偏差距离作为分母,将分子与分母的比值作为每个基因偏差组的组偏差系数;将每个比对匹配碱基序列中所有基因偏差组的组偏差系数的和作为第二乘积因子;
待鉴定匹配碱基序列与每个比对匹配碱基序列之间的基因差异反馈系数由第一乘积因子、第二乘积因子两部分组成,其中,所述基因差异反馈系数与第一乘积因子、第二乘积因子成正比关系。
6.根据权利要求1所述的一种等位基因的信息化鉴定方法,其特征在于,所述根据待鉴定匹配碱基序列与所有比对匹配碱基序列之间的基因差异反馈系数获取待鉴定匹配碱基序列与每个比对匹配碱基序列之间的基因吻合优异指数的方法为:获取待鉴定基因碱基序列长度与每个比对基因碱基序列长度之间的最小值,将以自然常数为底数,以所述最小值与待鉴定匹配碱基序列长度的差值绝对值为指数的计算结果作为第二差值;
将第二差值的相反数与预设参数之和作为分子,将以自然常数为底数,以每个比对匹配碱基序列之间长度差值的绝对值为指数的计算结果为分母,将分子与分母的比值作为待鉴定匹配碱基序列与每个比对匹配碱基序列之间的基因列长吻合系数;
将每个比对匹配碱基序列对应的基因相似得分系数与待鉴定匹配碱基序列和所有比对匹配碱基序列之间基因相似得分系数最小值之间的差值作为分子,将分子与每个比对匹配碱基序列对应的基因差异反馈系数的比值作为第一组成因子;
待鉴定匹配碱基序列与每个比对匹配碱基序列之间的基因吻合优异指数由基因列长吻合系数、第一组成因子两部分组成,其中,所述基因吻合优异指数与基因列长吻合系数、第一组成因子成正比关系。
7.根据权利要求1所述的一种等位基因的信息化鉴定方法,其特征在于,所述根据所述基因吻合优异指数以及每个比对匹配碱基序列的等位基因组获取待鉴定匹配碱基序列与每个比对匹配碱基序列之间的等位基因类别关联指数的方法为:从基因数据库中获取每个比对基因碱基序列的同类别等位基因组;将所述同类别等位基因组中每个比对基因碱基序列对应的比对匹配碱基序列对应的基因吻合优异指数之和与所述同类别等位基因组中所有比对基因碱基序列数量的比值作为第三组成因子;
每个比对匹配碱基序列对应的基因吻合优异指数与第三组成因子的和作为待鉴定匹配碱基序列与每个比对匹配碱基序列之间的等位基因类别关联指数。
8.根据权利要求1所述的一种等位基因的信息化鉴定方法,其特征在于,所述采用聚类算法基于所述等位特征向量得到所有比对基因碱基序列的分类结果的方法为:将所有比对基因碱基序列的等位特征向量作为聚类算法的输入,利用聚类算法获取所有比对基因碱基序列的等位特征向量的分类结果。