欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2022103944902
申请人: 南通大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-27
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于大样本的基因‑环境互作关联分析方法,其特征在于,执行如下步骤S1‑步骤S5,获得基因‑环境互作得分测试统计量,然后应用基因‑环境互作得分测试统计量,完成对基因序列与环境信息是否存在互作效应的判断;

S1:采集目标个体的基因序列、环境信息、表型信息,并基于预设目标个体的基因序列、环境信息、表型信息构建目标个体的基因‑环境样本;

S2:基于目标个体的基因‑环境样本中的基因序列、环境信息,以基因序列中预设基因‑环境互作位点的基因为焦点变体,针对该焦点变体,构建焦点变体所对应的基因型向量,基于目标个体的环境信息,构建环境信息所对应的环境矩阵;

S3:基于步骤S2所获得的基因型向量、环境矩阵,通过矩阵乘法,构建基因‑环境交互设计矩阵,并根据对效应的假定,构建基因型向量所对应的焦点变体固定效应向量、环境矩阵所对应的环境随机效应向量、基因‑环境交互设计矩阵所对应的基因‑环境交互随机效应向量;

基于目标个体的表型信息,构建数量性状表型向量;

基于基因型向量、焦点变体固定效应向量、环境矩阵、环境随机效应向量、基因‑环境交互设计矩阵、基因‑环境交互随机效应向量,以及数量性状表型向量,构建基因‑环境检测线性混合模型;

S4:基于步骤S3所构建的基因‑环境检测线性混合模型,采用预处理共轭梯度法、矩估计方法对基因‑环境检测线性混合模型进行求解,构建服从于卡方分布的基因‑环境互作得分测试统计量,所述基因‑环境互作得分测试统计量用于判断所述环境信息是否对目标个体的预设所有基因‑环境互作位点的基因产生影响;

S5:基于步骤S4所构建的基因‑环境互作得分测试统计量,通过对基因序列中各基因‑环境互作位点的随机抽样,计算基因‑环境互作得分测试统计量所对应的卡方分布的系数a值,进而获得所有基因‑环境互作位点的卡方分布的P值,并预设基因‑环境互作阈值,当卡方分布P值小于基因‑环境互作阈值,则判定环境信息对该基因‑环境互作位点的基因产生影响,即存在基因‑环境互作效应,否则判定环境信息对该基因‑环境互作位点的基因不产生影响,即不存在基因‑环境互作效应。

2.根据权利要求1所述的一种基于大样本的基因‑环境互作关联分析方法,其特征在于,步骤S3中构建基因‑环境交互设计矩阵如下式:S=G⊙E=diag(G)E

式中,S为基因‑环境交互设计矩阵,其形式为N×Q维矩阵,N为样本量大小,Q为环境信息个数,⊙表示哈达玛积矩阵乘法计算,G为焦点变体所对应的基因型向量,E为环境信息所对应的环境矩阵,其形式为N×Q维的矩阵;

步骤S3中所构建的基因‑环境检测线性混合模型如下式:

Y=XβX+GβG+EβE+SβS+u+ε

式中,Y为数量性状表型向量,其形式为N×1维向量,N为样本量大小,X为包括截距的固定效应设计矩阵,其形式为N×P维的协变量矩阵,βX为P×1维的固定效应向量,G为焦点变体所对应的基因型向量,其形式为N×1维的向量,βG为基因型向量所对应的焦点变体固定效应向量,E为环境信息所对应的环境矩阵,其形式为N×Q维的矩阵,βE为环境矩阵所对应的环境随机效应向量,其形式为Q×1维的向量,且βE服从正态分布,即 为环境方差组分;βS为基因‑环境交互设计矩阵所对应的基因‑环境交互随机效应向量,且βS服从正态分布,即 为基因‑环境方差组分;u为随机效应分量,其服从正态分布,即 为随机效应分量的方差组分,其中 其形式为N×N维亲缘关系矩阵,Z为N×M维矩阵,且Z=(G1,G2,…,GM),其中M为标记个数,即全基因组单核苷酸多态性的个数;ε为残差误差,其服从正态分布,即 为残差误差的方差组分,其中,IN为N×N维的单位矩阵。

3.根据权利要求2所述的一种基于大样本的基因‑环境互作关联分析方法,其特征在于,步骤S4中采用预处理共轭梯度法、矩估计方法对基因‑环境检测线性混合模型进行求解,构建服从于卡方分布的基因‑环境互作得分测试统计量的具体步骤如下:S41:分别针对环境矩阵所对应的环境随机效应向量βE、基因‑环境交互设计矩阵所对应的基因‑环境交互随机效应向量βS、随机效应分量u、残差误差ε进行积分计算,获得数量性状表型向量Y的多元正态分布如下式:T

式中,diag(G)E=G⊙E=S,∑E=EE;

S42:基于步骤S41所获得的多元正态分布数量性状表型向量Y,构建服从于卡方分布的基因‑环境互作得分测试统计量T如下式:式中:

K=diag(G)∑Ediag(G)

T

=[diag(G)E][diag(G)E]

基因‑环境互作得分测试统计量T表示为如下形式:

式中:

S=G⊙E=diag(G)E

式中:

其中H0表示基因‑环境方差组分 时估计的总协方差矩阵,矩阵H0如下式:式中,式中 分别表示各方差组分 的估计值;

S43:针对各方差组分 采用矩估计方法对其进行求解,基于各方差组分构建的最小二乘问题模型如下式:

T

式中,YY为经验协方差的估计,其中Y为数量性状表型向量;

S44:采用矩估计方法对方差组分进行求解如下式:

式中,V表示为如下形式:

T ‑1 T

V=IN‑X(XX) X

式中,D为一个2×2维矩阵,具体表示为如下形式:

其中,Tr表示矩阵的迹;

式中,b为一个2×1维列向量,具体表示为如下形式:

式中,c为一个2×1维列向量,具体表示为如下形式:

S45:针对步骤S44所获得的矩阵D,通过近似迭代法,对其进行预设次数的迭代,并采用Hutchinson估计器获得矩阵D中各元素的迹。

4.根据权利要求3所述的一种基于大样本的基因‑环境互作关联分析方法,其特征在于,步骤S5中通过对基因序列中各基因‑环境互作位点的随机抽样,计算基因‑环境互作得分测试统计量T所对应的卡方分布的系数a值,进而获得所有基因‑环境互作位点的卡方分布的P值,并基于预设基因‑环境互作阈值,对环境信息是否对该基因‑环境互作位点的基因产生影响进行判定的具体步骤如下:S51:基因‑环境互作得分测试统计量T服从卡方分布,具体表示为如下形式:式中,a为卡方分布的系数, 表示自由度为1的卡方分布;

S52:对目标个体的基因序列中各基因‑环境互作位点进行n次随机抽样,分别针对每次T T随机抽取的基因‑环境互作位点的基因,根据SRY=aSY,获得本次随机抽样a的值,经过n次随机抽样,获得n个a的值,针对n个a的值计算平均值,获得卡方分布的系数a的估计值S53:将步骤S52获得卡方分布的系数a的估计值 代入步骤S51的基因‑环境互作得分测试统计量T,将基因‑环境互作得分测试统计量T转化为如下形式:基于卡方分布表,获得基因‑环境互作得分测试统计量T所对应的卡方分布P值。

5.一种基于大样本的基因‑环境互作关联分析系统,其特征在于,包括:一个或多个处理器;

存储器,存储可被操作的指令,所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作,通过以下步骤获得基因‑环境互作得分测试统计量,然后应用基因‑环境互作得分测试统计量,完成对基因序列与环境信息是否存在互作效应的判断:S1:采集目标个体的基因序列、环境信息、表型信息,并基于目标个体的基因序列、环境信息、表型信息构建目标个体的基因‑环境样本;

S2:基于目标个体的基因‑环境样本中的基因序列、环境信息,以基因序列中预设基因‑环境互作位点的基因为焦点变体,针对该焦点变体,构建焦点变体所对应的基因型向量,基于目标个体的环境信息,构建环境信息所对应的环境矩阵;

S3:基于步骤S2所获得的基因型向量、环境矩阵,通过矩阵乘法,构建基因‑环境交互设计矩阵,并根据对效应的假定,构建基因型向量所对应的焦点变体固定效应向量、环境矩阵所对应的环境随机效应向量、基因‑环境交互设计矩阵所对应的基因‑环境交互随机效应向量;

基于目标个体的表型信息,构建数量性状表型向量;

基于基因型向量、焦点变体固定效应向量、环境矩阵、环境随机效应向量、基因‑环境交互设计矩阵、基因‑环境交互随机效应向量,以及数量性状表型向量,构建基因‑环境检测线性混合模型;

S4:基于步骤S3所构建的基因‑环境检测线性混合模型,采用预处理共轭梯度法、矩估计方法对基因‑环境检测线性混合模型进行求解,构建服从于卡方分布的基因‑环境互作得分测试统计量,所述基因‑环境互作得分测试统计量用于判断所述环境信息是否对目标个体的预设所有基因‑环境互作位点的基因产生影响;

S5:基于步骤S4所构建的基因‑环境互作得分测试统计量,通过对基因序列中各基因‑环境互作位点的随机抽样,计算基因‑环境互作得分测试统计量所对应的卡方分布的系数a值,进而获得所有基因‑环境互作位点的卡方分布的P值,并预设基因‑环境互作阈值,当卡方分布P值小于基因‑环境互作阈值,则判定环境信息对该基因‑环境互作位点的基因产生影响,即存在基因‑环境互作效应,否则判定环境信息对该基因‑环境互作位点的基因不产生影响,即不存在基因‑环境互作效应。

6.一种存储软件的计算机可读取介质,其特征在于,所述可读取介质包括能通过一个或多个计算机执行的指令,所述指令在被所述一个或多个计算机执行时,执行如所述权利要求1‑4中任意一项所述一种基于大样本的基因‑环境互作关联分析方法的操作。