欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2022112603930
申请人: 徐州工业职业技术学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-04-14
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,包括:

1 1

对包含N ‑甲基腺苷修饰位点的RNA碱基序列为正样本和不包含N ‑甲基腺苷修饰位点的RNA碱基序列为负样本,每个样本取3组不同尺度的RNA碱基序列作为输入序列;

对3组输入序列均依次进行word2vec词嵌入编码和位置编码;

将编码后的3组序列输入到编码模块中,获得特征矩阵;其中,所述编码模块包括:多个依次串联的编码块;所述编码块包括:一个多尺度交叉注意力层和一个前向反馈全连接层,且每层之间通过残差连接和标准化层处理;

将经过编码模块的输出结果求平均值,后经过全连接神经网络层和两分类器,预测人1

类物种RNA碱基序列中是否包含N‑甲基腺苷修饰位点;

所述多尺度交叉注意力层,包括:

序列a进行自注意力计算的同时,序列a分别与序列b、序列c进行交叉注意力计算,交叉注意力是指第一个序列用作查询query输入,另一个序列用做键key输入和值value输入,进行注意力计算;将3种注意力的输出结果加起来作为交叉注意力层的输出,实现多尺度交叉注意力层;

所述多尺度交叉注意力层中的交叉注意力机制算法,包括:多个相同维度不同尺度的独立序列,其中,第一个序列用作查询query输入,剩下序列分别与第一个序列进行注意力计算,即剩下序列在进行注意力计算时,用做键key输入和值value输入;其具体包括:一个序列为序列a,另一个序列为序列b,序列a做查询输入,序列b中每个键与值对应;

将序列a的查询与序列b的键之间先做矩阵相乘再做放缩,产生一个注意力得分;使用softmax函数对注意力得分做归一化处理,得到每个键的权重,将权重矩阵相乘序列b的值得到交互注意力输出,其对应的等式如下:其中,softmax的作用是对向量做归一化,即对相似度的归一化,得到了一个归一化之后的权重矩阵,矩阵中,某个值的权重越大,表示相似度越高;Qa是序列a查询向量、Kb是序列Tb键向量、Vb是序列b值向量,dk为序列b键向量的维度大小,Kb 为序列b键向量的转置;当输入序列为X时,首先使用线性投影将序列X转换成Qx、Kx、Vx,它们都是从同样的输入序列X线性变换而来的,通过以下等式表示:Q

Qx=XW

K

Kx=XW

V

Vx=XW

Q K V

上式中,W ,W ,W是对应的投影矩阵,其值最初随机初始化,最终值由网络自己学习得到;

所述多尺度交叉注意力层的算法,包括:

将多尺度交叉注意力机制中的不同序列的查询、键和值分别h次线性投影到dk、dk和dv维度上,其中dv为值向量V的维度大小,在每个查询、键和值的投影版本上,并行执行交叉注意力机制,产生dv维度的输出值;将以上h次集成交叉注意力的输出值拼接起来,再次投影到线性网络,产生最终值;即所述多尺度交叉注意力层对应的数学公式形式如下:O

MultiHead(Q,K,V)=Concat(head1,...,headh)W其中,Concat为对多个多尺度交叉注意力的输出headi拼接,i取值正整数,代表第i头O数,W为多个多尺度交叉注意力拼接的权重,Qa是序列a查询向量,Ka、Kb、Kc分别是序列a键向量、序列b键向量、序列c键向量、Va、Vb、Vc是序列a值向量、序列b值向量、序列c值向量;

一个序列为序列a,另一个序列为相同序列a,序列a做查询输入,序列a中每个键与值对应,此时做自注意力机制, 代表此时查询向量Qa的权重, 代表此时键向量Ka的权重,代表此时值向量Va的权重,三个权重最初随机初始化,最终值由网络自己学习得到;一个序列为序列a,另一个序列为相同序列b,序列a做查询输入,序列b中每个键与值对应,此时做注意力机制, 代表此时查询向量Qa的权重, 代表此时键向量Kb的权重, 代表此时值向量Vb的权重,三个权重最初随机初始化,最终值由网络自己学习得到;一个序列为序列a,另一个序列为相同序列c,序列a做查询输入,序列c中每个键与值对应,此时做注意力机制, 代表此时查询向量Qa的权重, 代表此时键向量Kc的权重, 代表此时值向量Vc的权重,三个权重最初随机初始化,最终值由网络自己学习得到,且R为代表

集合实数集,实数集是包含所有有理数和无理数集,此处dk=8;dv为值向量V的维度大小,此处dv=8;dmodel为输出维度,此处dmodel=64;

以上公式,使用h=8个并行注意力层或头,对于其中的每一个,使用dk=dv=dmodel/h=

8。

2.如权利要求1所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,还包括:构建数据集;

所述数据集包括:RNA碱基序列为正样本、RNA碱基序列为负样本和类别标签,且样本长度是41bp;输入序列设为序列a、序列b和序列c,其分别是长度为xbp、ybp、zbp不同尺度序列组成的集合;

所述数据集的训练集与测试集表示为:

其中,yn∈{0,1}, 分别表示样本长度为xbp、ybp、zbp不同尺度的辅助序列,辅助序列是以序列中心为中心点左右截取不同尺度的序列。

3.如权利要求2所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,所述每个样本取3组不同尺度的RNA碱基序列作为输入序列,包括:数据集中样本序列是以共同基序A为中心,前后取值窗口为大小不同的bp,x1bp、y1bp、1

z1bp共3个不同大小,即每个m A正样本/负样本由xbp、ybp、zbp组成,当样本序列在某些位置不存在碱基时,缺少碱基使用‘‑’字符填充;此处x1=10,y1=15,z1=20,因此,x=21,y=31,z=41。

4.如权利要求1所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,所述word2vec词嵌入编码,具体包括:利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此会获得105种不同的子序列和唯一的整数序列组成的字典;

针对不同尺度的样本序列,分别使用word2vec的CBOW模型编码RNA序列;对于41个碱基的样本,利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此,得到39个由3个碱基组成的子序列,使用word2vec的CBOW模型编码RNA序列,因此,每个子序列被转换成表征语义的词向量,再利用得到的词向量将RNA碱基序列中长度为41bp转换成39*100的矩阵,其中,39为预处理时词的个数,100为词向量维度。

5.如权利要求1所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,所述编码模块包括:3个依次串联的编码块。

6.如权利要求1所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,所述编码模块包括:其输出的维度dmodel=64,多头数h=8,前向反馈网络维度d_ff=256,暂时从网络中丢弃的概率为dropout=0.1。

7.如权利要求1所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,所述前向反馈全连接层,包括:两个线性变换,中间有一个Relu激活函数;所述前向反馈全连接层对应的数学公式形式如下:FFN(x)=max(0,xW1+b1)W2+b2

公式中,W1、W2、b1和b2分别为反馈全连接层的参数;max()即代表了ReLU激活函数。