1.一种分布式计算资源异常的快速响应方法,其特征在于,所述方法包括以下步骤:对分布式节点中的计算资源的负载情况进行实时监测,得到监测数据;
通过监测数据,计算每个分布式节点的异常容度;
根据每个分布式节点的异常容度,筛选出异常的计算资源;
在分布式节点中,对于异常的计算资源,启动快速响应;
对分布式节点中的计算资源的负载情况进行实时监测,得到监测数据的方法具体为:记分布式节点的数量为N个,记Dnode(i)为这N个分布式节点中的第i个,设定长度为Tk的时段T,在时段T内,以每秒为间隔实时地记录每个分布式节点中的计算资源的负载,共记录Tk个负载数据,则每个分布式节点在时段T内分别对应着Tk个负载数据,以数组LC(i)存储Dnode(i)所对应的负载数据;将N个分布式节点Dnode(1),Dnode(2),…,Dnode(N)对应的数组LC(1),LC(2),…,LC(N)作为监测数据;
通过监测数据,计算每个分布式节点的异常容度的方法具体为:
设置子算法为:创建一个空白的数组Bv
在子算法中,将i从i=1遍历至i=N,进而得到N个数组Bv记数组Bv
以Abt(i)表示分布式节点Dnode(i)的异常容度,Abt(i)的计算方法为:将数组Bv根据每个分布式节点的异常容度,筛选出异常的计算资源的方法具体为:S1,将N个异常容度Abt(1),Abt(2),…,Abt(N)以数组Abt存储,记w创建一个空白的数组Zk,数组Zk用于存储异常的分布式节点序号,设置变量k=1,转至S2;
S2,如果Abt(k)大于Ck,则将当前k的值加入数组Zk中,转至S3;
S3,如果变量k的值小于N,则将k的值增加1,并转至S2;如果k的值等于或大于N,则转至S4;
S4,记数组Zk内含有R个值,以Zk(r)表示数组Zk内的第r个值,r为序号,r=1,2,…,R;将Dnode(Zk(1)),Dnode(Zk(2)),…,Dnode(Zk(R))这R个分布式节点内的计算资源标记为异常的计算资源。
2.根据权利要求1所述的一种分布式计算资源异常的快速响应方法,其特征在于,分布式节点为物理节点或者虚拟节点,分布式节点有多个,每个分布式节点上配置有CPU或/和GPU,所有分布式节点用于执行计算任务并协同工作。
3.根据权利要求1所述的一种分布式计算资源异常的快速响应方法,其特征在于,所述分布式节点中的计算资源,是指配置在分布式节点中的CPU或/和GPU;所述分布式节点中的计算资源的负载,是指配置在分布式节点中的CPU的每秒利用率或者GPU的每秒利用率,或者指配置在分布式节点中的CPU的每秒利用率和GPU的每秒利用率的总和。
4.根据权利要求1所述的一种分布式计算资源异常的快速响应方法,其特征在于,在分布式节点中,对于异常的计算资源,启动快速响应的方法具体为:暂停异常的计算资源正在处理的计算任务,并将这些任务转移至其他分布式节点。