1.一种基于改进粒子群算法的文本分类方法,其特征在于,包括以下步骤:S1:获取原始情感语句文本数据集,对数据集中的原始情感语句文本打上类别标签;
S2:将原始情感语句文本数据集作为第一训练样本对双向长短时记忆神经网络进行训练,生成第一文本分类模型;
S3:根据原始情感语句文本构建无向图,根据无向图通过改进的粒子群算法计算得出最优对抗样本;
S4:将原始情感语句文本数据集和最优对抗样本作为第二训练样本,对第一文本分类模型进行对抗训练,得到第二文本分类模型;
S5:获取待分类的目标文本,将目标文本输入第二分类模型进行分类,输出分类结果。
2.根据权利要求1所述的一种基于改进粒子群算法的文本分类方法,其特征在于,所述根据原始情感语句文本构建无向图包括以下步骤:S21:将原始情感语句文本进行分词处理,得到原始情感语句文本的原始分词集合其中, 表示原始分词集合中第n个原始分词,n∈[1,N],N表示原始分词集合中原始分词的数量;
S22:将原始分词 作为无向图的初始节点;
S23:将原始分词 的拼音、原始分词 的英文翻译和原始分词 的形近词作为初始节点的邻接节点;
S24:将原始分词 的同音词作为拼音节点的邻接节点;将原始分词 的拼音字母组合作为拼音节点的邻接节点;
S25:将原始分词 的英语音译作为英文翻译节点的邻接节点,从而获得原始分词的无向图;
S26:将原始分词的初始节点的路径信息标记为0,原始分词 的拼音节点、原始分词的英文翻译节点和原始分词 的形近词节点的路径信息标记为1,原始分词 的拼音节点和原始分词 的拼音首字母节点的路径信息标记为2,原始分词 的英语音译节点的路径信息标记为3。
3.根据权利要求2所述的一种基于改进粒子群算法的文本分类方法,其特征在于,根据无向图通过改进的粒子群算法计算得出对抗样本的具体步骤包括:S31:将原始分词 的无向图中所有节点均作为原始分词 的可替换词,将原始分词o集合x 中所有原始分词的可替换词依次按照位置进行组合得到原始情感语句文本的对抗样本集合,并将对抗样本集合作为对抗样本搜索空间;
S32:将对抗样本搜索空间中的对抗样本输入第一文本分类模型得到第一文本分类模型对对抗样本类别标签的置信度;
S33:利用改进的粒子群算法根据原始分词 无向图中的节点与初始节点之间的路径信息、以及对抗样本类别标签的置信度从对抗样本搜索空间中计算得出最优对抗样本。
4.根据权利要求1所述的一种基于改进粒子群算法的文本分类方法,其特征在于,所述最优对抗样本的计算过程具体包括:S321:根据原始分词 无向图中的节点与初始节点之间的路径信息、以及对抗样本类别标签的置信度构建粒子群算法的得分函数;
S322:随机初始化粒子群中粒子的速度和位置;
S323:通过得分函数计算粒子群中粒子的适应度值,当粒子的当前适应度值大于粒子的历史最佳适应度值时,用粒子的当前适应度值替换粒子的历史最佳适应度值,并将粒子当前位置记录为个体先前最优位置;当粒子的历史最佳适应度值大于群体粒子的历史最佳适应度值时,用粒子的历史最佳适应度值替换群体粒子的历史最佳适应度值,并将粒子当前位置记录为全局先前最优位置;
S324:更新粒子的速度和位置;
S325:重复步骤S323‑S324,直至迭代结束,输出当前群体粒子的最佳适应度值,并根据当前群体粒子的最佳适应度值得出对抗样本搜索空间中的最优对抗样本。
5.根据权利要求4所述的一种基于改进粒子群算法的文本分类方法,其特征在于,所述粒子群算法的得分函数包括:a a
其中,x表示对抗样本搜索空间中的一个对抗样本, 代表x中的第n个原始分词的可a替换词, 表示第n个原始分词 的所有可替换词构成的集合;C(x)表示第一文本分a o a类模型对x的类别标签的置信度, 代表x 和x中所有原始分词的可替换词在无向图中的路径信息之和。
6.根据权利要求5所述的一种基于改进粒子群算法的文本分类方法,其特征在于,所述粒子群算法的得分函数包括:v=v1…vn…vN
其中,vn代表 被替换为其他词的概率, 表示整个粒子群的全局先前最优位置的第n维,S(*)是sigmoid函数,w是非负惯性权重; 和 是随机正数的加速系数;p代表粒子的g个体先前最优位置;p代表整个粒子群的全局先前最优位置,r是指从[0.0,1.0]中选择的随机数,T设定的概率阈值, 表示原始分词 的无向图中 的一个随机邻接节点。