1.本文提出一种基于改进的CNN-LSTM的垃圾短信判别方法,其步骤在于,首先进行文本长度均值化,然后从大规模背景语料训练中得到具有语义特征信息的Glove词向量作为深层神经网络的初始输入。下一步再构建改进的CNN-LSTM的垃圾短信识别的模型。最后将输出放入Softmax分类器中得出分类结果。
2.根据权利要求1所述的方法,其特征在于,在CNN输入端对短信文本进行长度均值化,把文本最长的长度和大部分文本集中的长度做均值,长度不足的进行特征扩展,长度过长的短信文本进行特征重要性排序并选择,这不仅可以减少模型计算复杂度避免过拟合现象,还会使得短信文本中词与词间的关系变得更明显导致减小CNN卷积层对大部分短信文本的特征提取的难度。
3.根据权利要求1所述的方法,其特征在于,在LSTM输入端把CNN卷积层作为LSTM输入门的输入,这样可以尽可能得保存住CNN所提取到的原始特征,并且可以更好地防止池化所忽略的局部信息,把CNN池化层的输出作为LSTM遗忘门的输入,可以根据更高级的抽象特征和其他特征作为区分,有利于LSTM决定会从细胞状态中遗忘丢弃什么信息,使得CNN中更丰富的特征能够进入到LSTM单元中以便提高模型的性能。