1.一种基于边缘计算的移动终端敏感词识别方法,其特征在于,所述方法包括:移动终端输入待识别的文本信息;
移动终端基于本地词库,采用双数组字典树匹配过滤算法对输入的文本信息进行过滤,并将过滤后的文本信息发送至边缘计算节点;
边缘计算平台将各个边缘计算节点的文本信息输入到训练完成后的深度学习模型中,识别出文本信息中的敏感词集,并形成边缘词库;
边缘计算平台通过边缘计算节点在一定时间间隔后将边缘词库发送至移动终端;
移动终端接收边缘节点下发的边缘词库,对所述本地词库进行更新。
2.根据权利要求1所述的一种基于边缘计算的移动终端敏感词识别方法,其特征在于,所述采用双数组字典树匹配过滤算法对输入的文本信息进行过滤包括:步骤1:在移动终端的本地词库中预设敏感词库,按照敏感词汇首字对应的ASCII码值进行递增排序;
步骤2:依照从上到下的顺序对敏感词库进行扫描,读入所有敏感词汇,将敏感词汇作为节点,以插入的方式逐次构造出字典树;
步骤3:对字典树的各个节点使用退火算法,按照其子节点的数量进行最优排序,优先选取分支多的节点进行双数组构造;
步骤4:结合链表结构中物理内存不连续的特点改造数组结构,采用数组块的形式对分支多的节点进行双数组构造;
步骤5:对待识别的文本信息按照前缀查找,依据自动机状态转移进行文本匹配;按照匹配结果对文本信息进行过滤。
3.根据权利要求1所述的一种基于边缘计算的移动终端敏感词识别方法,其特征在于,所述边缘计算平台将各个边缘计算节点的文本信息输入到训练完成后的深度学习模型中包括边缘计算平台通过分级缓存机制处理移动终端上传的信息;移动终端将文本信息上传后,边缘节点的一级缓存来处理各移动终端上传的文本信息,并按先后顺序整理为文本队列;一级缓存设定了固定的时间间隔,将同一固定时间间隔内的文本队列整合为一段文本信息,发送至二级缓存;二级缓存设定阈值来评估文本信息量,若文本信息量超过阈值,则将超过阈值的文本信息进行分割并输入到训练完成后的深度学习模型中。
4.根据权利要求3所述的一种基于边缘计算的移动终端敏感词识别方法,其特征在于,所述识别出文本信息中的敏感词集包括采用TF-IDF算法提取出文本信息的关键词汇;采用LSTM算法对关键词汇进行归类识别,构建出深度学习模型;采用语料库对所述深度学习模型进行训练,当识别率大于90%时,训练完成,并输入边缘计算节点的文本信息,从而识别出待识别的文本信息的敏感词集。
5.根据权利要求4所述的一种基于边缘计算的移动终端敏感词识别方法,其特征在于,所述采用TF-IDF算法提取出文本信息的关键词语包括计算每段输入的文本信息中各个词汇的TF-IDF特征向量;根据特征向量的重要程度递减的顺序,选择前N个词汇作为关键词队列;特征向量的重要程度表示为:其中,TF-IDFi表示第i个词汇的重要程度;TF表示文本信息中的词频;IDF表示逆文档频率;ni为目标文本中第i个词汇在该文本中出现的次数,di为目标文本中总的词汇数;|s|表示本地词库中总文本数量;|{j:ti∈sj}|表示语料库中出现词汇ti的文本数量。
6.根据权利要求4所述的一种基于边缘计算的移动终端敏感词识别方法,其特征在于,所述采用LSTM算法对关键词汇进行归类识别包括分别选取等量的普通文本和敏感文本作为语料训练集,并组建语料库;在LSTM层采用单向LSTM模型,双层LSTM隐层;当准确率大于
90%后停止训练;输出对应的LSTM参数,完成深度学习模型的训练。
7.一种基于边缘计算的移动终端敏感词识别装置,其特征在于,所述装置包括:文本输入模块,用于输入待识别的文本信息;
本地词库模块,用于构建本地词库;
过滤模块,基于本地词库对输入的文本信息进行过滤;
聚合模块,通过分级缓存机制处理移动终端上传的信息;
识别模块,用于通过训练完成后的深度学习模型识别出输入的文本信息的敏感词集;
边缘词库模块,用于构建边缘词库;
触发更新模块,用于在一定时间间隔内,将边缘词库发送至移动终端,对本地词库进行更新。
8.根据权利要求7所述的一种基于边缘计算的移动终端敏感词识别装置,其特征在于,所述聚合模块包括:第一缓存单元,用于存储移动终端上传的文本信息;
第二缓存单元,用于将同一时间间隔内第一缓存单元的文本信息进行聚合;
信息评估单元,用于通过阈值评估第二缓存单元所聚合的文本信息量;
分割单元,将超过阈值的文本信息量进行分割。
9.根据权利要求7所述的一种基于边缘计算的移动终端敏感词识别装置,其特征在于,所述识别模块包括:输入层,输入边缘节点的文本信息;
筛选层,通过TF-IDF算法处理输入的文本信息中各个词汇,选择出关键词队列;
向量层,将关键词队列集合转化为词向量集;
LSTM网络层,将词向量集进行偏转,形成偏移向量集;
Softmax输出层,计算偏移向量集中词向量的转移概率,判别每一个词向量所属的类别,然后将其中的敏感词集存储于敏感词集并输出。
10.一种基于边缘计算的移动终端敏感词识别系统,其特征在于,包括移动终端层以及边缘计算层;所述边缘计算层包括如权利要求7~9任一所述的聚合模块、识别模块、边缘词库模块以及触发更新模块;所述移动终端层中每一个移动终端包括如权利要求7~9任一所述的本地词库模块和过滤模块。