欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021106917387
申请人: 湖北华中电力科技开发有限责任公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-03-13
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种日志安全风险的监测方法,其特征在于,包括:调用SDK接口获取原文日志信息;

将所述原文日志信息输入至预设的日志识别模型,确定所述原文日志信息中是否包含候选敏感字段;

若确定包含所述候选敏感字段,通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段;

若确定所述候选敏感字段为真正敏感字段,确定所述原文日志存在安全风险;

其中,所述确定所述原文日志信息中是否包含候选敏感字段,包括:利用CRF分词模型,提取所述原文日志信息中的目标候选词集;

利用概率图模型,确定各个所述目标候选词集对应的类型概率值;

将类型概率值超过第一预设阈值的目标候选词作为待检测候选词集,并检测目标类型对应的待检测候选词集中,是否包含候选敏感字段;

其中,通过如下公式计算所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值:其中,θ表示候选敏感字段与真正敏感字段之间的向量的夹角,x1 k表示其中一个候选敏感字段n维空间中对应的向量的特征值,x2k表示真正敏感字段n维空间中对应的向量的特征值,n表示向量空间的维度;

若确定所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值超过第二预设阈值时,确定所述候选敏感字段为真正敏感字段;

其中,在所述通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段之前,还包括:获取至少一个样本日志;

通过TF‑IDF算法挖掘所述样本日志中潜在的敏感关键字段,并将所述潜在的敏感关键字段存储到样本数据库中;

利用所述样本数据库,构建所述日志识别模型,所述日志识别模型为所述CRF分词模型以及所述概率图模型。

2.如权利要求1所述的方法,其特征在于,在所述调用SDK接口获取原文日志信息之后,还包括:识别所述原文日志信包含的目标分词,其中所述目标分词对应于停用词以及指定词性的其中至少一种;

对所述原文日志信息进行目标分词消除,并利用聚类运算对消除目标分词后的原文日志信息进行噪音词去除,得到预处理原文日志信息。

3.如权利要求1所述的方法,其特征在于,所述通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段,包括:根据预先构建的词相似度矩阵,计算所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值;

若确定所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值超过第二预设阈值时,确定所述候选敏感字段为真正敏感字段。

4.如权利要求1所述的方法,其特征在于,所述利用所述样本数据库,构建所述日志识别模型,包括:获取所述样本数据库中的至少一个样本数据,所述样本数据包括至少一个人名实体数据以及地名实体数据;根据所述至少一个样本数据,得到对应的词嵌入向量,并根据所述词嵌入向量得到CRF分词模型;以及,获取预设的概率图模型,所述概率图模型包括有向概率图模型以及无向概率图模型的至少一种;

将所述CRF分词模型以及所述概率图模型作为所述日志识别模型。

5.一种日志安全风险的监测装置,其特征在于,包括:获取模块,被配置为调用SDK接口获取原文日志信息;

输入模块,被配置为将所述原文日志信息输入至预设的日志识别模型,确定所述原文日志信息中是否包含候选敏感字段;

检测模块,被配置为若确定包含所述候选敏感字段,通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段;

确定模块,被配置为若确定所述候选敏感字段为真正敏感字段,确定所述原文日志存在安全风险;

其中,所述确定所述原文日志信息中是否包含候选敏感字段,包括:利用CRF分词模型,提取所述原文日志信息中的目标候选词集;

利用概率图模型,确定各个所述目标候选词集对应的类型概率值;

将类型概率值超过第一预设阈值的目标候选词作为待检测候选词集,并检测目标类型对应的待检测候选词集中,是否包含候选敏感字段;

其中,通过如下公式计算所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值:其中,θ表示候选敏感字段与真正敏感字段之间的向量的夹角,x1 k表示其中一个候选敏感字段n维空间中对应的向量的特征值,x2k表示真正敏感字段n维空间中对应的向量的特征值,n表示向量空间的维度;

若确定所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值超过第二预设阈值时,确定所述候选敏感字段为真正敏感字段;

其中,在所述通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段之前,还包括:获取至少一个样本日志;

通过TF‑IDF算法挖掘所述样本日志中潜在的敏感关键字段,并将所述潜在的敏感关键字段存储到样本数据库中;

利用所述样本数据库,构建所述日志识别模型,所述日志识别模型为所述CRF分词模型以及所述概率图模型。

6.一种电子设备,其特征在于,包括:

存储器,用于存储可执行指令;以及,

处理器,用于与所述存储器显示以执行所述可执行指令从而完成权利要求1‑4中任一所述日志安全风险的监测方法的操作。

7.一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1‑4中任一所述日志安全风险的监测方法的操作。