欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2020113141056
申请人: 小沃科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-03-13
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种敏感词句识别模型处理方法,其特征在于,包括下述步骤:获取初始数据源;

将所述初始数据源输入完成预训练的初始敏感词句识别模型以及预先构建的规则库,得到初始敏感词句集合;

获取用于对所述初始敏感词句识别模型进行增量训练的生语料数据源;

基于语义相似度,在所述生语料数据源中对所述初始敏感词句集合进行迭代扩充,得到增量数据源;

通过所述增量数据源对所述初始敏感词句识别模型进行训练,得到敏感词句识别模型。

2.根据权利要求1所述的敏感词句识别模型处理方法,其特征在于,在所述将所述初始数据源输入完成预训练的初始敏感词句识别模型以及预先构建的规则库,得到初始敏感词句集合的步骤之前,还包括:获取预训练数据源;

根据所述预训练数据源训练初始模型,并在完成预设次数的模型参数调整后,锁定所述初始模型中预设层的模型参数,得到初始敏感词句识别模型。

3.根据权利要求1所述的敏感词句识别模型处理方法,其特征在于,所述将所述初始数据源输入完成预训练的初始敏感词句识别模型以及预先构建的规则库,得到初始敏感词句集合的步骤包括:将所述初始数据源输入完成预训练的初始敏感词句识别模型,得到初始模型识别结果;

将所述初始数据源输入预先构建的规则库,得到规则识别结果;

根据所述规则识别结果对所述初始模型识别结果进行修正,得到初始敏感词句集合。

4.根据权利要求1所述的敏感词句识别模型处理方法,其特征在于,所述基于语义相似度,在所述生语料数据源中对所述初始敏感词句集合进行迭代扩充,得到增量数据源的步骤包括:对于所述初始敏感词句集合中的每个初始敏感词句,计算初始敏感词句与所述生语料数据源中各待标注词句的语义相似度;

将得到的语义相似度和预设的相似度阈值相比较,得到比较结果;

根据得到的比较结果,给所述各待标注词句添加敏感标注结果;

基于所述敏感标注结果生成增量数据源。

5.根据权利要求1所述的敏感词句识别模型处理方法,其特征在于,所述通过所述增量数据源对所述初始敏感词句识别模型进行训练,得到敏感词句识别模型的步骤包括:通过所述增量数据源中的增量训练样本对所述初始敏感词句识别模型进行预设轮次的训练;

将所述增量数据源中的增量测试样本输入所述初始敏感词句识别模型和所述规则库,得到模型测试结果和规则测试结果;

基于所述模型测试结果和所述规则测试结果计算测试误差;

当所述测试误差小于预设的测试误差阈值时,对所述初始敏感词句识别模型中所述预设层的模型参数进行锁定解除;

当所述测试误差大于所述测试误差阈值时,继续锁定所述初始敏感词句识别模型中所述预设层的模型参数;

根据所述增量训练样本对所述初始敏感词句识别模型继续进行训练,得到敏感词句识别模型。

6.根据权利要求1所述的敏感词句识别模型处理方法,其特征在于,在所述通过所述增量数据源对所述初始敏感词句识别模型进行训练,得到敏感词句识别模型的步骤之后,还包括:获取待识别词句;

将所述待识别词句输入所述敏感词句识别模型,得到敏感识别结果;

当根据所述敏感识别结果确定所述待识别词句为敏感词句时,将所述待识别词句替换为预设字符串。

7.根据权利要求6所述的敏感词句识别模型处理方法,其特征在于,将所述待识别词句输入所述敏感词句识别模型,得到敏感识别结果的步骤包括:获取所述待识别词句的环境来源信息;

将所述待识别词句发送至与所述环境来源信息对应的敏感词句识别模型;

通过所述敏感词句模型对所述待识别词句进行处理,得到敏感识别结果。

8.一种敏感词句识别模型处理装置,其特征在于,包括:初始获取模块,用于获取初始数据源;

初始输入模块,用于将所述初始数据源输入完成预训练的初始敏感词句识别模型以及预先构建的规则库,得到初始敏感词句集合;

增量获取模块,用于获取用于对所述初始敏感词句识别模型进行增量训练的生语料数据源;

词句扩充模块,用于基于语义相似度,在所述生语料数据源中对所述初始敏感词句集合进行迭代扩充,得到增量数据源;

初始训练模块,用于通过所述增量数据源对所述初始敏感词句识别模型进行训练,得到敏感词句识别模型。

9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的敏感词句识别模型处理方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的敏感词句识别模型处理方法的步骤。