知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于企业污染舆情抽取的智能辅助决策方法及装置

面议

专利号： 202210043218X

申请人：淮安市创新创业科技服务中心

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-06-18

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于企业污染舆情抽取的智能辅助决策方法，其特征在于，包括如下步骤：步骤1：构建Scrapy分布式爬虫，使用Hanlp命名实体识别技术识别易污染型企业名称相关的网络文本，并定位网页含有污染相关词汇，解析该网页文本，获取网页舆情信息D1；

步骤2：对获取的网页舆情信息D1进行去重、格式内容处理、逻辑错误处理，得到清洗后的网页舆情信息D2；

步骤3：使用BERT‑BiLSTM‑CRF模型对网页舆情信息D2进行结构化信息抽取，获取污染型关键实体K1，得到标注后的企业污染舆情主题文本T1；

步骤4：从国家生态环境部生态环境标准中采集生态环境检测标准文本数据集D3，分别为采集水环境保护标准、大气环境保护标准、环境噪声与震动标准和固体废物与化学品环境污染控制标准，使用BERT‑BiLSTM‑CRF模型抽取标准污染词实体K2，通过余弦距离计算K1和K2文本相似度，得到企业污染主题词相似性矩阵E；

步骤5：接入智能辅助决策模型M，开放智能辅助决策接口API，根据用户输入的企业污染舆情信息，提取污染主题词信息K，并通过相似性矩阵E查找相似性污染信息，基于相似性污染情况提出污染预警以及推送决策建议。

2.根据权利要求1所述的基于企业污染舆情抽取的智能辅助决策方法，其特征在于，所述步骤1中具体操作为：步骤11：构建Scrapy分布式爬虫；

步骤12：输入待爬取舆情集散地多媒体网页列表页URL列表L＝{l1，l2，...，lr}，其中，l1指URL列表中第1个网页，l2指URL列表中第2个网页，lr指URL列表中第r个网页，r指URL列表中网页总数；

步骤13：循环遍历列表L，判断L是否为空，如果为空转至步骤18，否则转至步骤14；

步骤14：解析多媒体数据列表页lr，使用Hanlp命名实体识别方法识别易污染型企业名称相关的网络文本，并标记为N；

步骤15：抽取标记为N的文本对应XPATH标签，并解析该标签下herf属性的超链接值X；

步骤16：解析X详情页，爬取企业污染舆情网络文本d；

步骤17：返回步骤13；

步骤18：退出循环，得到网页舆情信息D1＝{d1，d2，...，di}。

3.根据权利要求1所述的基于企业污染舆情抽取的智能辅助决策方法，其特征在于，所述步骤2中得到清洗后的网页舆情信息D2的具体步骤为：步骤21：将所述网页舆情信息D1通过相同的关键信息进行匹配合并去重；

步骤22：对于相同舆情信息不一致字段，根据时间顺序设置权威级别，优先选用最新的数据；

步骤23：以半自动校验半人工方式来找出内容与该字段应有内容不符的问题，去除不需要的字符；

步骤24：通过K‑means聚类可视化检测离群点，对非需求数据进行删除，得到清洗后的网页舆情信息D2。

4.根据权利要求1所述的基于企业污染舆情抽取的智能辅助决策方法，其特征在于，所述步骤3中获取污染型关键实体K1的具体操作为：步骤301：将清洗后的网页舆情信息D2输入BERT‑BiLSTM‑CRF序列标注模型中；

步骤302：定义循环变量i1，赋初始值为1，遍历网页舆情信息D2；

步骤303：如果i1≤N，则跳转到步骤304，否则跳转到步骤310；

步骤304：基于字符级别对文本di1进行文本切割，其中，di1表示网页舆情信息D2中第i1条文本；

步骤305：将字符化文本di1通过BERT语言模型W映射编码，得到字符w(i1)组成的文本映射到文本矩阵s(i1)＝{s(1),s(2),…,s(i)}；

步骤306：将文本矩阵s(i)输入训练好的BiLSTM‑CRF序列标注模型中，通过BiLSTM层获取文本矩阵的特征并输出每个字符的标签分数Y；

步骤307：将BiLSTM层预测的所有分数输入CRF层，在CRF层中选择预测得分最高的标签序列作为最佳答案输出；

步骤308：根据输出的标签对企业污染舆情文本进行标注，标记污染型关键实体K1，得到标记后的企业污染舆情主题文本ti1；

步骤309：i1＝i1+1，转至步骤303；

步骤310：得到标注后的企业污染舆情主题文本T1＝{t1，t2，...，tN}。

5.根据权利要求1至4任一所述的基于企业污染舆情抽取的智能辅助决策方法，其特征在于，所述步骤4中获取企业污染主题词相似性矩阵E具体包括以下步骤：步骤401：按步骤1所述方法采集生态环境检测标准文本数据集D3，分别为采集水环境保护标准、大气环境保护标准、环境噪声与震动标准和固体废物与化学品环境污染控制标准；

步骤402：按步骤2所述方法对数据集D3进行清洗；

步骤403：按步骤3所述方法标记数据集D3，获取标准污染词实体K2，并得到标注后的生态环境检测标准文本数据集主题文本T2＝{t1，t2，...，tN2}；

步骤404：定义循环变量i2，赋初始值为1，遍历企业污染舆情主题文本T1；

步骤405：如果i2≤N则跳转到步骤406，否则跳转到步骤413；

步骤406：获取标注为K1的污染词关键性实体，通过BERT语言模型W映射编码，得到字符向量W(K1)；

步骤407：定义循环变量i3，赋初始值为1，遍历生态环境检测标准文本数据集主题文本T2；

步骤408：如果i3≤N2则跳转到步骤409，否则跳转到步骤412；

步骤409：获取标注为K2的标准污染词实体，通过BERT语言模型W映射编码，得到字符向量W(K2)；

步骤410：计算字符向量W(K1)和W(K2)的余弦距离；

步骤411：i3＝i3+1，转至步骤407；

步骤412：i2＝i2+1，转至步骤405；

步骤413：得到企业污染主题词相似性矩阵E。