1.一种基于企业污染舆情抽取的智能辅助决策方法,其特征在于,包括如下步骤:步骤1:构建Scrapy分布式爬虫,使用Hanlp命名实体识别技术识别易污染型企业名称相关的网络文本,并定位网页含有污染相关词汇,解析该网页文本,获取网页舆情信息D1;
步骤2:对获取的网页舆情信息D1进行去重、格式内容处理、逻辑错误处理,得到清洗后的网页舆情信息D2;
步骤3:使用BERT‑BiLSTM‑CRF模型对网页舆情信息D2进行结构化信息抽取,获取污染型关键实体K1,得到标注后的企业污染舆情主题文本T1;
步骤4:从国家生态环境部生态环境标准中采集生态环境检测标准文本数据集D3,分别为采集水环境保护标准、大气环境保护标准、环境噪声与震动标准和固体废物与化学品环境污染控制标准,使用BERT‑BiLSTM‑CRF模型抽取标准污染词实体K2,通过余弦距离计算K1和K2文本相似度,得到企业污染主题词相似性矩阵E;
步骤5:接入智能辅助决策模型M,开放智能辅助决策接口API,根据用户输入的企业污染舆情信息,提取污染主题词信息K,并通过相似性矩阵E查找相似性污染信息,基于相似性污染情况提出污染预警以及推送决策建议。
2.根据权利要求1所述的基于企业污染舆情抽取的智能辅助决策方法,其特征在于,所述步骤1中具体操作为:步骤11:构建Scrapy分布式爬虫;
步骤12:输入待爬取舆情集散地多媒体网页列表页URL列表L={l1,l2,...,lr},其中,l1指URL列表中第1个网页,l2指URL列表中第2个网页,lr指URL列表中第r个网页,r指URL列表中网页总数;
步骤13:循环遍历列表L,判断L是否为空,如果为空转至步骤18,否则转至步骤14;
步骤14:解析多媒体数据列表页lr,使用Hanlp命名实体识别方法识别易污染型企业名称相关的网络文本,并标记为N;
步骤15:抽取标记为N的文本对应XPATH标签,并解析该标签下herf属性的超链接值X;
步骤16:解析X详情页,爬取企业污染舆情网络文本d;
步骤17:返回步骤13;
步骤18:退出循环,得到网页舆情信息D1={d1,d2,...,di}。
3.根据权利要求1所述的基于企业污染舆情抽取的智能辅助决策方法,其特征在于,所述步骤2中得到清洗后的网页舆情信息D2的具体步骤为:步骤21:将所述网页舆情信息D1通过相同的关键信息进行匹配合并去重;
步骤22:对于相同舆情信息不一致字段,根据时间顺序设置权威级别,优先选用最新的数据;
步骤23:以半自动校验半人工方式来找出内容与该字段应有内容不符的问题,去除不需要的字符;
步骤24:通过K‑means聚类可视化检测离群点,对非需求数据进行删除,得到清洗后的网页舆情信息D2。
4.根据权利要求1所述的基于企业污染舆情抽取的智能辅助决策方法,其特征在于,所述步骤3中获取污染型关键实体K1的具体操作为:步骤301:将清洗后的网页舆情信息D2输入BERT‑BiLSTM‑CRF序列标注模型中;
步骤302:定义循环变量i1,赋初始值为1,遍历网页舆情信息D2;
步骤303:如果i1≤N,则跳转到步骤304,否则跳转到步骤310;
步骤304:基于字符级别对文本di1进行文本切割,其中,di1表示网页舆情信息D2中第i1条文本;
步骤305:将字符化文本di1通过BERT语言模型W映射编码,得到字符w(i1)组成的文本映射到文本矩阵s(i1)={s(1),s(2),…,s(i)};
步骤306:将文本矩阵s(i)输入训练好的BiLSTM‑CRF序列标注模型中,通过BiLSTM层获取文本矩阵的特征并输出每个字符的标签分数Y;
步骤307:将BiLSTM层预测的所有分数输入CRF层,在CRF层中选择预测得分最高的标签序列作为最佳答案输出;
步骤308:根据输出的标签对企业污染舆情文本进行标注,标记污染型关键实体K1,得到标记后的企业污染舆情主题文本ti1;
步骤309:i1=i1+1,转至步骤303;
步骤310:得到标注后的企业污染舆情主题文本T1={t1,t2,...,tN}。
5.根据权利要求1至4任一所述的基于企业污染舆情抽取的智能辅助决策方法,其特征在于,所述步骤4中获取企业污染主题词相似性矩阵E具体包括以下步骤:步骤401:按步骤1所述方法采集生态环境检测标准文本数据集D3,分别为采集水环境保护标准、大气环境保护标准、环境噪声与震动标准和固体废物与化学品环境污染控制标准;
步骤402:按步骤2所述方法对数据集D3进行清洗;
步骤403:按步骤3所述方法标记数据集D3,获取标准污染词实体K2,并得到标注后的生态环境检测标准文本数据集主题文本T2={t1,t2,...,tN2};
步骤404:定义循环变量i2,赋初始值为1,遍历企业污染舆情主题文本T1;
步骤405:如果i2≤N则跳转到步骤406,否则跳转到步骤413;
步骤406:获取标注为K1的污染词关键性实体,通过BERT语言模型W映射编码,得到字符向量W(K1);
步骤407:定义循环变量i3,赋初始值为1,遍历生态环境检测标准文本数据集主题文本T2;
步骤408:如果i3≤N2则跳转到步骤409,否则跳转到步骤412;
步骤409:获取标注为K2的标准污染词实体,通过BERT语言模型W映射编码,得到字符向量W(K2);
步骤410:计算字符向量W(K1)和W(K2)的余弦距离;
步骤411:i3=i3+1,转至步骤407;
步骤412:i2=i2+1,转至步骤405;
步骤413:得到企业污染主题词相似性矩阵E。
6.根据权利要求5所述的基于企业污染舆情抽取的智能辅助决策方法,其特征在于,所述步骤5具体包括以下步骤:步骤501:创建线程池Thread Pool;
步骤502:判断线程池Thread Pool所有任务是否执行完毕;
步骤503:创建工作线程Child Thread;
步骤504:面向企业污染舆情集散地自动采集企业污染舆情信息;
步骤505:按照步骤2方法对企业污染舆情信息进行预处理;
步骤506:提取污染主题词信息K,并通过相似性矩阵E查找相似性污染信息;
步骤507:基于相似性污染情况提出污染预警以及推送决策建议;
步骤508:返还WEB应用程序,企业污染辅助决策任务结束处理;
步骤509:结束Child Thread工作线程;
步骤510:关闭Thread Pool线程池;
步骤511:WEB应用系统通过ECharts对辅助决策信息进行可视化返回用户。
7.一种基于企业污染舆情抽取的智能辅助决策装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1‑6任一项所述的基于企业污染舆情抽取的智能辅助决策方法。