1.基于多源信息融合的中小微企业综合质量画像方法,其特征在于,所述方法包括如下步骤:(1)将企业质量画像维度分解,构建质量画像体系;
(2)企业数据收集和预处理;
(3)将收集到的企业数据按照类别分别设定标签;
(4)利用标签生成各企业质量画像。
2.根据权利要求1所述的方法,其特征在于,企业质量画像维度分解为6个,包括5个外显质量维度和1个内在质量维度;其中外显质量维度为:(1)一级指标——企业基本信息;其二级指标包括工商信息和行政许可信息;工商信息包括三级指标经营范围、企业类型、企业状态、注册资金、实收注册资金、成立年限;行政许可信息包括三级指标证照名称、所属行业、证照状态;
(2)一级指标——知识产权信息;其二级指标包括商标信息和专利信息;商标信息包括三级指标商标数量、商标类型、驰名商标数量;专利信息包括三级指标专利数量、有效专利数量、发明专利占比;
(3)一级指标——企业经营风险;由二级指标行政处罚信息、抵质押信息和清算信息综合反映;行政处罚信息包括三级指标近期处罚、历史行政处罚、处罚类型和证照吊销/撤销;
抵质押信息由三级指标被担保债权种类、被担保债权数额;清算信息由三级指标有无清算信息来反映;
(4)一级指标——司法风险;其二级指标为司法协助信息,三级指标包括司法协助类型、司法协助状态和股权数额;
(5)一级指标——网络舆情:其二级指标包括企业新闻舆情和产品质量舆情;企业新闻舆情由三级指标企业舆情事件来反映;产品质量舆情由三级指标质量评论情感来反映;
所述内在质量维度为:一级指标——产品质量信息:其二级指标包括产品资质或认证、产品质量评价、产品缺陷处置;其中产品资质或认证包括三级指标产品许可、产品标识认证和质量认证;产品质量评价包括三级指标产品质量合格率和抽查合格率;产品缺陷处置包括三级指标缺陷产品召回机制和质量争议处置。
3.根据权利要求1所述的方法,其特征在于,企业数据收集的方法为:利用企业工商信息作为关键词,使用网络爬虫程序收集政府已公开的第三方数据,包括工商信息、经营相关的行政许可信息、知识产权信息、企业经营风险信息、司法风险信息;利用企业名称作为关键词,使用网络爬虫程序采集多渠道的企业舆情相关数据;根据企业产品名称的关键词收集第三方网购平台上的商品评论数据;采用批量上传法获取企业内部的产品质量管理数据。
4.根据权利要求1所述的方法,其特征在于,步骤(3)将收集到的企业数据按照类别设定三种标签:(1)标签一:包括的企业数据维度指标为:企业基本信息、知识产权信息、企业经营风险、司法风险、产品质量信息;
(2)标签二:包括的企业数据是网络舆情信息维度下的三级指标之一——网络舆情信息;
(3)标签三:包括的企业数据为:网络舆情信息维度下的三级指标之一——质量评论情感。
5.根据权利要求4所述的方法,其特征在于,标签一的设定方法为:
(1)设Yj为标签变量,Xi-j为三级指标变量,依次选取Yj对应的Xi-j值作为原始矩阵,其中列是Xi-j值,行是各企业,i=1,2,……,n;j=1,2,……,m;按以下步骤进行操作:①PCA特征提取:调用sklearn中PCA函数,计算主成分贡献率和累加贡献率,通过累加贡献率筛选出质量指标的主要成分,计算各指标对于各主成分的载荷数;若Yj对应的变量Xi-j个数≤2,则省略本步骤,直接从②开始;
②K-means聚类分析:调用sklearn中KMeans包,通过kmeans聚类算法对指标下数据进行聚类分析,并计算不同类别数K值下的轮廓值;定义某个样本点的轮廓值为:其中disMeanin为该点与本类其他点的平均距离,disMeanout为该点与非本类点的平均距离;则所有样本的Si均值为聚类结果的轮廓值,当其整体大于或等于0且与1的距离接近时聚类效果较好,可确定相应的聚类类别个数;
③设定标签类别:通过对步骤②中的聚类类别进行分析,可定义规则和标签类别。
6.根据权利要求4所述的方法,其特征在于,标签二的设定方法为:
①文本分词:下载所在行业名词词典、公司新闻报道正负面词汇,利用“jieba”分词工具,采用精确模式对产品质量评论文本进行分词;
②文本标注:人工判断食品行业相关新闻文本对企业的正、负面影响并进行正、负标注;
③使用Word2Vec训练词向量:调用gensim模块函数,训练Word2Vec模型,生成词向量矩阵,从矩阵中抽取词的向量值,每篇文本得到一个二维矩阵,行为文本,列为模型维度;
④PCA降维:由③得到矩阵数据,调用sklearn中的PCA函数,通过PCA模型计算出累加贡献率,选择使得累加贡献率大于90%时的前K个主成分作为SVM训练模型的输入,提升数据处理速度;
⑤使用SVM训练模型:调用sklearn中svm包,采用RBF核函数,其计算公式为:其中,x,y为样本,||x-y||表示向量的模,γ为超参,用于调整模型复杂度;通过多次参数调整,确定分类效果最优的惩罚系数C值和参数/值;对训练好的模型进行测试,保障预测模型的准确性;
⑥新闻文本分类:采用Word2Vec对已切分词的文本向量化,利用训练好的预测模型进行分类,得到待分类新闻文本的正负向类别;
⑦设定企业形象标签:为企业计算正向新闻占比,得到企业形象得分Z值;根据Z值整体分布情况,对不同范围下的值划分设定相应企业形象标签。
7.根据权利要求4所述的方法,其特征在于,标签三的设定方法为:
①情感词典构建:下载能够获取情感词分数和程度级别副词的词典,并根据语料库中常用否定词建立否定词词典;
②文本分词:下载所在行业名词词典、公司新闻报道正负面词汇,利用“jieba”分词工具,采用精确模式对产品质量评论文本进行分词;
③计算评论情感分值:通过分词结果遍历出情感词、否定词和程度副词;设给定句子为St,其所包含的评价短语Si的情感分值Ei=Di×w×wj (3)
其中,i=1,2,……,n;Di为情感词分数,wj设定为每个程度副词权重;初始权重w=1,当短语中有否定词时w=-1;wj初始值为1,当短语中有程度副词时则wj为程度副词权重。句子情感值:其中,Score(St)大于0的归于正向,小于0的归于负向;统计所有句子情感值,产品质量总体满意度为正向句子情感的总体占比;
④设定产品质量口碑标签:根据质量总体满意度值的整体分布情况,对不同范围下的值划分设定相应质量口碑标签。
8.根据权利要求7所述的方法,其特征在于,获取情感词分数的词典为BosonNLP情感词典,获取程度级别副词的词典为Hownet情感词典。