欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020108741303
申请人: 北京信息科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-02-07
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于多源信息融合的中小微企业综合质量画像方法,其特征在于,所述方法包括如下步骤:(1)将企业质量画像维度分解,构建质量画像体系;

(2)企业数据收集和预处理;

(3)将收集到的企业数据按照类别分别设定标签;

(4)利用标签生成各企业质量画像。

2.根据权利要求1所述的方法,其特征在于,企业质量画像维度分解为6个,包括5个外显质量维度和1个内在质量维度;其中外显质量维度为:(1)一级指标——企业基本信息;其二级指标包括工商信息和行政许可信息;工商信息包括三级指标经营范围、企业类型、企业状态、注册资金、实收注册资金、成立年限;行政许可信息包括三级指标证照名称、所属行业、证照状态;

(2)一级指标——知识产权信息;其二级指标包括商标信息和专利信息;商标信息包括三级指标商标数量、商标类型、驰名商标数量;专利信息包括三级指标专利数量、有效专利数量、发明专利占比;

(3)一级指标——企业经营风险;由二级指标行政处罚信息、抵质押信息和清算信息综合反映;行政处罚信息包括三级指标近期处罚、历史行政处罚、处罚类型和证照吊销/撤销;

抵质押信息由三级指标被担保债权种类、被担保债权数额;清算信息由三级指标有无清算信息来反映;

(4)一级指标——司法风险;其二级指标为司法协助信息,三级指标包括司法协助类型、司法协助状态和股权数额;

(5)一级指标——网络舆情:其二级指标包括企业新闻舆情和产品质量舆情;企业新闻舆情由三级指标企业舆情事件来反映;产品质量舆情由三级指标质量评论情感来反映;

所述内在质量维度为:一级指标——产品质量信息:其二级指标包括产品资质或认证、产品质量评价、产品缺陷处置;其中产品资质或认证包括三级指标产品许可、产品标识认证和质量认证;产品质量评价包括三级指标产品质量合格率和抽查合格率;产品缺陷处置包括三级指标缺陷产品召回机制和质量争议处置。

3.根据权利要求1所述的方法,其特征在于,企业数据收集的方法为:利用企业工商信息作为关键词,使用网络爬虫程序收集政府已公开的第三方数据,包括工商信息、经营相关的行政许可信息、知识产权信息、企业经营风险信息、司法风险信息;利用企业名称作为关键词,使用网络爬虫程序采集多渠道的企业舆情相关数据;根据企业产品名称的关键词收集第三方网购平台上的商品评论数据;采用批量上传法获取企业内部的产品质量管理数据。

4.根据权利要求1所述的方法,其特征在于,步骤(3)将收集到的企业数据按照类别设定三种标签:(1)标签一:包括的企业数据维度指标为:企业基本信息、知识产权信息、企业经营风险、司法风险、产品质量信息;

(2)标签二:包括的企业数据是网络舆情信息维度下的三级指标之一——网络舆情信息;

(3)标签三:包括的企业数据为:网络舆情信息维度下的三级指标之一——质量评论情感。

5.根据权利要求4所述的方法,其特征在于,标签一的设定方法为:

(1)设Yj为标签变量,Xi-j为三级指标变量,依次选取Yj对应的Xi-j值作为原始矩阵,其中列是Xi-j值,行是各企业,i=1,2,……,n;j=1,2,……,m;按以下步骤进行操作:①PCA特征提取:调用sklearn中PCA函数,计算主成分贡献率和累加贡献率,通过累加贡献率筛选出质量指标的主要成分,计算各指标对于各主成分的载荷数;若Yj对应的变量Xi-j个数≤2,则省略本步骤,直接从②开始;

②K-means聚类分析:调用sklearn中KMeans包,通过kmeans聚类算法对指标下数据进行聚类分析,并计算不同类别数K值下的轮廓值;定义某个样本点的轮廓值为:其中disMeanin为该点与本类其他点的平均距离,disMeanout为该点与非本类点的平均距离;则所有样本的Si均值为聚类结果的轮廓值,当其整体大于或等于0且与1的距离接近时聚类效果较好,可确定相应的聚类类别个数;

③设定标签类别:通过对步骤②中的聚类类别进行分析,可定义规则和标签类别。

6.根据权利要求4所述的方法,其特征在于,标签二的设定方法为:

①文本分词:下载所在行业名词词典、公司新闻报道正负面词汇,利用“jieba”分词工具,采用精确模式对产品质量评论文本进行分词;

②文本标注:人工判断食品行业相关新闻文本对企业的正、负面影响并进行正、负标注;

③使用Word2Vec训练词向量:调用gensim模块函数,训练Word2Vec模型,生成词向量矩阵,从矩阵中抽取词的向量值,每篇文本得到一个二维矩阵,行为文本,列为模型维度;

④PCA降维:由③得到矩阵数据,调用sklearn中的PCA函数,通过PCA模型计算出累加贡献率,选择使得累加贡献率大于90%时的前K个主成分作为SVM训练模型的输入,提升数据处理速度;

⑤使用SVM训练模型:调用sklearn中svm包,采用RBF核函数,其计算公式为:其中,x,y为样本,||x-y||表示向量的模,γ为超参,用于调整模型复杂度;通过多次参数调整,确定分类效果最优的惩罚系数C值和参数/值;对训练好的模型进行测试,保障预测模型的准确性;

⑥新闻文本分类:采用Word2Vec对已切分词的文本向量化,利用训练好的预测模型进行分类,得到待分类新闻文本的正负向类别;

⑦设定企业形象标签:为企业计算正向新闻占比,得到企业形象得分Z值;根据Z值整体分布情况,对不同范围下的值划分设定相应企业形象标签。

7.根据权利要求4所述的方法,其特征在于,标签三的设定方法为:

①情感词典构建:下载能够获取情感词分数和程度级别副词的词典,并根据语料库中常用否定词建立否定词词典;

②文本分词:下载所在行业名词词典、公司新闻报道正负面词汇,利用“jieba”分词工具,采用精确模式对产品质量评论文本进行分词;

③计算评论情感分值:通过分词结果遍历出情感词、否定词和程度副词;设给定句子为St,其所包含的评价短语Si的情感分值Ei=Di×w×wj    (3)

其中,i=1,2,……,n;Di为情感词分数,wj设定为每个程度副词权重;初始权重w=1,当短语中有否定词时w=-1;wj初始值为1,当短语中有程度副词时则wj为程度副词权重。句子情感值:其中,Score(St)大于0的归于正向,小于0的归于负向;统计所有句子情感值,产品质量总体满意度为正向句子情感的总体占比;

④设定产品质量口碑标签:根据质量总体满意度值的整体分布情况,对不同范围下的值划分设定相应质量口碑标签。

8.根据权利要求7所述的方法,其特征在于,获取情感词分数的词典为BosonNLP情感词典,获取程度级别副词的词典为Hownet情感词典。