1.一种面向用户行为分析的大众口碑情感分析方法,包括数据的收集模块、特征提取模块、机器学习模块、元分类器模块以及情感词典模块,其特征在于,所述数据的收集模块与特征提取模块单向连接,所述特征提取模块与机器学习模块单向连接,所述机器学习模块与元分类器模块单向连接,所述元分类器模块与情感词典模块单向连接,所述数据的收集模块包括数据收集以及预处理,所述机器学习模块包括学习模块以及分类模块,所述学习模块采用半监督学习,所述元分类器模块包括利益/风险分类器、信任/不信任服务分类器、信任/不信任约会者分类器以及正面社会影响/负面社会影响分类器四个基分类器;
所述数据收集在于采用爬虫软件获取评论数据,并使用深度收集策略来收集网站数据;
所述预处理通过删除重复、停用字、特殊字符以及对分词、否定的识别操作将汉语句子分隔成词语序列;
所述特征提取模块即为将非结构化数据进行分类,将其转化为结构化数据和适度的非结构化文本数据,并生成用于机器学习模型的特征集;
所述半监督学习为机器通过对少量有标注文本和大量无标注文本的情感识别来学习构建分类模型;
所述分类模块通过学习的结果对特征提取模块传递来的数据进行情感分类,并将分类结果传输至元分类器模块中所述元分类器模块中每个基分类器都以四类特征中的一种为基础,并使用逻辑回归模型进行组合;
所述情感词典模块是机器学习和情感词典相结合,情感词典是包含众多情感词语的词汇库,每个情感词语表示其对应特征情感的程度,机器学习利用情感词典进行分类,同时情感词典通过机器分类得到进一步完善,并进一步对机器学习的分类结果进行修正;
所述一种面向用户行为分析的大众口碑情感分析方法为:
1)从ODS中获取数据;
2)通过特征提取将获取的非结构化文本数据转换为结构化数据;
3)然后分别从八个特征方面对个体的情感进行分类,分为利益/风险分类器、信任/不信任服务分类器、信任/不信任约会者分类器、正面社会影响/负面社会影响分类器;
4)将四个分类器的输出作为元分类器的输入特征;
5)建立的情感词典修正这四个分类器的错误预测结果;
6)将正确的结果导出。
2.根据权利要求1所述的一种面向用户行为分析的大众口碑情感分析方法,其特征在于,所述特征提取模块的工作步骤具体如下:步骤一:首先在用户评论集合D中计算单词wi与wj的相似度Wi,j,采用公式来计算wi和wj的相似度,所述P(wi,wj)表示两个单词wi和wj同时出现的概率,所述P(wi)以及P(wj)分别表示评论中出现wi和wj的概率;
步骤二:将评论表示成一个由“词项‑词项”组成的矩阵,其中每一行和每一列表示唯一的词项,矩阵中的值表示评论中每个单词对的相似度得分,之后通过公式计算得出单词wi的上下文相关度,所述n表示D中的词项数量;
步骤三:通过得到的单词wi的上下文相关度确定“词项‑词项”矩阵是否为特征;
步骤四:重复步骤一至步骤三,提取用户评论集合D中所有特征组合为特征集传递至机器学习模块中。
3.根据权利要求1所述的一种面向用户行为分析的大众口碑情感分析方法,其特征在于,所述学习模块工作步骤具体如下:步骤一:将随机抽取多个评论,并聘请3名有经验的标注者来对评论进行类别的标注;
步骤二:分别针对多个特性为每条评论进行编码;
步骤三:将编码好的多个评论分别采用四种机器学习算法来构建模型,并对比每种模型的性能,选择性能较好模型的机器学习算法,采用性能较好模型的机器学习算法制作多个分类器;
步骤四:首先使用少量带标注的训练样本对多个分类器进行训练,然后用所有训练样本集对训练后的分类器进行再训练;
步骤五:步骤四重复多次,得到效果最佳的分类器。
4.根据权利要求1所述的一种面向用户行为分析的大众口碑情感分析方法,其特征在于,所述分类模块工作步骤具体如下:
1)将特征提取模块提取的特性数据导入分类器内;
2)分类器通过特性数据对从ODS中获取的数据进行分类;
3)将分类的数据分别传递于元分类器的各个基分类器中。
5.根据权利要求1所述的一种面向用户行为分析的大众口碑情感分析方法,其特征在于,情感词典通过机器完善工作步骤具体如下:
1)手动指定一些评论中经常出现的具有明显情感指示的词语作为情感指示词的种子集合;
2)分类器通过构建的种子集合的知识图谱来挖掘种子集合中的同义词,并通过同义词挖掘下一个同义词;
3)当同义词数扩展到达8个或无其他同义词时,情感词典停止自动扩充算法;
4)当情感词典停止自动扩充算法时,程序会在词语节点之间划分边界,然后将所有同义词形成同义词种子集合;
5)同义词种子集合放入同义词的基本词所在的种子集合中,完成初始种子集合的扩充;
6)之后每一次分类器在进行分类时皆对种子集合进行自动扩充。
6.根据权利要求1所述的一种面向用户行为分析的大众口碑情感分析方法,其特征在于,所述分类器可通过情感词典模块进行完善,提高情感分类准确度,所述分类器完善步骤具体如下:
1)分类器基于情感词典对特征提取模块的数据进行情感分类,并按照情感类别进行分别保存;
2)人力依据情感词典对特征提取模块的数据进行情感分类,并按照情感类别进行分别保存;
3)情感词典通过机器完善,并且分类器基于完善的情感词典对特征提取模块的数据再进行一次情感分类,并按照情感类别进行分别保存;
4)重复3)直至分类器的分类数据与情感词典的修正数据结果的差值最小,此时分类器为最佳性能的分类器。
7.根据权利要求1所述的一种面向用户行为分析的大众口碑情感分析方法,其特征在于,所述机器学习和情感词典相结合工作步骤具体如下:
1)分类器基于情感词典对特征提取模块的数据进行情感分类,并按照情感类别进行分别保存;
2)将保存结果导出。