知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于句法分析的微博情感分类方法和系统

￥37100

专利号： 2020111273046

申请人：浙江工业大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2023-12-11

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于句法分析的微博情感分类方法，包含以下步骤：S1：获取用于情感分析的微博短文本，根据情感极性进行文本类别标注并划分为训练集和测试集；

S2：分别对训练集和测试集进行数据预处理，包括中文分词、去停用词；

S3：对预处理后的每个样本进行依存句法分析，得到依存句法树；根据所述依存句法树采用基于句法路径的匹配算法进行微博情感特征选择，提取出具有明显情感倾向性的词汇作为初始特征集合，并结合外部情感特征词典构建特征词库；

S4：根据预先构建的情感特征词库，分别对训练集和测试集的初始特征集合进行特征扩展，使用TFIDF计算每个特征词的特征权值并向量化表示文本；

S5：根据所述扩展后的训练样本集训练贝叶斯分类器，得到贝叶斯分类模型；根据所述贝叶斯分类模型对扩展后的测试样本进行分类操作，得到微博情感分类结果。

2.如权利要求1所述的基于句法分析的微博情感分类方法，其特征在于：步骤S1具体包含：

S11：在新浪微博等社交平台上，通过爬虫软件爬取一定数量且包含不同情感类别的微博短文本数据；

S12：将获取的文本数据进行数据清洗：删除空文本等无效样本数据，并通过正则表达式剔除微博短文本中包含的表情、链接、图片等噪声数据；

S13：根据微博文本内容，对每个微博样本的情感正负倾向性进行类别标注，微博情感主要划分为积极、中性以及消极三种情感类别；

S14：将微博短文本数据按3：1划分为训练集和测试集，训练集用于训练分类模型，测试集用于验证分类模型的有效性。

3.如权利要求1所述的基于句法分析的微博情感分类方法，其特征在于：步骤S2具体包含：

S21：利用中文分词工具，分别对训练集和测试集进行中文分词处理，并标注词性；

S22：根据预先建立的停用词表，剔除文本数据中出现的停用词，即一些无实际意义的字词、标点以及特殊符号。

4.如权利要求1所述的基于句法分析的微博情感分类方法，其特征在于：所述步骤S3具体包含：

S31：训练集数据以句子为单位，利用句法分析工具进行句法依存分析，得到文本的句法依存结构即依存关系，以及依存句法树；

S32：根据句法依存关系采用基于句法路径的匹配算法进行微博情感特征选择，提取出具有明显情感倾向性的词汇作为初始特征集合；

S33：结合外部情感特征词典，利用初始特征集合构建情感特征词库，用于扩展微博短文本的情感特征。

5.如权利要求1所述的基于句法分析的微博情感分类方法，其特征在于：所述步骤S4具体包含：

S41：根据所述预先构建的情感特征词库，分别对训练集和测试集的初始特征集合进行特征扩展；

S42：使用TFIDF对扩展后的训练集和测试集计算每个特征词的特征权值，TFIDF的具体计算公式为：

其中nij表示某一类别dj中字词wi出现的次数，而表示在该类dj中所有字词出现的次数之和，|D|表示语料库中的类目总数，|{j:wj∈dj}|表示包含字词wi的类目数；

S43：根据所述特征权值即ITIDF值，将训练集和测试集文本以向量化形式进行文本表示。

6.如权利要求1所述的基于句法分析的微博情感分类方法，其特征在于：所述步骤S5具体包含：

S51：通过扩展后的训练样本集训练贝叶斯分类器，得到贝叶斯分类模型；

S52：根据所述分类模型对扩展后的测试样本进行分类操作，得到微博情感分类结果。

7.一种基于句法分析的微博情感分类系统，其特征在于：包括：数据获取模块，用于在新浪微博等社交平台上利用爬虫软件获取微博文本数据，根据微博内容进行情感标注并划分为训练集和测试集；

数据预处理模块：用于对微博文本数据进行预处理，包括文本清洗、中文分词以及去停用词等；

特征提取模块：用于分别对训练集和测试集进行特征提取，主要包括：句法依存分析子模块：用于利用句法分析工具分别对训练集和测试集进行句法依存分析，获取依存句法树；

特征选择子模块：根据依存句法树，采用基于句法路径的匹配算法进行情感特征提取，选择具有明显情感倾向性的词汇作为初始情感特征集合；

特征词库构建子模块：结合外部情感特征词典，以及所述初始情感特征集合构建情感特征词库，用于扩展短文本的情感特征；

特征扩展模块：用于根据所述特征词库对文本进行特征扩展，使用IFTIDF计算特征权值并向量化表示文本；

情感分类模块：用于通过扩展后的训练集训练分类器，得到贝叶斯分类模型，再对扩展后的测试集进行分类操作得到微博情感分类结果。

8.如权利要求7所述的一种基于句法分析的微博情感分类系统，其特征在于：数据获取模块具体包括：

微博短文本数据爬取子模块：在新浪微博等社交平台上，通过爬虫软件爬取一定数量且包含不同情感类别的微博短文本数据。

文本数据清晰子模块：将获取的文本数据进行数据清洗：删除空文本等无效样本数据，并通过正则表达式剔除微博短文本中包含的表情、链接、图片等噪声数据，为保证样本的多样性，处理后的样本数量不少于10000条。

微博样本的情感正负倾向性类别标注子模块：根据微博文本内容，对每个微博样本的情感正负倾向性进行类别标注，微博情感主要划分为积极、中性以及消极三种情感类别。举例说明具体的微博情感类别，例如：“今年中秋国庆凑一块了，连休八天，真好！终于不用上班可以出去玩了！”该微博包含了开心快乐的情感，应划分为积极情感一类。

训练集和测试集划分子模块：将微博短文本数据按3：1划分为训练集和测试集，训练集用于训练分类模型，测试集用于验证分类模型的有效性。

数据预处理模块具体包含：

中文分词处理子模块：通过jieba分词工具分别对训练集和测试集进行中文分词处理，并标注词性；

停用词剔除子模块：根据预先建立的停用词表，剔除文本数据中出现的停用词，即一些无实际意义的字词、标点以及特殊符号。

句法依存分析子模块具体包括：

训练集数据以句子为单位，利用Stanford句法分析工具进行句法依存分析，得到文本的句法依存结构(即依存关系)，以及依存句法树。

依存句法通过词汇之间的依存关系表达整个句子结构，这些依存关系表达了句子各成分之间的语义依赖关系。所有词汇之间的依存关系构成一颗句法树，树的根节点为句子核心谓词，用来表达整个句子的核心内容。例如，对中文短文本“俄国希望伊朗没有制造核武器计划。”进行句法分析得到依存句法树，其结构如图2所示。

依存句法分析树标注集及其含义如下表1：表1 依存句法分析树标注集及其含义特征扩展模块具体包括：

特征扩展子模块：根据所述预先构建的情感特征词库，分别对训练集和测试集的初始特征集合进行特征扩展；

特征权值计算子模块：使用TFIDF对扩展后的训练集和测试集计算每个特征词的特征权值，TFIDF的具体计算公式为：其中nij表示某一类别dj中字词wi出现的次数，而表示在该类dj中所有字词出现的次数之和，|D|表示语料库中的类目总数，|{j:wj∈dj}|表示包含字词wi的类目数；

文本表示子模块：根据所述特征权值即ITIDF值，将训练集和测试集文本以向量化形式进行文本表示：文本d可以表示为若干个情感特征及其权值的集合d＝(w1,w2,…,wn)，wi为情感特征词w的特征权值。

情感分类模块具体包括：