1.一种语义情感分类特征值提取方法,包括:
通过爬取互联网用户的评价信息获取分类语料库,其中,所述分类语料库包括自然语言描述文本和类别信息, 根据中文分词算法将所述自然语言描述文本的段落句子拆分为词语; 根据所述分类语料库的类别信息,计算所述词语与所述类别信息之间的类别PMI互信息; 根据所述类别PMI互信息与所述类别信息之间的线性相关的特性获得PMI斜率值,并根据所述PMI斜率值判断所述词语的情感词性; 根据预设的PMI斜率值的阈值提取具有情感倾向的词语作为所述自然语言描述文本的语义情感分类特征值。
2.如权利要求1所述的语义情感分类特征值提取方法,其中,所述中文分词算法包括:最大匹配法、最大均词长法和最小方差法。
3.如权利要求1所述的语义情感分类特征值提取方法,其中, 所述类别PMI互信息计算公式为:
其中,p(t∧c)为词语t和类别c同时出现的概率,p(t)为词语出现的概率,p(c)为类别c出现的概率。
4.如权利要求1所述的语义情感分类特征值提取方法,其中, 所述类别PMI互信息与所述类别信息之间通过线性拟合方法获得PMI斜率值,拟合的方法计算出线性函数y=ax+b中的变量a和b, 其中,变量a为PMI斜率值,变量a和b可以通过以下公式获得: 。
5.一种语义情感分类特征值提取系统,包括:
分类语料库获取单元,用于通过爬取互联网用户的评价信息获取分类语料库,其中,所述分类语料库包括自然语言描述文本和类别信息, 中文分词单元,用于根据中文分词算法将所述自然语言描述文本的段落句子拆分为词语; 类别PMI互信息计算单元,用于根据所述分类语料库的类别信息,计算所述词语与所述类别信息之间的类别PMI互信息; PMI斜率值获取单元,用于根据所述类别PMI互信息与所述类别信息之间的线性相关的特性获取PMI斜率值,并根据所述PMI斜率值判断所述词语的情感词性; 特征值选取单元,用于根据预设的PMI斜率值的阈值提取具有情感倾向的词语作为所述自然语言描述文本的语义情感分类特征值。
6.如权利要求5所述的语义情感分类特征值提取系统,其中,在所述中文分词单元中, 所述中文分词算法包括:最大匹配法、最大均词长法和最方差法。
7.如权利要求5所述的语义情感分类特征值提取系统,其中,在所述类别PMI互信息获取单元中,所述类别PMI互信息计算公式为: 其中,p(t∧c)为词语t和类别c同时出现的概率,p(t)为词语出现的概率,p(c)为类别c出现的概率。
8.如权利要求5所述的语义情感分类特征值提取系统,其中, 在PMI斜率值获取单元中,所述类别PMI互信息与所述类别信息之间通过线性拟合方法获得PMI斜率值,拟合的方法计算出线性函数y=ax+b中的变 量a和b, 其中,变量a为PMI斜率值,变量a和b可以通过以下公式获得: 。