1.一种融合多种情感极性的文本讽刺识别方法,其特征在于,该方法包括以下步骤:
S1、构建讽刺识别数据集:首先整合现有的相关数据集整理得到原始的讽刺数据,对所述原始的讽刺数据进行标注,然后将每一个所述原始的讽刺数据与其对应的标注构造成二元组,所有的二元组构成一个讽刺识别数据集,最后将讽刺识别数据集按照一定的比例划分为训练集、验证集和测试集;
S2、构建讽刺识别情感词典:首先从多个社交平台的评论和所述的讽刺识别数据集中选取N条具有情感极性的评论作为语料库;然后计算每个单词的词频所述扩充讽刺识别情感词典的步骤包括:
S21、计算每个单词的
S22、构建情感倾向点互信函数
所述构建情感倾向点互信函数
S221、针对于在语料库中出现0次或者极少次的单词,使用N元语法NGram重新估算其在语料库中出现的次数:其中x表示某一单词在语料库中出现的次数;
S222、分别计算目标词
其中
S223、设计情感倾向点互信函数
S224、计算语料库中每一个单词的情感倾向,其公式如下:
其中
若
S3、构建讽刺识别模型:首先将输入文本根据讽刺识别情感词典拆分为积极情感极性部分、消极情感极性部分以及无情感极性部分;然后构建融合多种情感极性的讽刺识别网络IMEPSI分别提取积极情感极性部分和消极情感极性部分的情感特征、文本的上下文信息特征;接着将情感特征与上下文信息特征进行融合,并对融合后的特征进行降维;最后根据激活函数判断该文本是否具有讽刺性;
所述构建讽刺识别模型的步骤包括:
S31、基于构建好的讽刺识别情感词典,将输入文本划分为积极情感极性部分
S32、构建融合多种情感极性的讽刺识别网络IMEPSI,分别提取
所述构建融合多种情感极性的讽刺识别网络IMEPSI提取并融合情感特征与上下文信息特征的步骤包括:S321、运用BERT模型提取
S322、首先提取输入文本的上下文信息特征,表示为
S323、融合
若
S4、设置模型的所有相关参数:设置丢弃率的大小、学习率的大小、批处理的大小、优化器的选择与模型相关的参数;将训练集和验证集加载至该模型中进行训练,得该模型训练后的最优参数;
S5、运用该讽刺识别模型,对输入文本进行讽刺识别,将测试集输入到训练好的讽刺识别模型中进行测试,使用机器学习中的准确率和平均漏检率作为该讽刺识别模型在执行讽刺识别任务时的评估指标,然后将该讽刺识别模型运用于不同数据集的讽刺识别任务当中。
2.一种融合多种情感极性的文本讽刺识别装置,其特征在于,用于运行权利要求1所述的融合多种情感极性的文本讽刺识别方法。