1.一种基于大数据的互联网视频剧本角色情感识别方法,其特征在于,包括以下步骤:S1.采集剧本数据集并进行预处理,得到预训练数据集;
S2.基于预训练数据集,采用情感语义增强方法预训练BERT模型;
步骤S2所述的情感语义增强方法包括CSOP任务和Sentiment MASK任务;采用BERT模型对CSOP任务和Sentiment MASK任务进行联合预训练,并采用交叉熵损失函数计算联合预训练损失值;
CSOP任务用于上下文句子顺序预测,其具体训练过程包括:S211.为预训练数据
S212.将预训练数据
Sentiment MASK任务的训练过程包括:S221.通过情感倾向点互信息算法SO-PMI获取预训练数据S222.对于预训练数据
S223.对于预训练数据
S224.通过步骤S221-S223得到对应于预训练数据S3.采用预训练好的BERT模型进行prompt范式任务和情感分类任务的联合训练,得到训练好的剧本角色情感识别模型;
S4.采集待识别剧本数据输入训练好的剧本角色情感识别模型,输出剧本角色情感识别结果。
2.根据权利要求1所述的一种基于大数据的互联网视频剧本角色情感识别方法,其特征在于,步骤S1采集剧本数据集并进行预处理包括:S11.在剧本数据x
S12.对剧本数据x
S13重复步骤S11-S12,得到N条预训练数据组成预训练数据集。
3.根据权利要求1所述的一种基于大数据的互联网视频剧本角色情感识别方法,其特征在于,步骤S3所述的prompt范式任务的训练过程包括:S311.根据BERE词表和情感范式结构对输入的剧本数据进行构造,得到一个包含MASK标记的范式数据;
S312.将范式数据输入BERT模型,输出每一个MASK标记处的预测词并拼接,将拼接结果通过全连接层获取标签预测结果。
4.根据权利要求3所述的一种基于大数据的互联网视频剧本角色情感识别方法,其特征在于,步骤S311针对输入的剧本数据xS3001.在剧本数据x
S3002.在经过步骤S3001处理后的剧本数据xS3003.将BERT词表中的[unuse]标记作为提示加入步骤S3002处理后的剧本数据x
5.根据权利要求1所述的一种基于大数据的互联网视频剧本角色情感识别方法,其特征在于,步骤S3所述的情感分类任务的训练过程包括:S321.将剧本数据通过BERT模型输出特征向量,根据特征向量获取角色名特征向量;
S322.获取角色名特征向量分别与爱、乐、惊、怒、恐和哀6种情感对应的6个角色情感特征向量,根据角色情感特征向量得到6个倾向分数;
S323.获取特征向量分别与爱、乐、惊、怒、恐和哀6种情感对应的6个基础预测概率;
S324.将每一种情感对应的基础预测概率与倾向分数融合,最终得到情感分类预测结果。
6.根据权利要求5所述的一种基于大数据的互联网视频剧本角色情感识别方法,其特征在于,步骤S321根据特征向量获取角色名特征向量,包括:S3201.获取剧本数据中目标角色名的角色位置索引,根据角色位置索引在该剧本数据的特征向量中提取角色名向量;
S3202.获取该剧本数据中目标角色名的前后文位置索引,根据前后文位置索引在该剧本数据的特征向量中提取前后文向量;
S3203.将每一个角色名向量与其对应的前后文向量融合,最终得到该剧本数据的角色名特征向量。