欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2023106278965
申请人: 徐欢
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-11-12
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于大数据的互联网视频剧本角色情感识别方法,其特征在于,包括以下步骤:S1.采集剧本数据集并进行预处理,得到预训练数据集;

S2.基于预训练数据集,采用情感语义增强方法预训练BERT模型;

步骤S2所述的情感语义增强方法包括CSOP任务和Sentiment MASK任务;采用BERT模型对CSOP任务和Sentiment MASK任务进行联合预训练,并采用交叉熵损失函数计算联合预训练损失值;

CSOP任务用于上下文句子顺序预测,其具体训练过程包括:S211.为预训练数据

S212.将预训练数据

Sentiment MASK任务的训练过程包括:S221.通过情感倾向点互信息算法SO-PMI获取预训练数据S222.对于预训练数据

S223.对于预训练数据

S224.通过步骤S221-S223得到对应于预训练数据S3.采用预训练好的BERT模型进行prompt范式任务和情感分类任务的联合训练,得到训练好的剧本角色情感识别模型;

S4.采集待识别剧本数据输入训练好的剧本角色情感识别模型,输出剧本角色情感识别结果。

2.根据权利要求1所述的一种基于大数据的互联网视频剧本角色情感识别方法,其特征在于,步骤S1采集剧本数据集并进行预处理包括:S11.在剧本数据x

S12.对剧本数据x

S13重复步骤S11-S12,得到N条预训练数据组成预训练数据集。

3.根据权利要求1所述的一种基于大数据的互联网视频剧本角色情感识别方法,其特征在于,步骤S3所述的prompt范式任务的训练过程包括:S311.根据BERE词表和情感范式结构对输入的剧本数据进行构造,得到一个包含MASK标记的范式数据;

S312.将范式数据输入BERT模型,输出每一个MASK标记处的预测词并拼接,将拼接结果通过全连接层获取标签预测结果。

4.根据权利要求3所述的一种基于大数据的互联网视频剧本角色情感识别方法,其特征在于,步骤S311针对输入的剧本数据xS3001.在剧本数据x

S3002.在经过步骤S3001处理后的剧本数据xS3003.将BERT词表中的[unuse]标记作为提示加入步骤S3002处理后的剧本数据x

5.根据权利要求1所述的一种基于大数据的互联网视频剧本角色情感识别方法,其特征在于,步骤S3所述的情感分类任务的训练过程包括:S321.将剧本数据通过BERT模型输出特征向量,根据特征向量获取角色名特征向量;

S322.获取角色名特征向量分别与爱、乐、惊、怒、恐和哀6种情感对应的6个角色情感特征向量,根据角色情感特征向量得到6个倾向分数;

S323.获取特征向量分别与爱、乐、惊、怒、恐和哀6种情感对应的6个基础预测概率;

S324.将每一种情感对应的基础预测概率与倾向分数融合,最终得到情感分类预测结果。

6.根据权利要求5所述的一种基于大数据的互联网视频剧本角色情感识别方法,其特征在于,步骤S321根据特征向量获取角色名特征向量,包括:S3201.获取剧本数据中目标角色名的角色位置索引,根据角色位置索引在该剧本数据的特征向量中提取角色名向量;

S3202.获取该剧本数据中目标角色名的前后文位置索引,根据前后文位置索引在该剧本数据的特征向量中提取前后文向量;

S3203.将每一个角色名向量与其对应的前后文向量融合,最终得到该剧本数据的角色名特征向量。