1.基于弹幕情感的视频热点片段检测方法,其特征在于,具体步骤包括:步骤S1、对获取到的弹幕视频进行清洗,并对清洗后的弹幕视频进行切分,得到视频片段;
步骤S2、构造弹幕情感词典,使用构造的弹幕情感词典对步骤S2中视频片段中的弹幕进行情感强度计算,得到视频片段的整体情感强度,并根据整体情感强度对视频片段的整体情感倾向进行判定;
步骤S3、根据步骤S2中得到的各视频片段的整体情感强度,计算相邻视频片段的情感强度变化率;
步骤S4、使用LDA主题模型对视频片段进行主题提取,生成视频片段对应的主题‑关键词概率分布,计算相邻视频片段的主题相似度;
步骤S5、对步骤S2中的视频片段的整体情感强度、步骤S3的相邻视频片段的情感强度变化率及步骤S4中的相邻视频片段的主题相似度设置阈值,构造热点视频片段检测模型;
步骤S6、将获取到的弹幕视频输入到热点视频片段检测模型中,得到弹幕视频的热点视频片段。
2.根据权利要求1所述的基于弹幕情感的视频热点片段检测方法,其特征在于,步骤S1的具体步骤包括:
对清洗后的弹幕视频进行切分,得到含有k个视频片段的弹幕视频分段集合V,V={s1,s2,…sk},sk代表弹幕视频分段集合V中第k个视频片段,sk的时间长度为定值Ts,将弹幕c定义为三元组(wc,tc,td),其中wc代表弹幕c中的关键词集合,tc代表弹幕c在弹幕视频中的时间戳,td代表弹幕发布的时间距离弹幕视频上线时间的天数。
3.根据权利要求1所述的基于弹幕情感的视频热点片段检测方法,其特征在于,步骤S2中构造弹幕情感词典的步骤包括:采用大连理工大学情感本体库词典为初始词典,将情感分为7种:好、乐、哀、怒、惧、恶、惊,其中,乐和好属于正向情感,哀、怒、惧、恶和惊属于负向情感,将每种正向情感的强度分为1、3、5、7、9五档,负向情感分为‑1、‑3、‑5、‑7、‑9五档;
在所述初始词典的基础上扩充弹幕颜表情词典,并确定颜表情权重;扩充语气词典;扩充否定词典,根据弹幕常用的否定副词,将否定副词的权重设为‑1;扩充弹幕网络情感新词词典,从弹幕视频中和搜狗输入法的词库中整理筛选网络情感新词进行扩充,并定义所述网络情感新词的情感权重。
4.根据权利要求2所述的基于弹幕情感的视频热点片段检测方法,其特征在于,步骤S2中对视频片段的情感强度计算和情感倾向判定的具体过程为:步骤S21、根据弹幕特有的时序性特征,计算视频片段中每条弹幕的情感强度,并根据计算的情感强度将弹幕定义为正向情感弹幕或负向情感弹幕,计算情感强度的公式如下:其中,td为弹幕c发布的时间距离弹幕视频上线时间的天数,tsum是弹幕视频发布的总天数; 表示弹幕中第j个情感词ej前有negj个否定副词和qj个程i
度副词修饰时的情感强度,Em为弹幕c中颜表情的权重,nm为弹幕c中颜表情的个数;当e>0i
时,定义弹幕c为正向情感弹幕,当e≤0时定义弹幕c为负面情感弹幕;
步骤S22、将步骤S21中计算的每条弹幕的情感强度累加求和得到视频片段sk的整体情感强度
其中,Sc表示视频片段sk中弹幕的条数;
步骤S23、根据步骤S22的计算结果,定义情感倾向 当 时, 定义视频片段sk的整体情感倾向为正向;
当 时, 定义视频片段sk的整体情感倾向为负向;
当 时, 定义视频片段sk的整体情感倾向为中性。
5.根据权利要求4所述的基于弹幕情感的视频热点片段检测方法,其特征在于,计算相邻视频片段的情感强度变化率的具体过程包括:对弹幕视频分段集合V中的每一个视频片段进行情感倾向的判定,所有视频片段的情感倾向向量表示为 计算弹幕视频分段集合V的片段平均情感强度Avg(Ev),计算公式如下:计算视频片段sk的终止时间te时刻的情感变化率ke,相邻视频片段的时间间隔为Ts,计算两个相邻视频片段的情感强度变化率 计算公式如下:其中, 为视频片段sk的整体情感强度, 为视频片段sk‑1的整体情感强度,k=1时,计算弹幕视频分段集合V的相邻片段平均情感强度变化率 计算公式如下:
6.根据权利要求1所述的基于弹幕情感的视频热点片段检测方法,其特征在于,步骤S4的具体过程包括:
步骤S41、采用LDA主题模型,对切分后的视频片段进行主题提取,生成视频片段对应的文档‑主题、主题关键词概率分布;
步骤S42、根据步骤S41生成的视频片段对应的文档‑主题、主题关键词概率分布,提取视频片段每个主题的前m个主题关键词及权重,生成视频片段的主题关键词集合和主题关键词权重集合,其中,主题关键词集合表示为:表示主题tK中第m个关键词;
主题关键词权重集合表示为:
其中, 表示主题tK中第m个关键词的权重;
步骤S43、利用Jaccard相似度计算视频片段主题关键词相似度,利用余弦相似度计算视频片段主题关键词权重的相似度;
步骤S44、结合步骤S43中计算的视频片段主题关键词相似度和视频片段主题关键词权重的相似度计算相邻视频片段之间的主题相似度。
7.根据权利要求6所述的基于弹幕情感的视频热点片段检测方法,其特征在于,相邻视频片段主题相似度的计算公式如下:其中,
su和sv为相邻视频片段, 分别表示视频片段su和sv的主题关键词特征集合,分别表示视频片段su和sv主题关键词权重的集合, 表示视频片段su和sv的主题关键词相似度,取值范围为(0,1], 表示视频片段su和sv的相同主题关键词权重向量的余弦相似度。
8.根据权利要求1所述的基于弹幕情感的视频热点片段检测方法,其特征在于,构造热点片段检测模型的步骤包括:
步骤S51、按照弹幕视频分段集合V中各视频片段的时间,对各视频片段逐个进行热点片段特征计算,热点片段特征计算包括:计算各视频片段的整体情感强度 计算弹幕视频分段集合V的情感倾向向量Vf和片段平均情感强度Avg(Ev),计算两个相邻视频片段的情感强度变化率
步骤S52、根据步骤S51的计算结果对弹幕视频分段集合V中的视频片段搜索热点视频片段的起始点,若其中一个视频片段sk与其相邻的视频片段sk‑1的情感强度变化率 大于相邻片段平均情感强度变化率 且该视频片段的整体情感强度 大于片段平均情感强度Avg(Ev),则认为该视频片段sk为热点视频片段的起始片段,并更新起始热点视频片段集合D,并合并相邻的视频片段sk和sk‑1;
步骤S53、根据视频片段主题关键词和主题关键词权重,计算相邻视频片段的主题相似度,判断视频片段的整体情感强度是否大于片段平均情感强度Avg(Ev)且相邻视频片段主题相似度是否大于δ,相邻视频片段主题相似度的取值范围为(0,1],δ表示根据实际视频片段检测需求的取值,初始值取0.5;
步骤S54、若步骤S53中的判断结果为是,则认为该视频片段为热点视频片段,更新热点视频片段窗口W;
步骤S55、按照起始热点视频片段集合D中视频片段的时间顺序,重复步骤S53‑S54,依次进行所有视频片段的热点片段检测,直至遍历完起始热点视频片段集合D中所有的起始热点视频片段。
9.基于弹幕情感的视频热点片段检测装置,其特征在于,包括预处理模块、情感计算模块、主题相似度计算模块、边界判定模块、检测模块,其中,预处理模块用于对获取到的弹幕视频数据进行片段划分和数据清洗,得到视频片段,构造弹幕情感词典;
情感计算模块用于使用预处理模块构建的弹幕情感词典对视频片段进行整体情感强度计算并进行整体情感倾向的判定,对已经完成整体情感强度计算的视频片段进行相邻视频片段情感强度变化率的计算;
主题相似度计算模块用于对视频片段进行主题相似度计算,使用LDA主题模型对视频片段进行主题提取,并计算相邻视频片段的主题相似度;
边界判定模块用于对视频片段的整体情感强度、情感强度变化率及相邻视频片段的主题相似度设置阈值,对热点视频片段的起始时间进行标识,构造热点视频片段检测模型;
检测模块用于将获取的弹幕视频输入到构造的热点视频片段检测模型中,得到弹幕视频的热点视频片段。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在运行时实现权利要求1‑8任一项所述的方法。