1.一种基于弹幕文本的直播间内容标签提取方法,其特征在于:构建直播词汇词典,所述直播词汇词典用于存储与直播平台内容相关的词汇;根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词;
对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词;
计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。
2.如权利要求1所述的一种基于弹幕文本的直播间内容标签提取方法,其特征在于:计算直播间的设定时间内的内容标签与该直播间的相关度的计算公式为:其中:
M表示直播间ID号,L表示内容标签;
wr是内容标签L下的标签关联词的集合,该集合包含词wr1,wr2,...,wrm,m表示wr中词的个数;
N(wri)是直播间M的弹幕文本中出现wr的次数;
wi表示直播间M的弹幕文本中出现的全部标签关联词的集合,该集合包含词w1,w2,...,wm,n表示wi中词的个数;
N(wi)是直播间M的弹幕文本中的wi出现的总次数;
R是所有直播间个数;
R(wr)是弹幕文本中含有标签关联词集合wr中词语的直播间个数。
3.如权利要求1所述的一种基于弹幕文本的直播间内容标签提取方法,其特征在于:所述内容标签包括通用类标签和分区类标签,所述通用类标签为直播内容相关的内容标签,所述分区类标签为分区下直播间内关键词相关的内容标签。
4.如权利要求1所述的一种基于弹幕文本的直播间内容标签提取方法,其特征在于:所述设定时间为一个月。
5.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至4任一项所述的方法。
6.一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,其特征在于:处理器执行计算机程序时实现权利要求1至4任一项所述的方法。
7.一种基于弹幕文本的直播间内容标签提取系统,其特征在于,包括:直播词汇词典,所述直播词汇词典用于存储与直播平台内容相关的词汇;
分词模块,所述分词模块用于根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词;
内容标签构建模块,所述内容标签构建模块用于对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词;
标签相关度计算模块,所述标签相关度计算模块用于计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。
8.如权利要求7所述的一种基于弹幕文本的直播间内容标签提取系统,其特征在于:计算直播间的设定时间内的内容标签与该直播间的相关度的计算公式为:其中:
M表示直播间ID号,L表示内容标签;
wr是内容标签L下的标签关联词的集合,该集合包含词语wr1,wr2,...,wrm,m表示wr中词语的个数;
N(wri)是直播间M的弹幕文本中出现词语wr的次数;
wi表示直播间M的弹幕文本中出现的全部标签关联词的集合,该集合包含词语w1,w2,...,wm,n表示wi中词语的个数;
N(wi)是直播间M的弹幕文本中的wi出现的总次数;
R是所有直播间个数;
R(wr)是弹幕文本中含有标签关联词集合wr中词语的直播间个数。
9.如权利要求7所述的一种基于弹幕文本的直播间内容标签提取系统,其特征在于:所述内容标签包括通用类标签和分区类标签,所述通用类标签为直播内容相关的内容标签,所述分区类标签为分区下直播间内关键词相关的内容标签。
10.如权利要求7所述的一种基于弹幕文本的直播间内容标签提取系统,其特征在于:所述设定时间为一个月。