1.一种直播间内容标签权重计算方法,其特征在于,所述方法包括:对目标直播间进行内容标签的标注,所述目标直播间中标注的内容标签包括目标内容标签;
对所述目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,所述目标直播间的相关文本包括所述目标直播间中文本信息的一项或多项;
根据所述目标直播间中各内容标签的词向量,确定待计算权重的所述目标内容标签的相似词集合;
根据所述相似词集合,计算所述目标直播间内目标内容标签权重;
所述对所述目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,包括:
对所述目标直播间的相关文本进行分词,得到分词后的文本;
采用word2vec算法计算得到目标直播间中各内容标签的词向量;
其中,目标内容标签L,其对应的词向量为(l1,l2,...,ls),所述目标直播间中除目标内容标签L外其他内容标签wi的词向量表示为:(wi1,wi2,...,wis);
其中,s是向量的维度,Wis表示内容标签wi在s维度的词向量;
所述根据所述目标直播间中各内容标签的词向量,确定待计算权重的所述目标内容标签的相似词集合,包括:
对于所述目标直播间中除目标内容标签L外其他内容标签wi,分别计算各内容标签与目标内容标签L的余弦距离ai:选择di值最大的前预设个数的内容标签作为目标内容标签L的相似词,得到目标内容标签的相似词集合;
其中,Wij表示表示内容标签wi在j维度的词向量,j为正整数且1≤j≤s。
2.根据权利要求1所述的方法,其特征在于,所述根据所述相似词集合,计算所述目标直播间内目标内容标签权重,包括:统计所述相似词集合包含的各相似词在目标直播间分别出现的次数;
统计所述目标直播间的相关文本中出现出目标内容标签外的内容标签的总次数;
计算标签关联词集合房间的信息熵;
采用如下公式计算所述目标直播间内目标内容标签权重:其中:R是全网直播间个数;L是目标内容标签;
wr是目标内容标签L的相似词集合,该集合包含词语wr1,wr2,...,wrm;
N(wri)是全网直播间中的文本中出现词语wr的次数;
N(wi)是所述目标直播间的相关文本中出现出目标内容标签外的内容标签wi出现的总次数;
H(wr)是标签关联词集合房间的信息熵。
3.根据权利要求2所述的方法,其特征在于,所述计算标签关联词集合房间的信息熵,采用如下公式:
其中:
R(wr)是全网直播间中弹幕文本中含有目标内容标签相似词集合中词语wr的直播间个数。
4.一种直播间内容标签权重计算装置,其特征在于,所述装置包括:标注模块,用于对目标直播间进行内容标签的标注,所述目标直播间中标注的内容标签包括目标内容标签;
训练模块,用于对所述目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,所述目标直播间的相关文本包括所述目标直播间中文本信息的一项或多项;
确定模块,用于根据所述目标直播间中各内容标签的词向量,确定待计算权重的所述目标内容标签的相似词集合;
计算模块,用于根据所述相似词集合,计算所述目标直播间内目标内容标签权重;
所述训练模块具体用于:
对所述目标直播间的相关文本进行分词,得到分词后的文本;
采用word2vec算法计算得到目标直播间中各内容标签的词向量;
其中,目标内容标签L,其对应的词向量为(l1,l2,...,ls),所述目标直播间中除目标内容标签L外其他内容标签wi的词向量表示为:(wi1,wi2,...,wis);
其中,s是向量的维度,Wis表示内容标签wi在s维度的词向量;
所述确定模块具体用于:
对于所述目标直播间中除目标内容标签L外其他内容标签wi,分别计算各内容标签与目标内容标签L的余弦距离di:选择di值最大的前预设个数的内容标签作为目标内容标签L的相似词,得到目标内容标签的相似词集合;
其中,Wij表示表示内容标签wi在j维度的词向量,j为正整数且1≤j≤s。
5.根据权利要求4所述的装置,其特征在于,所述计算模块具体用于:统计所述相似词集合包含的各相似词在目标直播间分别出现的次数;
统计所述目标直播间的相关文本中出现出目标内容标签外的内容标签的总次数;
计算标签关联词集合房间的信息熵;
采用如下公式计算所述目标直播间内目标内容标签权重:其中:R是全网直播间个数;L是目标内容标签;
wr是目标内容标签L的相似词集合,该集合包含词语wr1,wr2,...,wrm;
N(wri)是全网直播间中的文本中出现词语wr的次数;
N(wi)是所述目标直播间的相关文本中出现出目标内容标签外的内容标签wi出现的总次数;
H(wr)是标签关联词集合房间的信息熵。
6.一种电子设备,其特征在于,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时可以实现权利要求1至3任一所述的方法。