欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2017112112711
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.动态短文本流聚类检索方法,包括以下几个步骤:

步骤1)对短文本流数据进行文本预处理,将每个文档用特征词序列表示;

步骤2)根据步骤1),对短时期内每个时间段的文档进行话题建模,得到短时期话题基于文档的分布模型与短时期特征词基于话题的分布模型;

步骤3)根据步骤1),对历史数据流进行话题建模,得到话题基于历史文档的分布模型与特征词基于话题的分布模型,为时期话题模型信息缺失进行补充;

步骤4)利用吉布斯抽样算法简化话题与文档的条件概率分布计算,分别获得短时期和长时期话题基于文档的分布模型,并利用求解文档与话题联合概率极大值的方法,计算特征词与话题的条件概率分布,分别获得短时期和长时期特征词基于话题的分布模型;

步骤5)根据步骤2)、步骤3)、步骤4),利用聚类算法结合短时期与长时期话题基于文档的分布模型得到当前时刻文档与簇之间的对应关系并利用基于聚类的检索模型得到用户查询信息与文档之间的关系;

所述步骤1)利用分词技术将每个文档表示为词序列,再进行噪声与停用词的过滤得到每个文档的特征词序列d={v1,v2,v3,…,vV};

其特征在于,步骤2)根据多项式混合模型得到t时刻基于t‑1时刻的话题分布与特征词分布 其

中θt表示t时刻的话题分布,φt,z表示t时刻每个话题z的特征词分布,φt,z,v和φt‑1,z,v表示特征词v在t时刻和t‑1时刻每个话题z的分布,αt和βt,z分别表示话题分布模型和特征词分布模型中联系两个时刻分布的参数矩阵,αt,z和βt,z,v对应单个话题z和特征词v的参数值,∝表示等比于,将t‑1时刻的两种分布作为t时刻话题与特征词对应分布的先验参数,并为上式设置初始化条件:当t=0时,话题分布为θ0,z=1/Z,基于话题的特征词分布为φ0,z,v=1/V。

2.依据权利要求1所述的方法,其特征在于,步骤3)考虑用户在信息检索时对某一话题的兴趣度与历史数据信息有关联度,因此在短时期建模的基础上加入对长时期话题分布考虑,从而完善动态短文本流中存在的信息缺失;根据多项式混合模型,得到t时刻基于历史话 题数 据 L的 话 题 分 布 与特 征 词 分 布其中αt,z,l和βt,z,v,l表示t时刻的分布模型

与之前第l个话题的相关性。

3.依据权利要求1所述的方法,其特征在于,步骤4),由于话题模型中的分布参数较复杂难以解决,因此利用收敛的吉布斯抽样算法得到分布参数的求解,针对步骤2)与步骤3)中短时期话题模型与长时期话题模型的特点分别计算t时刻文档d中话题与文档d的条件概率P(zd|zt,‑d,dt,φt‑1,θt‑1,αt,βt)与 其中zd代表文档d中的话题,zt,‑d代表文档中除了文档d中的话题,并利用求解dt与zd联合概率P(dt,zd|φt‑1,θt‑1,αt,βt)极大值的方法分别得到对应短时期话题参数αt,z与βt,z,v的更新规则,长时期话题参数αt,z,l与βt,z,v,l的更新规则,从而根据每个文档中的话题与特征词的分布,得到t时刻文本流中的话题分 布 与话题z中的特征 词分 布其中mt,z表示文本流中分配给话题z的文档数量,nt,z表示

时刻t分配给话题z的特征词数量。

4.依据权利要求1所述的方法,其特征在于,步骤5)利用聚类算法得到文档d与话题zd在t时刻的条件概率 提取话题zd使上式取最大值,将t时刻文档集合dt中的文档d聚类到话题z所属的簇c′z中,用户查询信息是特定的关键词,用 表示查询信息与文档间的关系,通过求解此公式得到与用户查询信息最匹配的文档,其中v代表文档中的一个特征词即用户查询信息。