知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

提取文档中关键词的方法及装置

￥28000

专利号： 2015105123638

申请人：百度在线网络技术(北京)有限公司

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种提取文档中关键词的方法，其特征在于，包括：根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量，所述隐含主题向量模型为主题模型和词向量的融合模型；

计算所述词向量和主题向量之间的距离；

根据词向量与所述主题向量之间的距离，选取预设个数词向量对应的词作为所述文档的关键词。

2.根据权利要求1所述的方法，其特征在于，计算所述词向量和主题向量之间的距离，包括：根据所述文档的主题分布从至少一个主题中选取主题分布概率最大的主题作为最优主题；

计算所述词向量和所述最优主题对应的主题向量之间的距离。

3.根据权利要求1所述的方法，其特征在于，计算所述词向量和主题向量之间的距离，包括：根据所述文档的每个主题的主题分布概率对所述词向量和每个主题向量之间的距离进行加权求和；

将加权和作为所述词向量和主题向量之间的距离。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述距离为余弦距离。

5.根据权利要求1-3任一项所述的方法，其特征在于，根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量，包括：将所述文档加入训练资料库中，为所述训练资料库中的每个文档的每个主题和每个词分别构建初始主题向量和初始词向量；

根据所述初始主题向量和初始词向量建立所述训练资料库中所有文档的联合似然函数；

对所述联合似然函数进行参数估计得到所述主题向量和词向量。

6.根据权利要求5所述的方法，其特征在于，根据所述初始主题向量和初始词向量建立所述训练资料库中所有文档的联合似然函数，包括：通过计算公式得到所述初始词向量的生成概率；

根据所述计算公式得到所述训练资料库中所有文档的联合似然函数。

7.根据权利要求6所述的方法，其特征在于，根据所述计算公式得到联合似然函数之后，还包括：采用吉布斯算法对所述联合似然函数进行处理，可得每个文档中每个句子对应的主题的条件分布；

根据所述条件分布中每个主题的条件分布概率为每个文档的每个句子确定特定主题；

根据所述特定主题的条件分布概率对所述联合似然函数进行处理，得到对数似然函数；

对所述联合似然函数进行参数估计得到所述主题向量和词向量，包括：对所述对数似然函数进行参数估计得到所述主题向量和词向量。

8.根据权利要求7所述的方法，其特征在于，得到如公式四所述的对数似然函数之后，还包括：采用牛顿迭代法对所述对数似然函数中的参数进行优化处理；

和/或，

采用负采样算法对所述对数似然函数中的词向量、主题向量和辅助向量进行优化；

对所述对数似然函数进行参数估计得到所述主题向量和词向量，包括：对优化后的对数似然函数进行参数估计得到所述主题向量和词向量。

9.根据权利要求8所述的方法，其特征在于，采用负采样算法对词向量、主题向量和辅助向量进行优化，包括：采用负采样算法对所述训练资料库中所有文档中的词和主题进行处理，得到负采样似然函数；

采用随机梯度下降法对所述负采样似然函数进行处理，得到所述词向量的优化公式、主题向量的优化公式和辅助向量的优化公式。

10.根据权利要求6～9任一项所述的方法，其特征在于，还包括：对所述联合似然函数进行参数估计的过程中得到每个文档的主题分布。

11.一种提取文档中关键词的装置，其特征在于，包括：向量训练模块，用于根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量，所述隐含主题向量模型为主题模型和词向量的融合模型；

距离计算模块，用于计算所述词向量和主题向量之间的距离；

关键词提取模块，用于根据词向量与所述主题向量之间的距离，选取预设个数词向量对应的词作为所述文档的关键词。

12.根据权利要求11所述的装置，其特征在于，所述距离计算模块具体用于：根据所述文档的主题分布从至少一个主题中选取主题分布概率最大的主题作为最优主题；计算所述词向量和所述最优主题对应的主题向量之间的距离。

13.根据权利要求11所述的装置，其特征在于，所述距离计算模块具体用于：根据所述文档的每个主题的主题分布概率对所述词向量和每个主题向量之间的距离进行加权求和；将加权和作为所述词向量和主题向量之间的距离。

14.根据权利要求11-13任一项所述的装置，其特征在于，所述距离为余弦距离。

15.根据权利要求11-13任一项所述的装置，其特征在于，所述向量训练模块包括：向量构建单元，用于将所述文档加入训练资料库中，为所述训练资料库中的每个文档的每个主题和每个词分别构建初始主题向量和初始词向量；

联合似然函数建立单元，用于根据所述初始主题向量和初始词向量建立所述训练资料库中所有文档的联合似然函数；

参数估计单元，用于对所述联合似然函数进行参数估计得到所述主题向量和词向量。

16.根据权利要求15所述的装置，其特征在于，所述联合似然函数建立单元具体用于：通过计算公式得到所述初始词向量的生成概率；

根据所述计算公式得到所述训练资料库中所有文档的联合似然函数。

17.根据权利要求16所述的装置，其特征在于，所述向量训练模块还包括：联合似然函数处理单元，用于在所述联合似然函数建立单元根据所述计算公式一得到联合似然函数之后，采用吉布斯算法对所述联合似然函数进行处理，可得每个文档中每个句子对应的主题的条件分布；

根据所述条件分布中每个主题的条件分布概率为每个文档的每个句子确定特定主题；

根据所述特定主题的条件分布概率对所述联合似然函数进行处理，得到对数似然函数；

所述参数估计单元具体用于：

对所述对数似然函数进行参数估计得到所述主题向量和词向量。

18.根据权利要求17所述的装置，其特征在于，所述向量训练模块还包括：对数似然函数优化处理单元，用于在所述联合似然函数处理单元得到对数似然函数之后，采用牛顿迭代法对所述对数似然函数中的参数进行优化处理；

和/或，

采用负采样算法对所述对数似然函数中的词向量、主题向量和辅助向量进行优化；

所述参数估计单元具体用于：

对优化后的对数似然函数进行参数估计得到所述主题向量和词向量。

19.根据权利要求18所述的装置，其特征在于，所述对数似然函数优化处理单元具体用于：采用负采样算法对所述训练资料库中所有文档中的词和主题进行处理，得到负采样似然函数；

采用随机梯度下降法对所述负采样似然函数进行处理，得到所述词向量的优化公式、主题向量的优化公式和辅助向量的优化公式。

20.根据权利要求16～19任一项所述的装置，其特征在于，所述参数估计单元还用于：对所述联合似然函数进行参数估计的过程中得到每个文档的主题分布。

推荐专利

一种从文档集中快速提取有用数据的方法

发明专利

￥38400

文本数据的情感三元组提取方法、装置以及计算机设备

我要求购

我不想找了，帮我找吧

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

知嘟嘟

友情链接

关于我们

联系我们