1.一种提取文档中关键词的方法,其特征在于,包括:根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量,所述隐含主题向量模型为主题模型和词向量的融合模型;
计算所述词向量和主题向量之间的距离;
根据词向量与所述主题向量之间的距离,选取预设个数词向量对应的词作为所述文档的关键词。
2.根据权利要求1所述的方法,其特征在于,计算所述词向量和主题向量之间的距离,包括:根据所述文档的主题分布从至少一个主题中选取主题分布概率最大的主题作为最优主题;
计算所述词向量和所述最优主题对应的主题向量之间的距离。
3.根据权利要求1所述的方法,其特征在于,计算所述词向量和主题向量之间的距离,包括:根据所述文档的每个主题的主题分布概率对所述词向量和每个主题向量之间的距离进行加权求和;
将加权和作为所述词向量和主题向量之间的距离。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述距离为余弦距离。
5.根据权利要求1-3任一项所述的方法,其特征在于,根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量,包括:将所述文档加入训练资料库中,为所述训练资料库中的每个文档的每个主题和每个词分别构建初始主题向量和初始词向量;
根据所述初始主题向量和初始词向量建立所述训练资料库中所有文档的联合似然函数;
对所述联合似然函数进行参数估计得到所述主题向量和词向量。
6.根据权利要求5所述的方法,其特征在于,根据所述初始主题向量和初始词向量建立所述训练资料库中所有文档的联合似然函数,包括:通过计算公式得到所述初始词向量的生成概率;
根据所述计算公式得到所述训练资料库中所有文档的联合似然函数。
7.根据权利要求6所述的方法,其特征在于,根据所述计算公式得到联合似然函数之后,还包括:采用吉布斯算法对所述联合似然函数进行处理,可得每个文档中每个句子对应的主题的条件分布;
根据所述条件分布中每个主题的条件分布概率为每个文档的每个句子确定特定主题;
根据所述特定主题的条件分布概率对所述联合似然函数进行处理,得到对数似然函数;
对所述联合似然函数进行参数估计得到所述主题向量和词向量,包括:对所述对数似然函数进行参数估计得到所述主题向量和词向量。
8.根据权利要求7所述的方法,其特征在于,得到如公式四所述的对数似然函数之后,还包括:采用牛顿迭代法对所述对数似然函数中的参数进行优化处理;
和/或,
采用负采样算法对所述对数似然函数中的词向量、主题向量和辅助向量进行优化;
对所述对数似然函数进行参数估计得到所述主题向量和词向量,包括:对优化后的对数似然函数进行参数估计得到所述主题向量和词向量。
9.根据权利要求8所述的方法,其特征在于,采用负采样算法对词向量、主题向量和辅助向量进行优化,包括:采用负采样算法对所述训练资料库中所有文档中的词和主题进行处理,得到负采样似然函数;
采用随机梯度下降法对所述负采样似然函数进行处理,得到所述词向量的优化公式、主题向量的优化公式和辅助向量的优化公式。
10.根据权利要求6~9任一项所述的方法,其特征在于,还包括:对所述联合似然函数进行参数估计的过程中得到每个文档的主题分布。
11.一种提取文档中关键词的装置,其特征在于,包括:向量训练模块,用于根据隐含主题向量模型训练得到与文档信息相关的至少一个主题向量和至少一个词向量,所述隐含主题向量模型为主题模型和词向量的融合模型;
距离计算模块,用于计算所述词向量和主题向量之间的距离;
关键词提取模块,用于根据词向量与所述主题向量之间的距离,选取预设个数词向量对应的词作为所述文档的关键词。
12.根据权利要求11所述的装置,其特征在于,所述距离计算模块具体用于:根据所述文档的主题分布从至少一个主题中选取主题分布概率最大的主题作为最优主题;计算所述词向量和所述最优主题对应的主题向量之间的距离。
13.根据权利要求11所述的装置,其特征在于,所述距离计算模块具体用于:根据所述文档的每个主题的主题分布概率对所述词向量和每个主题向量之间的距离进行加权求和;将加权和作为所述词向量和主题向量之间的距离。
14.根据权利要求11-13任一项所述的装置,其特征在于,所述距离为余弦距离。
15.根据权利要求11-13任一项所述的装置,其特征在于,所述向量训练模块包括:向量构建单元,用于将所述文档加入训练资料库中,为所述训练资料库中的每个文档的每个主题和每个词分别构建初始主题向量和初始词向量;
联合似然函数建立单元,用于根据所述初始主题向量和初始词向量建立所述训练资料库中所有文档的联合似然函数;
参数估计单元,用于对所述联合似然函数进行参数估计得到所述主题向量和词向量。
16.根据权利要求15所述的装置,其特征在于,所述联合似然函数建立单元具体用于:通过计算公式得到所述初始词向量的生成概率;
根据所述计算公式得到所述训练资料库中所有文档的联合似然函数。
17.根据权利要求16所述的装置,其特征在于,所述向量训练模块还包括:联合似然函数处理单元,用于在所述联合似然函数建立单元根据所述计算公式一得到联合似然函数之后,采用吉布斯算法对所述联合似然函数进行处理,可得每个文档中每个句子对应的主题的条件分布;
根据所述条件分布中每个主题的条件分布概率为每个文档的每个句子确定特定主题;
根据所述特定主题的条件分布概率对所述联合似然函数进行处理,得到对数似然函数;
所述参数估计单元具体用于:
对所述对数似然函数进行参数估计得到所述主题向量和词向量。
18.根据权利要求17所述的装置,其特征在于,所述向量训练模块还包括:对数似然函数优化处理单元,用于在所述联合似然函数处理单元得到对数似然函数之后,采用牛顿迭代法对所述对数似然函数中的参数进行优化处理;
和/或,
采用负采样算法对所述对数似然函数中的词向量、主题向量和辅助向量进行优化;
所述参数估计单元具体用于:
对优化后的对数似然函数进行参数估计得到所述主题向量和词向量。
19.根据权利要求18所述的装置,其特征在于,所述对数似然函数优化处理单元具体用于:采用负采样算法对所述训练资料库中所有文档中的词和主题进行处理,得到负采样似然函数;
采用随机梯度下降法对所述负采样似然函数进行处理,得到所述词向量的优化公式、主题向量的优化公式和辅助向量的优化公式。
20.根据权利要求16~19任一项所述的装置,其特征在于,所述参数估计单元还用于:对所述联合似然函数进行参数估计的过程中得到每个文档的主题分布。