欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2015103258236
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种信息排序方法,其特征在于,所述方法包括:获取关联的多篇文章;

根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词;

分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度;

根据所述多篇文章的相关度对所述多篇文章进行排序;

其中,所述方法还包括:构建所述主题词集;

其中,所述构建所述主题词集的处理包括:获取多篇主题词样本文章;

分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;

分别计算所述不同粒度的分词的评分;

根据所述评分超过预定阈值的分词生成所述预设的主题词集。

2.根据权利要求1所述的方法,其特征在于,所述根据预设的主题词集,分别从所述多篇文章提取主题词的处理包括:对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词,并且根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:从客户端接收包括至少一个关键词的搜索词;

所述获取关联的多篇文章的处理包括:根据所述包括至少一个关键词的搜索词获取多篇文章。

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:将经过排序的所述多篇文章发送给所述客户端。

5.一种用于生成信息排序模型的方法,其特征在于,所述方法包括:获取已标注相关度属性的多篇训练样本文章;

根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词;

根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型;

其中,所述方法还包括:构建所述主题词集;

其中,所述构建所述主题词集的处理包括:获取多篇主题词样本文章;

分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;

分别计算所述不同粒度的分词的评分;

根据所述评分超过预定阈值的分词生成所述预设的主题词集。

6.根据权利要求5所述的方法,其特征在于,所述根据预设的主题词集,分别从所述多篇训练样本文章提取主题词的处理包括:对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词,并且根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。

7.一种用于文章排序的装置,其特征在于,所述装置包括:文章获取单元,用于获取关联的多篇文章;

主题词提取单元,用于根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词;

相关度获取单元,用于分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度;

文章排序单元,用于根据所述多篇文章的相关度对所述多篇文章进行排序;

其中,所述装置还包括:

主题词集构建单元,用于构建所述主题词集;

其中,所述主题词集构建单元包括:

主题词样本文章获取子单元,用于获取多篇主题词样本文章;

第二切分子单元,用于分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;

评分计算子单元,用于分别计算所述不同粒度的分词的评分;

主题词集生成子单元,用于根据所述评分超过预定阈值的分词生成所述预设的主题词集。

8.根据权利要求7所述的装置,其特征在于,所述主题词提取单元包括:切分子单元,用于对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;

主题词提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。

9.根据权利要求7所述的装置,其特征在于,所述装置还包括:搜索词接收单元,用于从客户端接收包括至少一个关键词的搜索词;

所述文章获取单元用于根据所述包括至少一个关键词的搜索词获取多篇文章。

10.根据权利要求9所述的装置,其特征在于,所述装置还包括:文章发送单元,用于将经过排序的所述多篇文章发送给所述客户端。

11.一种用于生成信息排序模型的装置,其特征在于,所述装置包括:训练样本文章获取单元,用于获取已标注相关度属性的多篇训练样本文章;

提取单元,用于根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词;

信息排序模型训练单元,用于根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型;

其中,所述装置还包括:

主题词集构建单元,用于构建所述主题词集;

其中,所述主题词集构建单元包括:

主题词样本文章获取子单元,用于获取多篇主题词样本文章;

第二切分子单元,用于分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;

评分计算子单元,用于分别计算所述不同粒度的分词的评分;

主题词集生成子单元,用于根据所述评分超过预定阈值的分词生成所述预设的主题词集。

12.根据权利要求11所述的装置,其特征在于,所述提取单元包括:第一切分子单元,用于对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;

提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。