1.一种用于智能问答系统中的标准问的扩展方法,所述智能问答系统包括标准问数据库,所述扩展方法包括:基于收集的日志集合从所述标准问数据库中确定预定数目的标准问作为热点问题;以及扩展所述热点问题以获取扩展问。
2.如权利要求1所述的扩展方法,其特征在于,所述确定预定数目的标准问作为热点问题包括:以所述标准问数据库中的标准问为基础对所述日志集合中的日志执行聚类分析,以使得各日志被聚集至所述标准问数据库中的相应标准问;以及将所述标准问数据库中的标准问按照所聚集日志量的多少从高到低进行排序,将排序最靠前的所述预定数目的标准问作为热点问题。
3.如权利要求2所述的扩展方法,其特征在于,所述数据库中排序最靠前的10%的标准问作为热点问题。
4.如权利要求1所述的扩展方法,其特征在于,所述扩展所述热点问题包括:从网络数据源采集数据;
以所采集数据为对象执行与每一热点问题的语义相似度计算以获得每一热点问题的相似问句集;以及对每个热点问题的相似问句集执行主语修改以获得每个热点问题的扩展问。
5.如权利要求4所述的扩展方法,其特征在于,所述从网络数据源采集数据包括:通过所述网络数据源进行搜索爬取以采集数据。
6.如权利要求5所述的扩展方法,其特征在于,还包括对通过所述网络数据源爬取到的所采集数据进行整理以过滤无用数据,所述语义相似度计算是以整理后的所采集数据为对象来执行的。
7.如权利要求4所述的扩展方法,其特征在于,所述网络数据源包括与所述热点问题的所属领域相关的第三方数据库。
8.如权利要求4所述的扩展方法,其特征在于,所述语义相似度计算是基于文本聚类分析、LDA分析、或序列分析中的任一者或任意组合来执行的。
9.如权利要求4所述的扩展方法,其特征在于,每一热点问题的相似问句集是与该热点问题的语义相似度超过预定阈值的问句的集合。
10.如权利要求4所述的扩展方法,其特征在于,对所述相似问句集执行主语修改是至少部分地基于人工选择来执行的。
11.一种用于智能问答系统中的标准问的扩展装置,所述智能问答系统包括标准问数据库,所述扩展装置包括:判断单元,用于基于收集的日志集合从所述标准问数据库中确定预定数目的标准问作为热点问题;以及扩展单元,用于扩展所述热点问题以获取扩展问。
12.如权利要求11所述的扩展装置,其特征在于,所述判断单元包括:聚类分析单元,用于以所述标准问数据库中的标准问为基础对所述日志集合中的日志执行聚类分析,以使得各日志被聚集至所述标准问数据库中的相应标准问;以及排序单元,用于将所述标准问数据库中的标准问按照所聚集日志量的多少从高到低进行排序,将排序最靠前的所述预定数目的标准问作为热点问题。
13.如权利要求12所述的扩展装置,其特征在于,所述数据库中排序最靠前的10%的标准问作为热点问题。
14.如权利要求11所述的扩展装置,其特征在于,所述扩展模块包括:数据采集单元,从网络数据源采集数据;
语义相似度计算单元,用于以所采集数据为对象执行与每一热点问题的语义相似度计算以获得每一热点问题的相似问句集;以及主语修改单元,用于对每个热点问题的相似问句集执行主语修改以获得每个热点问题的扩展问。
15.如权利要求14所述的扩展装置,其特征在于,所述数据采集单元包括:爬取单元,用于通过所述网络数据源进行搜索爬取以采集数据。
16.如权利要求15所述的扩展装置,其特征在于,还包括:整理单元,用于对通过所述网络数据源爬取到的所采集数据进行整理以过滤无用数据。
17.如权利要求14所述的扩展装置,其特征在于,所述网络数据源包括与所述热点问题的所属领域相关的第三方数据库。
18.如权利要求14所述的扩展装置,其特征在于,所述语义相似度计算单元是基于文本聚类分析、LDA分析、或序列分析中的任一者或任意组合来执行所述语义相似度计算的。
19.如权利要求14所述的扩展装置,其特征在于,每一热点问题的相似问句集是与该热点问题的语义相似度超过预定阈值的问句的集合。
20.如权利要求14所述的扩展装置,其特征在于,所述主语修改单元至少部分地基于人工选择对所述相似问句集执行主语修改。