1.一种基于专业词汇挖掘的专业领域FAQ智能问答方法,其特征在于,所述方法括以下步骤:(1)频繁词挖掘与归并:基于子串挖掘算法从专业领域文档集中挖掘出候选频繁词,并对同频候选频繁词进行归并,最终得到频繁词集;
(2)频繁词过滤与验证:采用词法规则对频繁词进行过滤,采用互联网知识对频繁词进行验证,最终得到专业词汇集;
(3)问题检索与答案返回:借助专业词汇集抽取实时问题关键词,在此基础上对历史问题进行全文检索和匹配度计算,最终返回匹配度最高的历史问题对应的答案。
2.如权利要求1所述的一种基于专业词汇挖掘的专业领域FAQ智能问答方法,其特征在于,所述步骤(1)中,给定专业领域文档集S,频繁词挖掘与归并的步骤如下:(1-1)初始化:扫描S,寻找所有出现频次大于等于指定阈值min_sup的字,并以其中每个字作为根节点构造一颗树,初始化n=2;
(1-2)候选频繁词挖掘:基于N-Gram模型扫描S,寻找所有出现频次大于等于min_sup的长度为n的候选频繁词,得到候选频繁词集CWS;
(1-3)候选频繁词索引:若 则对其中每个候选频繁词cw,基于深度优先搜索在所有树中寻找路径对应cw[0:n-1]的一条分支,将字cw[n-1]插入该分支,并设置插入边的权重为cw的出现频次,然后n=n+1,转向步骤(1-2);反之,则转向步骤(1-4);
(1-4)候选频繁词归并:对每颗树进行深度优先搜索,若当前边的权重小于上一条边的权重,则输出根节点到当前边父节点构成的路径所对应的候选频繁词作为频繁词;若当前边的子节点为叶子节点,则输出整条路径对应的候选频繁词作为频繁词。
3.如权利要求1或2所述的一种基于专业词汇挖掘的专业领域FAQ智能问答方法,其特征在于,所述步骤(2)中,设步骤(1)中最终得到的频繁词集为WS,频繁词过滤与验证的步骤如下:(2-1)词性规则过滤:首先,对专业领域文档集S中的每个句子进行词性标注,然后,对WS中每个频繁词w,若S中所有出现的w均不是名词性短语,则从WS中删除w;
(2-2)词频规则过滤:首先,构造一个非本专业领域的一般性文档集NS,然后,对WS中每个频繁词w,计算w在NS中的出现频次,若该出现频次大于指定阈值,则从WS中删除w;
(2-3)互联网知识验证:对WS中每个频繁词w,在互联网知识库上进行检索,若任一互联网知识库中包含w,则保留w为专业词汇。
4.如权利要求3所述的一种基于专业词汇挖掘的专业领域FAQ智能问答方法,其特征在于,所述步骤(3)中,设步骤(2)中最终得到的专业词汇集为TS,给定实时问题Q,问题检索与答案返回的步骤如下:(3-1)实时问题预处理:首先,将TS加入分词词库,然后,对Q进行分词和去停用词处理;
(3-2)专业关键词抽取:首先,基于TextRank算法计算Q中每个词的重要度权值,然后,若Q中包含的专业词汇数量大于等于指定关键词数量k,则保留重要度权值最高的k个专业词汇,构造专业关键词集KT(Q),转向步骤(3-4);反之,则保留所有专业词汇,构造专业关键词集KT(Q),转向步骤(3-3);
(3-3)普通关键词抽取:从Q中包含的KT(Q)之外的词中挑选重要度权值最高的k-|KT(Q)|个词汇,构造普通关键词集KW(Q);
(3-4)全文检索:Q的最终关键词集K(Q)=KT(Q)∪KW(Q),基于Lucene全文检索引擎从历史问题库中检索至少包含K(Q)中一个词的所有历史问题,形成候选问题列表CQ(Q);
(3-5)匹配度计算:对CQ(Q)中每个候选问题CQ,计算其包含KT(Q)中词的数量n(CQ)和包含KW(Q)中词的数量m(CQ),然后对n(CQ)和m(CQ)进行加权求和,计算Q和CQ的匹配度,最终,返回匹配度最高的候选问题对应的答案。
5.如权利要求4所述的一种基于专业词汇挖掘的专业领域FAQ智能问答方法,其特征在于,所述(3-5)中,Q和CQ的匹配度由下述公式计算得到:其中,α为专业关键词权重,β为普通关键词权重,β<α。