1.一种基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,包括步骤:
S1、知识获取:从现有的中文百科类知识库中获取结构化旅游知识;
S2、知识融合:先使用深度学习知识表示模型BERT计算实体之间的语义相似度完成实体对齐,再基于原则和统计方法进行属性融合,最后采用多数投票算法进行三元组融合;
S3、爬取旅游网站页面数据,通过属性匹配规则对实体Infobox属性进行知识补全;
S4、本体构建:采用斯坦福本体建模工具Protégé构建旅游领域本体;
S5、利用D2RQ结合旅游领域本体将数据转为RDF三元组格式得到旅游领域知识图谱;
S6、数据存储:将旅游领域知识图谱存储到Neo4j图数据库中;
S7、构建旅游知识服务平台。
2.根据权利要求1所述的基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,所述的步骤S1具体通过以下过程来完成:从现有中文百科类知识库的分类下获取实体结构化知识,所述的中文百科类知识库包括Zhishi.me、CN-DBpedia,其分类包括“旅游”、“观光”、“游玩”,实体结构化知识包括景点、景区、古迹、城市、人物、文物,结构化知识当中的三元组数据包括实体名称、实体简介、实体Infobox属性、实体图片;
最终定义旅游领域实体的属性包括中文名称、开放时间、外文名称、门票价格、地理位置、年代、文保级别、建议游玩时长、适宜游玩季节、所属城市、价值、姓名、出生时间、去世时间、民族、别称、成就、作品、年代、国籍以及籍贯。
3.根据权利要求1所述的基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,所述的步骤S2当中三部分的具体执行过程如下:
1)使用深度学习知识表示模型BERT计算实体之间的语义相似度完成实体对齐的步骤包括:首先,使用Google发布的BERT中文语言模型,通过在其fine-tuning微调阶段设置参数获取输出层的倒数第二层获得实体词向量;然后,根据获得的实体词向量计算不同实体之间的余弦距离,即语义相似度;最后,通过设置阈值,依据语义相似度达到实体对齐的目的;
2)基于原则和统计方法进行属性融合可以选用两种方法,一种方法为从现有中文百科知识库中获取旅游实体Infobox属性,通过使用Python语言编写规则以及统计不同知识库中的同一属性的不同名称表达,最终确定实体Infobox属性内容;另一种方法是将实体和属性看成三元组关系,归为关系抽取问题,通过支持向量机、文本挖掘算法进行属性融合;
3)采用多数投票算法进行三元组融合时,在实体对齐、属性融合后,对实体三元组中包含同一实体和属性的数据进行三元组融合,通过多数投票算法对每一个属性确定唯一属性值。
4.根据权利要求1所述的基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,所述的步骤S3通过以下过程完成:爬取旅游网站页面和百度百科、互动百科、中文维基百科数据,通过属性匹配规则对实体中属性知识缺失的部分进行知识补全。
5.根据权利要求1所述的基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,所述的步骤S4通过以下过程完成:对旅游领域数据中的实体、属性、关系进行归纳总结,确定旅游领域的相关概念和类目的层次结构,定义实体属性和取值范围,并且根据以上知识进行建模汇总出旅游图谱schema模型,采用自顶向下的本体构建方法结合斯坦福大学的本体构建方法,使用本体建模工具Protégé构建完成旅游领域本体。
6.根据权利要求1所述的基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,所述的步骤S5通过以下过程完成:根据W3C的RDB2RDF工作小组制定的R2RML标准,通过编辑和设置映射规则把数据库中的数据映射到自定义的旅游领域本体上,使用D2RQ工具,将关系型数据库中的旅游数据转换成RDF格式的数据,得到旅游领域知识图谱。
7.根据权利要求6所述的基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,利用D2RQ结合构建的旅游领域本体将数据转为RDF三元组格式,得到旅游领域知识图谱通过以下过程实现:首先,将获取到三元组形式的结构化旅游知识通过设计对应的数据库表结构存储到关系型数据库中;其次,使用D2RQ工具,运行命令生成默认的映射文件,根据定义的旅游本体修改映射文件完成把数据库表映射到构建完成的旅游领域本体相应的类上;最后,使用D2RQ工具,运行命令将数据转为RDF格式从而得到旅游领域知识图谱。
8.根据权利要求1所述的基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,所述的步骤S6通过以下过程完成:通过下载RDF导入Neo4j图数据库扩展jar包,修改Neo4j配置文件和创建命名空间前缀,使用命令行将RDF格式的旅游领域知识图谱导入到Neo4j图数据库,完成将旅游领域知识图谱存储到Neo4j图数据库中的过程。
9.根据权利要求1所述的基于知识图谱的中文旅游领域知识服务平台构建方法,其特征在于,步骤S7在旅游领域知识图谱存储完成基础上,后台使用Java编程语言和SpringMVC架构,前台使用JSP动态网页技术和D3.js数据驱动的可视化组件搭建旅游知识服务平台。