知识图谱入门(一)理念概览
知识图谱是Google用于增强其搜索引擎功能的知识库。-维基百科
A knowledge graph consists of a set of interconnected typed entities and their attributes.-《Exploiting Linked Data and Knowledge Graphs in Large Organisations》
定义
知识图谱是什么?简单来说,知识图谱是由一条条知识组成,每条知识便是“实体(Entity)-关系(Relationship)-实体(Entity)”构成的三元组。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。
知识图谱并非是一个全新的概念,1998年便提出了语义网(semantic web)的概念,接着得益于web的发展产生大量的数据,以及RDF (resource description framework)模式(RDF schema) 和万维网本体语言(Web ontology language,OWL) 的产生。掀起了一场语义网研究的热潮,知识图谱技术的出现正是基于以上相关研究,是对语义网标准与技术的一次扬弃与升华。
架构
逻辑架构
知识图谱在逻辑上可分为模式层与数据层两个层次
- 数据层:一系列事实组成,存储初始的数据。
例子:中国位于亚洲 - 模式层:构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达(本体库可以理解为面向对象里的“类”这样一个概念,本体库就储存着知识图谱的类)。存储经过提炼的知识,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。
例子:实体-关系-实体
体系架构
知识图谱主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。
- 自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如Freebase项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。
- 自底向上指的是从公开采集的数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。目前,大多数知识图谱都采用自底向上的方式进行构建。
关键技术和研究方向
通过上述两种构建方式构建知识图谱需要用到的关键技术
知识表示
在从数据中获取知识之前,应该知道知识如何表示出来,使得计算机易于理解。知识表示研究怎样用计算机符号来表示人脑中的知识,以及怎样通过符号之间的运算来模拟人脑的推理过程。
知识获取
大规模知识库的构建与应用需要多种智能信息处理技术的支持。通过知识抽取技术,可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。
知识融合
通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。
知识推理
知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。分布式的知识表示形成的综合向量对知识 库的构建、推理、融合以及应用均具有重要的意义。
应用
智能搜索
深度问答
社交网络
垂直行业应用
引用
[1] 徐增林, 盛泳潘, 贺丽荣,等. 知识图谱技术综述[J]. 电子科技大学学报, 2016, 45(4):589-606.
[2] Pan J Z, Vetere G, Gomez-Perez J M, et al. Exploiting Linked Data and Knowledge Graphs in Large Organisations[M]. Springer International Publishing, 2017.
[3] 知乎专栏. 为什么需要知识图谱?什么是知识图谱?——KG的前世今生. https://zhuanlan.zhihu.com/p/31726910
[4] 薇拉航线. 知识图谱中的关系推理,究竟是个什么玩意儿. 2017,03. https://www.zuozuovera.com/archives/491/#directory077175446956507751