知识图谱的提出和概念
– 知识图谱这一名词最早由 google 公司于 2012 年提出,名为“Knowledge Graph ”。应用于其搜索引擎,目的是增强信息检索能力,为用户提供更加智能的检索结果。
– 经过短短几年时间,知识图谱得到几乎所有搜索引擎企业的关注,并纷纷投入大力研究,形成了多种多样的技术和应用方案。
– 在现阶段,知识图谱并没有严格、绝对的学术概念,但从功能上看,目前的知识图谱具有类似的功能,它们都以结构化形式,描述客观世界中存在的概念、实体、以及实体之间关系。因此,知识图谱是这样一类知识表示和应用技术的总称。
知识图谱表现形式
– 在典型的知识图谱中,每个实体或概念用一个 ID 来标识,称为标识符。实体通过若干属性来刻画内在特性,实体之间通过多种关系来连接。所有实体相互关联,形成复杂的“图”。
1960s,符号主义知识表示
• 之前我们介绍过,在人工智能的第一次发展浪潮中:
– 采用符号主义表示知识
– 应用于专业领域的自动推理
• 典型的应用即专家系统,一般由事实库、规则库、推理机构成。
– 事实库中,以条目形式罗列事实性知识
– 规则库中,以条目形式罗列推理规则
1960,语义网络( Semantic Network )
– 在接近同时代,在 1960 年,认知科学家 Collins、Quillian 等人提出了语义网络(Semantic Network)的概念,目的是以网络的方式来描述概念之间的语义关系。在该设想中,语义网络将概念作为节点,边表示关系,可以用来描述语义关系。
1970s-1980s,描述逻辑
– 从 1970s 开始,许多学者开始研究语义理论的问题,代表性的工作是描述逻辑(description logic)
– 描述逻辑尝试将知识表示能力和推理计算能力结合,具有很强的表达能力,并且能保证推理能力。
– 早期的描述逻辑包括 Brachman 1980s 提出的 KL-ONE 语言,它可以刻画概念、属性、个体、关系等知识要素。
1990s Web1.0 时代
• 1990s 后,描述逻辑成为知识表示领域的重要分支。但它是一个纯理论工作,没
有数据和应用支撑。恰好此时,互联网进入应用阶段,web1.0 诞生。1989,Web 之父Tim Berners Lee 将超文本链接与因特网嫁接,使得用户可以通过超链接浏览互联网上的各类资源,发布自己的信息。
• Web1.0 诞生后,互联网上的网页数量迅速增加,网页之间相互关联形成网络,其中蕴含着大量知识。但这种知识的设计思想是面向人类阅读和理解的,无法被计算机理解和计算。比如我们很容易知道两个网页内容相关,但计算机很难理解网页的内容。
1998,语义 web 兴起和发展
• 在 1998 年, Tim Berners Lee 提出了“语义网(semantic web)”的概念,为了与语义网络区分,也常直接称为语义 web。
• 语义 web 旨在对互联网内容进行语义化表示,通过对网页进行语义描述,得到网页的语义信息,从而使计算机能够理解、推理互联网信息。
• 这是个庞大的构想,不是简单的标注 web 页面,而是需要新的知识表示手段。这样的背景下,语义 web 相继提出了“RDF 资源描述框架”和“OWL 网络本体语言”等新的框架。
1997,RDF
• RDF 是一种描述资源信息的框架,资源可以是任何东西,包括文档、人、物理对象和抽象概念。
一个 RDF 陈述描述两个资源之间的关系,主语(subject)和宾语(object)分别指两个资源,“predicate”表达了这个资源之间的关系。
因为每个 RDF 陈述包含三个元素,因此RDF 陈述也被称作 RDF 三元组(triples)。
2001,OWL
• RDF 本身是从实践出发的描述框架。
• 2001 年,W3C 组织开始将描述逻辑引入语义 web,尝试构建完美的知识表现语言,称之为 OWL,网络本体语言。
• OWL 以描述逻辑为理论基础,比 RDF,具有更强的表达能力和推理能力。比如,OWL 可以描述“中国所有湖泊”、“美国所有 4000 米以上的高山”这样的类。
• 但 OWL 复杂度非常高,在逻辑接近完美,但工程上实现却太过复杂。
语义 web 技术栈
• 从 2001 到 2006,随着 RDF 和 OWL 的提出,语义 web 技术突飞猛进,各种标准不断升级和复杂化,层次不断加深,形成了技术堆栈。
• 在这一时代,语义 web 仍然沿袭着符号主义的核心理念,尝试建立完美的符号体系
来囊括所有知识。
• 该阶段是从“弱语义”到“强语义” 的探索。
2006,linked data
• 到了 2006 年,Tim BernersLee 逐渐意识到语义 web 的发展遇到了瓶颈,体系结构日益复杂,而工程实现难度越来越大,成本越来越高,各家单位都各自为政开发语义网。
• Lee 提出“linked data”设想,号召各家单位分享自己的知识库,合并起来形成开放的语义网。目前,该设想最大的项目Linked Open Data,LOD 项目中已经包含了 1000 多个数据集。
在技术层面上,从 linked data 开始,语义 web 开始弱化“语义推理”的部分,而更强调“Web”部分。因此 linked data 可以看作是语义 web 的一个简化集合。
• 在实现层面,linked data 鼓励使用 RDF 三元组形式描述知识,而理论更完备的OWL 系列方法则很少使用。
• 从 linkded data 开始,语义 web 开始进入“弱语义”的阶段,也正是从此开始,语义 web 的体系结构开始向现如今的“知识图谱”过渡发展。
2012,谷歌知识图谱
• 2012,谷歌在收购语义 web 公司 Freebase 之后,进一步将其中基于RDF 的知识表示形式简化,升华为图数据,大大提升其应用性,称之为“知识图谱”。
• 至此,现代的知识图谱正式登上时代舞台。谷歌知识图谱进一步弱化了语义,仅保留了 RDF 三元组的基本形式,但这种简单的形式非常适合工程应用,以及知识的自动化生成。因此近年来展现出蓬勃的生命力。

