人工智能导论

孔德川

目录

  • 1 第一章 绪论
    • 1.1 1.1人工智能的概念
    • 1.2 1.2人工智能发展简史
    • 1.3 1.3人工智能发展现状和趋势
    • 1.4 1.4课程定位及要求
  • 2 第二章 知识表示
    • 2.1 2.1知识表示概述
    • 2.2 2.2一阶谓词逻辑知识表示
    • 2.3 2.3产生式知识表示
    • 2.4 2.4框架知识表示
  • 3 第三章 自动推理与专家系统
    • 3.1 3.1引言
    • 3.2 3.2确定性推理
    • 3.3 3.3不确定性推理
    • 3.4 3.4专家系统简介
  • 4 第四章 知识图谱
    • 4.1 4.1知识图谱概念和历史
    • 4.2 4.2经典的知识图谱
    • 4.3 4.3知识图谱的应用
  • 5 第五章 搜索技术
    • 5.1 5.1引言
    • 5.2 5.2状态空间图模型
    • 5.3 5.3盲目搜索方法
    • 5.4 5.4启发式搜索方法
    • 5.5 5.5博弈搜索
  • 6 第六章 群智能算法
    • 6.1 6.1引言
    • 6.2 6.2遗传算法
    • 6.3 6.3蚁群算法
  • 7 第七章  机器学习
    • 7.1 7.1 引言
    • 7.2 7.2 监督学习
    • 7.3 7.3 无监督学习
    • 7.4 7.4 弱监督学习
    • 7.5 7.5 强化学习
  • 8 第八章  人工神经网络与深度学习
    • 8.1 8.1 引言
    • 8.2 8.2 感知器算法
    • 8.3 8.3 前馈神经网络与BP算法
    • 8.4 8.4 卷积神经网络
4.2经典的知识图谱

从“强语义”到“弱语义”
– 知识图谱的发展几经变革,大致可以划分为“强语义”和“弱语义”阶段。
– 在“强语义”阶段,研究重点是如何建立语义表示体系,知识库的构建往往依赖于人工编辑、合作开发的模式。

– 进入互联网时代后,知识图谱规模不断增大,开始向着更加实际的“弱语义”方法发展,不再强调语义,而是强调如何利用互联网知识自动构建大规模知识图谱。

1984,CYC 知识库
– 第一个例子,叫做 Cyc,是早期知识库项目的代表。也是目前持续时间最长的知识库项目。CYC 最早由 Douglas Lenat 在 1984 年创建,并延续至今。
– Cyc 最初的目标是要建设人类最大的常识知识库,它认为,常识可以通过“实体”和“断言”来描述。类似于“每棵树都是植物”、“植物最终都会死亡”。
– 这些知识以一阶谓词逻辑形式存储。
– Cyc 设想,当用户提出“树是否会死亡”的问题时,CYC 推理引擎可以通过自动推理得到正确的结论。

Cyc 介绍
– Cyc 项目的知识事实主要通过手工添加到知识库中,类似定理库。这使得 CYC 的推理效率很高,可以支持复杂推理。但缺点同样突出:构建成本太高,知识更新慢,推理死板适应性差。

1985,WordNet
– 我们介绍的第二个知识库是 WordNet,也是目前知名度最高的词典知识库,它最早于 1985 年,由普林斯顿大学的认知科学实验室主持构建,最开始的目的是针对多义词的词义消歧。
– Wordnet 认为,每个词(word)可能有多个不同的语义(sense)根据词去组织词典,则会忽略同义词信息。
– 同样,每个语义(sense)也可能对应多个词。如果按照 sense 组织词典,把语义近似相同的词打包放在一起,是否可以解决多义词问题?据此,WordNet 设计了同义词集合 (Synset),作为基本单位来组织词典。

1999,ConceptNet
– 我们要介绍的第三个知识库,是 ConceptNet,它最早源于 MIT 媒体实验室的 OpenMind commonsense 项目,该项目是由马文.明斯基(人工智能之父)1999 年创建的。
– ConceptNet 最初的目标是构建一个描述人类常识的大型语义 web。
在 1999 年,RDF 技术已经成熟,因此 Conceptnet 直接采用三元组的形式来构建,而不是谓词逻辑。
– 在构建方法上, ConceptNet 并不是完全由专家来制定结构、层级、语义体系,而是通过“众包”方式,结合一定的文本抽取,半自动半人工地构建。

– 在 conceptnet 中,所有的概念都来自于真实文本,概念之间的关系通过文本的统计数据确定。比如,在文本中多次出现 “化妆… … 漂亮”则可以推断“化妆”和“漂亮”之间存在导致关系。
– 这种从文本中发现的关系,并不是由专家事先制定好的。这就意味着,conceptnet 本身已经是一个“弱语义”的知识库,只强调词与词之间存在的关系,而不再强调知识库整体的语义完整性。

HowNet网址:https://openhownet.thunlp.org/

HowNet 的基本思想
• HowNet 最早的理念可以追溯到 1988 年,知网的作者董振东先生曾在他的几篇文章中提出:
– 自然语言处理系统需要知识库。
– 知识库应包含概念、概念的属性、以及概念之间、属性之间的关系
– 应首先建立常识性知识库,描述通用概念
– 应由知识工程师来设计知识库的框架,并建立知识库的原型。
• 知网就是在这些理念的指导下,历经多年开发得到的中文知识系统。

HowNet 的构建
• 知网作为一个知识系统,是一个网状结构。知网的建设方法的一个重要特点是自下而上的归纳的方法。
– 知网知识体系的最底层,是 800 多个“义元”,是“最基本的、不易于再分割的意义的最小单位”。义元由人工专家大量阅读文本,逐步精炼得到,是 HowNet 的精华。
– 有了义元,HowNet 进一步用义元来标注、解释事件和概念。然后加入概念、属性之间的关系,构成网络。

“知网”是中国第一个电子知识系统,在理论上和实践上均具有重大的发现和独创,“知网”在国内外产生了重要影响:1987 年获得解放军科技进步二等奖和国家科技进步二等奖,2011 年获得中国中文信息学会首届终身成就奖,2012 年获“钱伟长中文信息处理科学技术奖”一等奖。
        董振东教授是我国机器翻译事业的开创者,毕生从事机器翻译研究与开发工作,为我国中文信息处理事业做出了突出贡献,他倡导的创新精神影响了一大批中青年学者。

知识图谱规模化挑战
– 进入互联网时代后,尤其是搜索引擎成为人们获取信息的主要手段以后,工业界对知识库的规模提出了越来越高的要求。以往“小而美”的知识库,已经无法满足智能应用的需求。
– 另一方面,以搜索引擎为例,人们更多关注的是“是否具有并且找到某种知识”,而不是“是否可以理解、推理某种知识”。显然这种需求,使得知识库越来越倾向于“弱语义、大规模”。
– 因此,从 2010 年开始,许多学者开始尝试利用机器学习、信息抽取等技术,自动从互联网获取词汇知识。

自动获取 web 知识:知识源瓶颈
• 在这方面,典型的例子包括
– 华盛顿大学的 TextRunner(现改为 OpenIE,开放信息抽取系统)。
– 卡内基梅隆大学的 NELL(Never-Ending Language Learning)
• 这两个系统,都是完全根据算法,以互联网网页上的文本为知识源,试图自动分析、发现其中的概念以及概念之间的关系。
• 这样做的好处是很容易获得大量知识。缺点则在于开放互联网上的信息质量差别大,数量虽然庞大,但知识密度非常低,使得系统准确率和知识获取效率都比较低。

另一条路:Wikipedia
– 因此,可以说:自动构建知识库,前提是准备好知识密集、格式统一、大规模的知识源。
– 在 2010 年前后,随着在线百科网站的兴起,这种知识源逐渐成熟,其典型代表就是大名鼎鼎的维基百科, wikipedia。

在线百科全书 wikipedia
– 维基百科是世界上最著名的在线百科全书,它致力于向读者提供免费的百科全书知识。
– 在线百科全书的概念来自理查德·斯托曼(同时他也是开源软件的倡导者、精神领袖)
– Wikipedia 始于 2001 年 1 月 15 日,目前发展为全球性的项目
– 特点:众包、词条存储、累计有千万级别的百科词条。

从 FreeBase 到 Wikidata
– Freebase 是较早期的开放共享知识库。由硅谷创业公司 MetaWeb在 2005 年启动。其主要数据来源包括维基百科、世界名人数据库、开放音乐数据库,以及社区用户的贡献等。
– 早期的 FreeBase 以人工转化为主,即,由社区成员协作,将知识源中的知识提取,构建为 Freebase 格式的三元组。
– Freebase 是典型的“弱语义”知识库,它对知识库中的实体和关系不做严格的控制,完全由用户来创建、编辑。
– 2010 年,谷歌收购了 Freebase 作为其知识图谱数据来源,并于2012 年发布谷歌知识图谱。

DBpedia
– DBPedia 是早期的基于维基百科的语义网项目。DBPedia 的本意就是指数据库版本的 Wikipedia,旨在将 wikipedia 的知识系统化、规范化、结构化。
– 与 Freebase 不同,DBPedia 定义了一套较为严格的语义体系,其中包含人、地点、音乐、电影、组织机构、物种、疾病等类定义。
– 此外,DBPedia 还是我们上节课提到的 LOD 计划的核心,与Freebase,OpenCYC、Bio2RDF 等多个数据集建立了数据链接。
– DBPedia 采用 RDF 三元组模型,已经包括了 660 万实体,130 亿个三元组。

YAGO
– YAGO 是由德国马普研究所研制的知识图谱,主要集成了Wikipedia、WordNet 和 GeoNames 三个来源的数据。
– YAGO 的特点是将 WordNet 的词汇定义与 Wikipedia 的分类体系进行了知识融合,使得 YAGO 具有更加丰富的实体分类体系。
– YAGO 还考虑了时间和空间知识,为很多知识条目增加了时间和空间维度的属性描述。

哈工大:大词林
《大词林》(www.bigcilin.com)是由哈尔滨工业大学社会计算与信息检索究中心推出,由秦兵教授和刘铭副教授主持开发,是一个自动构建的大规模开放域中文知识库。
《大词林》是一个实体知识库。它完全自动构建,系统从 Web 搜索结果、在线百科和等多个信息源挖掘实体的类别、类别之间的层次化关系,构成词汇语义网。

小结
• 至此,我们介绍了目前典型的知识图谱。
• 现代知识图谱由于要满足规模化需求,大多降低了对逻辑表达能力的要求,以三元组作为知识表现形式。
• 这并不是说,我们现在不需要逻辑推理能力,而是经过近年来的发展,越来越多的证据显示,简单的大规模三元组,配合可计算模型,同样可以在若干智能任务上取得好的成绩。