人工智能导论

孔德川

目录

  • 1 第一章 绪论
    • 1.1 1.1人工智能的概念
    • 1.2 1.2人工智能发展简史
    • 1.3 1.3人工智能发展现状和趋势
    • 1.4 1.4课程定位及要求
  • 2 第二章 知识表示
    • 2.1 2.1知识表示概述
    • 2.2 2.2一阶谓词逻辑知识表示
    • 2.3 2.3产生式知识表示
    • 2.4 2.4框架知识表示
  • 3 第三章 自动推理与专家系统
    • 3.1 3.1引言
    • 3.2 3.2确定性推理
    • 3.3 3.3不确定性推理
    • 3.4 3.4专家系统简介
  • 4 第四章 知识图谱
    • 4.1 4.1知识图谱概念和历史
    • 4.2 4.2经典的知识图谱
    • 4.3 4.3知识图谱的应用
  • 5 第五章 搜索技术
    • 5.1 5.1引言
    • 5.2 5.2状态空间图模型
    • 5.3 5.3盲目搜索方法
    • 5.4 5.4启发式搜索方法
    • 5.5 5.5博弈搜索
  • 6 第六章 群智能算法
    • 6.1 6.1引言
    • 6.2 6.2遗传算法
    • 6.3 6.3蚁群算法
  • 7 第七章  机器学习
    • 7.1 7.1 引言
    • 7.2 7.2 监督学习
    • 7.3 7.3 无监督学习
    • 7.4 7.4 弱监督学习
    • 7.5 7.5 强化学习
  • 8 第八章  人工神经网络与深度学习
    • 8.1 8.1 引言
    • 8.2 8.2 感知器算法
    • 8.3 8.3 前馈神经网络与BP算法
    • 8.4 8.4 卷积神经网络
4.3知识图谱的应用


知识图谱技术概况
– 在现阶段,知识图谱技术大致可以分为三类:
– 知识图谱的构建技术
– 知识图谱的推理技术

– 知识图谱的应用技术

知识图谱构建技术
– 首先第一个问题,知识图谱的构建。
– 我们知道,现代知识图谱通常以 RDF 三元组形式表示知识,如:ijing,capital_of, China)分别称为(头实体,关系,尾实体)
– 假设我们已经有了一个大规模的文本库,比如 wikipeida 的文本库。
那我们的任务,就是要依据该文本,自动挖掘三元组,建设知识图谱。这个过程涉及到三个问题:
– 实体识别问题:如何获取文本中实体?如何判断同义实体?
– 实体关系学习:如何获取两个实体之间的关系?
– 事件学习:如何获取特定事件中多个实体之间的关系?

知识图谱构建技术:实体识别
• 实体是文本中承载信息的语言单位,文本的语义可以表述为实体及这些实体相互之间的关联。
– 例如:“3 月 3 日下午,一架叙利亚空军苏 24 军机在哈马省被土耳其使用的肩携式防空导弹击落”
• 这段文本中,包含下面的实体:
– 时间实体“3 月 3 日下午”,
– 机构实体“叙利亚空军”、“土耳其”,
– 地点实体“哈马省”
– 武器实体“苏 24 军机”、“肩携式防空导弹”
• 给定文本,将其中的实体标注出来,就是实体识别。也是知识图谱构建的基础。

知识图谱构建技术:实体识别
• 实体识别通常要解决两个问题:
– 实体边界识别:判断实体的确切边界,如:“中华人民共和国”是一个完整的实体,如得到“人民共和国”则边界缺失。
– 实体类型识别:通常包括时间、数字、人名、地名、机构名等类型,目前中英文通用实体识别准确率能达到 90%以上。
• 实体识别的主要难点在于实体表达不规律、在特定领域中实体边界不易识别,如:
– 医药化学名词:1-甲基亚乙基二硫
– 歌名:周华健《有没有一首歌会让你想起我》

知识图谱构建技术:实体链接
–实体识别可以发现文本中的有效实体。
–然后要将这些实体与现有知识库中的实体做比对,这个技术叫做实体链接。如下面例子:
–在旧金山的发布会上,苹果为开发者推出新编程语言 Swift
–句子中出现实体 {“旧金山”,“苹果”,“Swift”}我们要进一步将这些实体于知识库中现有的实体做链接,这里就有大量多义情况出现,
如:
• 苹果,包括:{苹果(水果),苹果(公司),苹果(电影),苹果(银行)}
• Swift, 包括:{Swift(单词), Swift(品牌), Swift(程序语言)}
–我们要根据当前的上下文,判断苹果应该是“苹果(公司)”, swift应该是“Swift(程序语言)”

知识图谱构建技术:实体关系学习
• 在完成实体识别和实体链接之后,下一步就是寻找实体之间的关系。这个问题又分两种情况,
– 首先,如果已经有一个知识图谱,其中定义了比较完备的实体关系集合,那么任务就转化为,检测文本中的实体是否具有某种预定义的关系。
– 其次,就是我们手中没有明确的关系集合,或者不预先定义关系集合,完全由系统自动从文本中发现并抽取关系。
– 显然,后者难度更大一些。目前,限定关系集合的关系识别研究较多。

知识图谱构建技术:实体关系学习
• 关系学习有许多困难:
– 语言表达的多样性:语言表达语义的形式不唯一,简单的“located_in”关系可能有很多表示方式,如“通州位于北京东南”、“通州坐落于北京东南部”、“北京的东南方是通州”等等
– 语言表达的隐含性:实体的关系有时候在文本中找不到任何明确标识,例如:“库克与中国移动董事长奚国华会面,透露出他将带领苹果公司进一步开拓中国市场的讯号。”这段文本中,“库克”与“苹果公司”的关系没有直接给出,但可以通过推理得到,这就是隐含关系。也是关系学习中的难点。

知识图谱构建技术:事件学习
–实体关系学习往往局限在两个实体之间,往往只能抽取出“静态关系”。
–在很多情况下,文本描述的内容核心是“事件”,其中涉及到若干实体,它们仅在当前“事件”中存在关联。也就是多个实体在事件中的“动态关系”。
–比如,“火箭队与 76 人队昨晚展开了一场精彩的较量”其中,让“火箭队”和“76 人队”关联在一起的是“比赛事件”,而不是某个固定关系。
–近年来,这方面的研究受到关注,称为事件学习。事件学习研究如何从文本中抽取事件信息并以结构化的形式呈现出来,如,事件发生的时间、地点、参与角色以及与之相关的动作或者状态的改变。

知识图谱推理
• 知识图谱的推理,就是根据给定的知识图谱中的三元组,推导出新的三元组的过程。
• 为什么要做推理呢?
– 在知识图谱的构建过程中,大量实体之间存在关联,但没有被发现,需要通过推理算法来进行补全;
– 在应用过程中,原始知识图谱对知识描述的“深度”有限,对于复杂问题,如“南美洲最长河流流经的最大城市是哪个?”这样的问题,需要通过多次推理才能找到答案。
• 从方法上看,知识图谱推理分为两类:基于符号的推理、基于机器学习的推理方法,我们分别来讨论。

知识图谱推理:基于符号的方法
• 例:“is_a”关系推理规则:
IF(A,is_a, B) AND (B, is_a, C) THEN (A, is_a, C)
假设知识图谱中有:
(贝多芬,is_a, 音乐家)
(音乐家,is_a, 艺术家) 可以推理得到新的三元组:(贝多芬,is_a, 艺术家)

知识图谱推理:基于机器学习的推理
• 另外,近年来利用机器学习方法实现知识图谱推理,也成为研究热点。
• 典型的方法是基于深度学习的方法。这类方法的出发点,是将知识图谱中的实体与关系统一表示为“多维实数向量”,来刻画它们的语义特征。
• 然后通过向量之间的相似度计算,预测可能出现的新的三元组,从而实现推理。

知识图谱的应用
• 现代知识图谱最初提出的目的是增强搜索引擎的搜索结果,改善用户搜索体验。这就是“语义搜索”,是目前知识图谱最典型的应用方式。
• 除此之外,随着知识图谱推理技术的不断进步,知识图谱的应用范围也逐渐扩大到知识问答、大数据分析等领域。

知识图谱的应用:语义搜索
• 在信息搜索方面,传统的方法是基于关键词的搜索。这种方式往往无法理解用户的意图,而是直接根据关键词给出若干网页。用户需要自己再次甄选,获取信息。
• 知识图谱引入搜索引擎之后,利用其推理技术,可以发现用户检索词的深层含义,从而以更精确的方式给出搜索结果,我们在本章开头所列举的几个例子,就说明了这样的功能。

– 问答系统(Question Answering, QA)是指让计算机自动回答用户所提出的问题,是信息服务的一种高级形式。不同于现有的搜索引擎,问答系统返回用户的不再若干相关文档,而是精准的、单一的语言形式的答案。
– 2011 年,IBM Watson 在智力竞赛节目中战胜人类选手,引起了巨大轰动。在后续几年,各大 IT 巨头相继推出以问答系统为核心技术的产品和服务,如 Siri、微软小冰、百度小度等等。

• 近几年,随着知识图谱规模扩大和技术成熟,研究者逐步开始利用知识图谱回答问题,也就是我们要介绍的“知识问答”。
• 知识问答实现过程分为两步:
– 提问分析:将用户提问语言中的语义、意图提取出来,形成可供三元组推理使用的“查询”
– 答案推理:将该“查询”与知识图谱中的三元组进行检索、匹配或推理,获取正确答案

结尾
• 至此,我们介绍了知识图谱的三大类应用技术,分别讨论了它们各自要解决的问题。在本章开始时,我们讲过,知识图谱发展到目前的“弱语义”阶段,不是形式上的倒退,而是伴随着大量新技术、新问题的提出和解决。
• 目前,知识图谱成为人工智能研究的热点,以前研究中的许多瓶颈问题、难点问题,现在都可以通过引入知识图谱来增强、提高。因此,知识图谱逐渐成为人工智能领域的基础设施,成为“知识赋能”的重要环节。