语言理解
理解力是心智能力的重要方面。一般理解力包括时间理解力、空间理解力和因果理解力,强调对概念及其关系的把握。在人类的心智活动中,最能全面反映理解力表现的莫过于是对语言意义的理解。当然,要使机器具备语言理解能力并非是一件轻而易举的事情,这其中会涉及到几乎人类心智和文化的所有方面。本节我们专门讨论语言理解方面的基本内容,特别是有关汉语机器理解的研究工作和面临的困难。
尽管对语言意义的获取有着种种难以逾越的困难,但是人工智能研究者们还是在语言的机器理解方面开展了大量的研究工作,这样的研究,统称为自然语言理解。就汉语而言,目前的研究内容主要包括词语切分与标注、句法语篇分析、歧义消解等多个方面。为了突出意义理解这一核心问题,我们分别从意群分割、句法分析以及歧义消解三个方面来介绍自然语言处理主要问题及其处理方法。
多尺度意群分割
所谓意群,指的是我们的语言所表达的思想,都是通过一群相互关联一起的意义单元体现出来的,而这些意义单元根据其所处语言片段的角色,有大有小,因此意群分割也就有一个多尺度问题。
实际上,语言理解就是一个“依篇断句,析名分词”的过程。小到音节的切分,大到段落划分,无不贯彻着这样一个中心问题。因此不管是用耳朵听读,还是用眼睛看读,这一过程的核心问题都是要根据语言的运用规律,层层分解不同尺度大小的语言单元,简称语元,然后在这些不同尺度层次的语元及其相互关系中来理解整个语篇的思想内容。而这其中层层分解出不同尺度的语元,就是语言理解中的意群分割问题的任务。
着手的是语词分割问题时,那么由于再也没有标点符号和空格可资利用,这时同样也会存在多重性歧义分割问题。特别是,原则上不同尺度意群分割之间存在着非常相似的规律,因此这种歧义性分割问题也是具有普遍性的现象。
对于意群分割问题,这就意谓着只要能够解决语词切分问题,那么就能够打下语法分析的基础,而其它尺度上的意群分割,也就可以通过语词意群的语法组合和语境制约来实现。
下图便是反映这种要求的意群分割结果。这其中最关键的便是一个个语词的切分问题。

对于机器来说,如果我们已经建有一个完全的机器词典,其中收录了全部可用语词,那么最简单的机器语词切分方法就可以采用最大语词匹配策略来进行。这种方法通过依次读取语句中的汉字,并当汉字串积累到最长且构成为机器词典中可接受的语词,那么就将该汉字串作为一个语词对待,然后再从语句余剩的汉字流中如法去分割下一个语词,如此等等,直到语句结尾,就完成全部语词级的切分工作。对上面例子就是用最大语词匹配法来切分得到的结果。采用这种方法,对于比语词大的意群语元划分,则归于语法分析去完成。
例如对于“他的确切意图是什么?”按照最大匹配切分法结果为:
他|的确|切|意图|是|什么|?
而合理的应该是:
他|的|确切|意图|是|什么|?
尽管对于“他的确切菜了”能保证正确分为“他|的确|切|菜|了”。
而歧义性语词切分只有在一定的语境考察下才能够得到正确的切分,仅靠机械的最大匹配显然是不能彻底解决语词的切分问题的。当然,为了利用语境上下文制约的关系,我们可以通过对所有可能切分作最优选择的策略来进行语词的切分。
有时词语关联的确定还会依赖于更高层次意义的理解,也就是说只有在理解了整个语句之后才能够确定语词的分割。这样由于更高层意义的理解反过来无疑又是要依赖于分割好的语词的,于是就有一个语词分割与语句整体意义理解相互依存的问题。因此,如果在这基础上,再进一步考虑跨层次相互作用问题,那么意群分割看似一个小问题,实际却是动一牵百的大问题,甚至与整个语篇的理解密不可分。
于是,想要解决意群分割问题,我们就离不开意义的整合问题,而意义的整合问题,反过来又是以意群分割为基础的。在语言理解的机器实现研究中,为了避免这种无谓循环,往往采用在一种初步的意群分割之后,再考虑面向意义的句法分析。

