计算语言学

◆ ◆

个人介绍

计算语言学

主讲教师：

教师团队：共1位

冯志伟

学校：	国家语委语言文字应用研究所
开课院系：	国家语委语言文字应用研究所
专业大类：	计算机科学与技术
开课专业：	计算机系统结构

计算语言学（Computational Linguistics）指的是这样一门学科，它通过建立形式化的数学模型，来分析、处理自然语言，并在计算机上用程序来实现分析和处理的过程，从而达到以机器来模拟人的部分乃至全部语言能力的目的。本系列介绍了计算语言学的基本理论和自然语言。本系列介绍了计算语言学的相关知识，计算语言学是一个横跨语言学、数学和计算机科学的交叉学科。

教师团队

冯志伟

职称：教授

单位：语言文字应用研究所

部门：语言文字应用研究所

职位：研究员

与数理语言学共舞——冯志伟

跨学科奇才

冯志伟自幼聪慧沉静，18岁就以优异成绩考入北京大学地球化学专业。他在北大图书馆偶然看到了美国语言学家乔姆斯基(N. Chomsky)的论文《语言描写的三个模型》(Three models for the description of language)，被乔姆斯基在语言研究中的新思想深深地吸引，继而从理科转到中文系语言学专业从事语言学的学习。在中文系读书期间，冯志伟一面学好传统语言学的各门课程和外语，一面利用课余时间，继续研究数理语言学的问题，他充分地利用北京大学图书馆丰富藏书和最新的杂志，跟踪着国际上数理语言学发展的足迹，他成为了班上名列前茅的学生。1964年考上北京大学语言学理论的研究生后，经导师岑麒祥教授同意，他的研究生毕业论文的题目定为《数学方法在语言学中的应用》，在我国语言学研究中，首次系统地、全面地来研究数理语言学这个新兴学科。

这样，我国的数理语言学研究便首先在北京大学正式地开展起来。北京大学中文系的著名语言学家王力先生和朱德熙先生都支持冯志伟的数理语言学研究，王力先生曾对冯志伟说：“语言学不是很简单的学问，我们应该像赵元任先生那样，首先做一个数学家、物理学家、文学家、音乐家，然后再做一个合格的语言学家。”朱德熙先生曾对冯志伟说：“数学和语言学的研究都需要有逻辑抽象的能力，在这一方面，数学和语言学有共同性。”北京大学的这些第一流的学者，总是站在科学的最前沿来看待学术的发展，他们的鼓励给了冯志伟以巨大的力量。

梅花香自苦寒来

在多学科间游走是需要深厚的知识积淀的，知识积淀则来自于勤奋。冯志伟在上世纪六十年代初期就已经学会了4门外语，而且能够使用这4种外语阅读数理语言学的外文文献。他取得这样的学习成绩，不仅是天赋，更多的是因为勤力。为了学习英语，他就买一本中型的英汉词典来，一页一页地记忆和背诵，背完一页就撕去一页。几年来，冯志伟先后撕完了英汉、俄汉、法汉、德汉、日汉等多部词典，他就用这样的笨方法，学会了多门外语。

又比如，“文革”期间，冯志伟在朋友们的帮助下，用了将近10年的时间，对数百万字的现代汉语文本（占70%）和古代汉语文本（占30%）进行手工查频，从小到大地逐步扩大统计的规模，建立了6个不同容量的汉字频度表，最后根据这些不同的汉字频度表，逐步地扩大汉字的容量，终于计算出了汉字的熵。在当时的政治环境和技术环境下，能实现如此繁重的工作，难度可想而知。

冯志伟不仅自己的学习时候勤奋有加，对待教学也是一丝不苟。在特里尔大学文学院任教期间，冯志伟用德语给德国学生讲授《汉魏六朝散文选》、《唐诗宋词选》、《中国现代散文选》、《汉字的发展与结构》、《汉语拼音正词法》、《汉语词汇史》、《机器翻译的理论和方法》等课程。为了讲好课，他苦练德语口语，认真用德语备课，在上每一节课之前，他都要先用德语把讲课的内容自己对自己叙述一遍或多遍，直到能够熟练地背诵为止，他把“备课”当作了“背课”。由于冯志伟的备课特别认真，课堂教学效果很好，他的讲课受到德国学生们的一致好评。

计算语言学

计算语言学指的是这样一门学科，它通过建立形式化的数学模型，来分析、处理自然语言，并在计算机上用程序来实现分析和处理的过程，从而达到以机器来模拟人的部分乃至全部语言能力的目的。

计算语言学发展到今天，按其工作性质和复杂程度，可以归结为以下3个方面:①自动编排：这是计算机最擅长的工作，也是计算语言学中最成熟的部分。对各种语言素材进行统计、分类、排序，编辑各种词表、索引和词典，建立语料库、术语数据库等等，已经得到广泛运用。由于这些技术已经相当成熟，因而已有现成的软件包提供服务。②自动分析：这是一种较复杂的语言自动处理。这种自动分析系统是根据事先存入计算机内的特定语言信息进行工作,目的在于得到预先规定的结论,例如让计算机查词典或进行语法测试，均属此类。若结论有误，就证明词典或语法不够完备，需要对原先的数据或规则加以修订或补充。这类系统一般尚处于试验研究阶段。③自动研究:这是一种更复杂的语言自动处理。这种自动研究系统是根据计算机内存储的一般语言信息进行工作，借助统计、比较、类推等手段，得出自己推断的结论。人工智能研究中的某些自然语言理解系统正在朝这方面努力，但目前还没有比较成熟的研究成果。

成果

计算语言学可以说是计算机和语言学相结合的产物。这种结合已经得到丰硕的成果，除了上面说到的那些应用课题以外,还表现在对语言学理论和方法的影响上。语言的定义扩展了:语言已不仅是人类重要的交际工具,而且也是人机之间的交际工具。为了满足计算机加工的要求，计算语言学最大的特点就是要求语言的形式化，因为只有形式化,才能算法化、自动化。根据这项要求，制定出一系列面向语言信息处理的自动分析方法，其中包括预示分析法、从属分析法、中介成分体系、优选语义学、扩充转移网络、概念从属论等等。这些自动分析方法，已在机器翻译和自然语言理解的系统中得到应用，并证明有效。语言的形式化是分层进行的。语法的形式化相对来说比较简单，人们已做了不少工作；语义的形式化则是一个复杂的问题，人们进行的工作还不多。而语义形式化问题解决得好坏，将大大影响语言自动加工的成效。因此，继续发掘行之有效的形式结构分析方法和语义分析方法，研究它们之间的关系，以及探讨它们在不同系统中各自使用的限度，这是计算语言学中的重点研究课题。

应用

随着互联网的广泛普及，语言信息处理的社会需求越来越大，人们迫切需要用自动化的手段处理海量的语言信息。然而，由于学科理论发展的局限和汉语本身的复杂性，目前我国计算语言学理论和方法的研究还不能为开发汉语信息处理应用系统提供足够的支持。多年来国内计算语言学和自然语言处理学科发展的特点之一是，应用型研究和实用系统开发的目标比较明确，投入相对较多，也取得了一些成果；而基础理论和方法的研究则相对薄弱。1998年-2002年期间的研究情况和发展态势依然如此。在本文上述的各种应用目标中，研究力量比较集中的项目有：文本信息检索、文献自动分类、自动文摘、语音自动识别与合成、机器翻译，还有文本信息提取和过滤。另外，语言资源的建设和基于语料库的语言分析方法也受到了格外关注，取得了比较快的进展。

参考教材