1
文本自动标引与自动分类研究
1.5.1.1 6.1 概述

6.1 概述

《中国图书馆分类法》(简称《中图法》)分类知识库主要用于文本的自动分类。

《中图法》知识库构建的主要理论依据为:分类检索语言、主题检索语言、自然语言,这是三种不同的情报语言系统,虽然标识和组织方式各不相同,但是本质上是一样的,都是一种主题概念标识系统,分类号、主题词、关键词三者之间存在隐含的概念对应关系,即兼容互换关系[1—2]。根据兼容互换关系,通过大量的标引数据,可以构建包含关键词串-分类号、主题词串-分类号等关联知识的分类知识库。

另一方面,构建《中图法》知识库具有一定的语料保障。国内大多数图书馆、情报机构和信息中心所拥有的文献数据库中存在着大量的人工标引记录,这些记录中包含分类标引和主题标引(主题词串或关键词串)双重数据。我们可以通过对这些标引数据的计算机处理,挖掘出分类号-主题词串-关键词串之间的概念对应关系,实现三者之间的兼容互换。在此基础上,构建一个自动标引和自动分类用知识库,实现中文文献的自然语言标引、主题规范、自动分类及概念检索[1]

《中图法》与其他的传统分类法一样,包括分类表(含附表)和类目索引两大部分。随着情报检索语言向分类主题一体化方向发展,《中图法》与《汉语主题词表》融为一体。1993年,《中图法》编委会在《中图法》与《汉语主题词表》对应的基础上编制出版了分类主题一体化词表——《中分表》,从而使《中图法》的体系日臻完善[1]

《中图法》体系在文献手工标引时代做出了卓越的贡献,但在应用于网络信息和自动化时却暴露出如下弊端[1]

①无论是分类表还是对应的主题词表或分类主题一体化的《中分表》都属于受控语言,自然语言入口少,用户使用不便。

②《中图法》及其系统产品的着眼点是便于图书情报人员的标引和检索,而不是着眼于网络时代的普通用户的直接使用,因而过于强调词汇控制,忽略了检索语言与自然语言的结合。

③人工编制,定期修订,更新慢,大量新词、新主题、新类不能及时收录。

④受印刷版的限制,分类表、词表的规模偏小,类目和词汇数量少,难以满足计算机自动处理的需要。

由于现有《中图法》体系存在着上述弊端,所以有必要引进新的计算机和网络技术对《中图法》进行技术改造,包括采用自然语言处理学的方法和计算机编表技术,揭示分类检索语言、主题检索语言、自然语言之间的兼容互换关系,增加自然语言接口,扩充词表规模和加快增补更新,从而适应网络时代信息组织的发展[1]

我们开发的知识库以《中图法》为主干体系,包含若干个词表和词典,其中分类号-关键词串对应表为主分类知识库,即知识库的主体;抽词词典、停用词表、同义词表、义类词典是主题标引知识库;地名表、时代表、文献类型表等为辅助分类知识库;另外还有采用《中图法》知识库标引和检索的文献数据库[1]

《中图法》知识库无论在内容、数量还是结构、功能上都优于《中图法》体系,更适合于文献信息标引的自动化和信息检索的智能化[1],具体体现在如下几个方面:

①《中图法》体系只揭示了分类号与主题词串的对应关系,而知识库则揭示了分类号与主题词串、分类号与关键词串、主题词与关键词之间的对应关系;后者词汇直接来源于文献,更新比前者快,便于用户检索。

②《中图法》体系只揭示了分类表中罗列出的类目和主题词串的对应关系;而知识库源于标引记录,包含了大量组合类目(仿分、复分时组配而成的类目),类目数明显多于《中图法》体系。

③在《中图法》体系中一个类号最多对应20个主题词(串),而《中图法》知识库中类目最多能对应几百个词串,平均一个类目对应10~14个词串,比《中分表》体系更能揭示类目的隐含概念;同时,词串数量大,便于自动分类中的相符性比较。

④《中图法》体系主要应用在手工标引和分类上,而知识库的规模大、容量大、更新快、可扩充性好,因而可以成功地应用于自动标引和自动分类。它不仅能保证较高的标引质量和分类正确性,而且在主题标引时不仅给出主题词,还给出关键词;另外,它的同义词表以及它的地名、时代、文献类型等多重标引,为信息检索提供了多个检索入口。

⑤传统的分类法和词表与书目信息都是分立的,而本知识库则与用其标引的文献相联通,即在某个类目体系下面直接就可以获取用该类号标引的文献信息,类似于网络环境下的目录型检索工具。