1
文本自动标引与自动分类研究
1.2 序  言

序  言

随着因特网及其相关技术的不断普及深入,信息检索和文本挖掘成为人们获取知识的不可或缺的手段。但是面对异构的、动态的、海量的网络信息,如何快速找到用户感兴趣的信息并有效地加以利用是摆在我们面前亟待解决的重大问题。

近十年来信息检索技术得到了迅猛的发展,成为解决海量信息查找的有利工具。然而由于网络信息资源的更新速度和文本的非规范性,信息检索后的结果也往往数量巨大,“噪音”很多。所以需要快速有效的信息组织方式将这些信息分门别类加以分析处理,使用户能够更加有效地利用信息。文本的自动标引和自动分类是信息资源加工与组织中的关键技术。

《文本自动标引与自动分类研究》一书对文本挖掘的研究和应用给出了一个全新的视角。他们从情报检索的角度,以厚实的专业基础和丰富的领域经验,对于文本自动标引和自动分类技术进行了有益的探索和周密的实验,取得了丰硕的研究成果。

他们研究的特点是以数字图书馆、网络信息处理等为主要的应用背景,结合目前中文信息处理和文本处理的最新发展状况,在自动标引和自动分类方面有所继承,更有创新,主要研究特色在于:

一是自动标引技术的研究与应用,自动标引包括抽词标引与赋词标引两种类型。从信息组织的角度,自动标引相当于词汇级的摘要,而文本摘要则是句子级的摘要。而前者由于短小精悍、代表性强、使用效率高,成为信息检索、信息抽取、问答系统、主题识别和跟踪的有利工具。作者对自动标引中抽词词典构造、基于多特征选择及权值计算、标引源权重设置等问题进行了深入的研究,给出了高效的自动标引算法。

二是采用基于知识库的文本自动分类方法,以大规模的人工标引关键词词串与分类号对应记录为基础,生成关键词词串-分类号对应的分类知识库,并将其用于新文本的自动分类;对于文本分类难点问题——多层次分类问题,进行了深入的研究,给出了高效的层次分类算法。分类体系为《中国图书馆分类法》和行业分类表,分类体系庞大,总的分类类目数量多达到成千上万的规模。

很荣幸,能够先睹为快,拜读大作,掩卷之余,感受颇多。

目前在情报检索领域,专门讨论自动标引和自动分类的专著很少,这本书将情报检索技术和海量文本处理技术相结合,将自然语言处理和机器学习等引入情报检索领域,系统全面地介绍了文本自动标引和自动分类的研究工作,为情报检索的研究探索出有价值的研究方向,为文本挖掘的研究提供了很好的应用平台。

林鸿飞

2009年7月25日于大连理工大学创新园大厦