1
文本自动标引与自动分类研究
1.5.1.4.1 6.4.1 知识库数据来源

6.4.1 知识库数据来源

制作分类知识库的原始数据主要来自于《中文社科报刊篇名数据库》(以下简称《社科库》)、《中文科技期刊数据库》(以下简称《中刊库》)和《中文图书检索系统》(以下简称MARC库)等光盘数据。利用程序或手工套录1 038 541条记录(其中包含题名、关键词、分类号三个字段)作为原始数据。

《社科库》由上海图书馆文达信息公司《全国报刊索引》编辑部负责研制和编辑,收录了社会科学期刊、报纸,基本上覆盖了全国邮发和非邮发的报刊,内容涉及社会科学及人文学科等。采用《中国图书馆分类法》(以下简称《中图法》)进行分类标引,参照《中国分类主题词表》(以下简称《中分表》)进行散标形式的主题标引。

《中刊库》由国家科委西南信息中心编制,收录期刊约6 000余种,数据量达100万条。《中刊库》已成为我国一个大型的综合性文献检索系统。使用《中图法》进行分类标引,采用散标形式的关键词进行主题标引。

MARC库由北京图书馆等单位制作,包括社会科学和自然科学,采用《中图法》和《中分表》标引。