1
文献信息检索与利用
1.16.1 第一节 数据库基础知识

第一节 数据库基础知识

1 数据库概述

数据库技术产生于20世纪60年代末70年代初,随着计算机的发展,为满足信息系统对数据管理的要求,在文件系统的基础上发展起了数据库系统。数据库技术主要研究如何存储、使用和管理数据,是计算机数据管理技术的最新阶段。30多年来,数据库在理论上、实现技术上均取得了很大的发展。现在,数据库技术已经成为计算机领域中最重要的技术之一,是软件学科的一个独立分支,数据库方法也进一步应用到情报检索、人工智能、专家系统、计算机辅助设计等方面,而其应用范围的扩大又进一步促进了数据库技术的深入发展。

2 数据库技术的研究领域

(1)数据库管理系统软件的研制

数据库管理系统是数据库系统的基础。数据库管理系统的研制包括研制数据库管理系统本身及以数据库管理系统为核心的一组相互联系的软件系统,包括工具软件和中间件。研制的目标是提高系统的可用性、可靠性、可伸缩性,提高性能和提高用户的生产率。数据库管理系统核心技术的研究和实现是三十余年来数据库领域所取得的主要成就。数据库管理系统是一个基础软件系统,它提供了对数据库中的数据进行存储、检索和管理的功能。

(2)数据库设计

数据库设计的主要任务是在数据库管理系统的支持下,按照应用的要求,为某一部门或组织设计一个结构合理、使用方便、效率较高的数据库及其应用系统。其中主要的研究方向是数据库设计方法学和设计工具,包括数据库设计方法、设计工具和设计理论的研究,数据模型和数据建模的研究,计算机辅助数据库设计方法及其软件系统的研究,数据库设计规范和标准的研究等。

(3)数据库理论

数据库理论的研究主要集中于关系的规范化理论、关系数据理论等。近年来,随着人工智能与数据库理论的结合、并行计算技术等的发展,数据库逻辑演绎和知识推理、数据库中的知识发现Knowledge Discovery From Database,简称KD、并行算法等成为新的理论研究方向。

计算机领域中其他新兴技术的发展对数据库技术产生了重大影响。数据库技术和其他计算机技术的互相结合、互相渗透,使数据库中新的技术内容层出不穷。数据库的许多概念、技术内容、应用领域,甚至某些原理都有了重大的发展和变化。建立和实现了一系列新型数据库系统,如分布式数据库系统、并行数据库系统、知识库系统、多媒体数据库系统等。它们共同构成了数据库系统大家族,使数据库技术不断地涌现新的研究方向。

本书介绍的数据库系统的基本概念、基本技术和基本知识是进一步进行上述三个领域研究和开发的基础。

3 数据与数据库

数据(Data)是数据库中存储的基本对象。数据在大多数人头脑中的第一个反应就是数字。其实数字只是最简单的一种数据,是数据的一种传统和狭义的理解。广义的理解,数据的种类很多,文字、图形、图像、声音、学生的档案记录、货物的运输情况等,这些都是数据。因此,可以对数据做如下定义:用来记录信息的可识别的符号,是信息的具体表现形式。描述事物的符号可以是数字,也可以是文字、图形、图像、声音、语言等,数据有多种表现形式,它们都可以经过数字化后存入计算机。

数据库(DB,Database),顾名思义,是存放数据的仓库。只不过这个仓库是在计算机存储设备上,而且数据是按一定的格式存放的。人们收集并抽取出一个应用所需要的大量数据之后,应将其保存起来以供进一步加工处理,进—步抽取有用信息。在科学技术飞速发展的今天,人们的视野越来越广,数据量急剧增加。过去人们把数据存放在文件柜里,现在人们借助计算机和数据库技术科学地保存和管理大量复杂的数据,以便能方便而充分地利用这些宝贵的信息资源。所谓数据库是长期储存在计算机内的、有组织的、可共享的数据集合。数据库中的数据按—定的数据模型组织、描述和储存,具有较小的冗余度、较高的数据独立性和易扩展性,并可为各种用户共享。

因此,数据库具有两个突出的特点:⑴集成性。把在特定的环境下与某应用程序相关的数据及其联系集中在一块并按照一定的结构形式进行存储,即集成性。⑵共享性。数据库中的数据能被多个应用程序的用户所使用,即共享性。

4 数据库系统

20世纪60年代后期以来,计算机用于管理的规模越来越大,应用越来越广泛,数据量急剧增长,同时多种应用、多种语言互相覆盖地共享数据集合的要求越来越强烈。这时硬件已有大容量磁盘,硬件价格下降;软件则价格上升,为编制和维护系统软件及应用程序所需的成本相对增加;在处理方式上,联机实时处理要求更多,并开始提出和考虑分布处理。在这种背景下,以文件系统作为数据管理手段已经不能满足应用的需求,于是为解决多用户、多应用共享数据的需求,使数据为尽可能多的应用服务,数据库技术便应运而生,出现了统一管理数据的专门软件系统——数据库管理系统。

4.1 数据库系统的组成

数据库系统是指引进数据库技术后的计算机系统。例如,一个以数据库为基础的管理信息系统。数据库系统由五部分组成:硬件系统、数据库集合、数据库管理系统以及相关软件、数据库管理员和用户,如图3—1所示。

img182

4.2 数据库系统的特点

①数据结构化。数据结构化是数据库与文件系统的根本区别。②数据的共享性高,冗余度低,易扩充。数据库系统从整体角度看待和描述数据,数据不再面向某个应用而是面向整个系统,因此数据可以被多个用户、多个应用共享使用。数据共享可以大大减少数据冗余,节约存储空间。数据共享还能够避免数据之间的不相容性与不一致性。所谓数据的不一致性是指同一数据不同拷贝的值不一样。采用人工管理或文件系统管理时,由于数据被重复存储,当不同的应用使用和修改不同的拷贝时就很容易造成数据的不一致。在数据库中数据共享,减少了由于数据冗余造成的不一致现象。由于数据面向整个系统,是有结构的数据,不仅可以被多个应用共享使用,而且容易增加新的应用,这就使得数据库系统弹性大,易于扩充,可以适应各种用户的要求。可以取整体数据的各种子集用于不同的应用系统,当应用需求改变或增加时,只要重新选取不同的子集或加上一部分数据便可以满足新的需求。③数据独立性高。数据独立性是数据库领域中一个常用术语,包括数据的物理独立性和数据的逻辑独立性。物理独立性是指用户的应用程序与存储在磁盘上的数据库中的数据是相互独立的。也就是说,数据在磁盘上的数据库中是怎样存储,数据库管理系统是如何管理的,用户程序不需要了解。应用程序要处理的只是数据的逻辑结构,这样当数据的物理存储改变了,应用程序不用改变。逻辑独立性是指用户的应用程序与数据库的逻辑结构是相互独立的,也就是说,数据的逻辑结构改变了,用户程序也可以不变。数据与程序的独立,把数据的定义从程序中分离出去,加上数据的存取又由数据库管理系统负责,从而简化了应用程序的编制,大大减少了应用程序的维护和修改。④数据由数据库管理系统统一管理和控制。数据库的共享是并发的(Concurrency)共享,即多个用户可以同时存取数据库中的数据甚至可以同时存取数据库中同一个数据。

5 数据库管理系统

了解了数据和数据库的概念,下一个问题就是如何科学地组织和存储数据,如何高效地获取和维护数据。完成这个任务的是—个系统软件——数据库管理系统(Database Management System,简称DBMS)。它是数据库系统的核心组成部分,是对数据进行管理的位于用户与操作系统之间的大型系统软件。其主要功能包括以下几个方面:

(1)数据定义功能。DBMS提供数据定义语言Data Definition Language,简称DDL,用户通过它可以方便地对数据库中的数据对象进行定义。

(2)数据操纵功能

DBMS还提供数据操纵语言Data Manipulation Language,简称DML,用户可以使用DML操纵数据实现对数据库的基本操作,如查询、插入、删除和修改等。

(3)数据库的运行管理

数据库在建立、运用和维护时由数据库管理系统统一管理、统—控制,以保证数据的安全性、完整性、多用户对数据的并发使用及发生故障后的系统恢复。

(4)数据库的建立和维护功能

它包括数据库创始数据的输入、转换功能,数据库的转储、恢复功能,数据库的重组织功能和性能监视、分析功能等。这些功能通常是由一些实用程序完成的。数据库管理系统是数据库系统的一个重要组成部分。

6 我国的数据库产业

数据库产业是按照一定的信息需求把信息加工为计算机可读介质并提供服务的信息服务行业,是信息产业的重要组成部分。数据库产业包括数据库、数据库产生者、数据库提供者三个部分。目前的数据库产业已发展成为—项国际性行业。早在20世纪60年代后期,世界上一些发达国家如美国等就开始出现了数据库产业。我国的数据库产业要比西欧晚10年,比美国晚20年。但由于我国政府的重视和支持,我国的数据库产业迅速崛起,已经发展成为重要的第三产业。

(1)我国数据库产业发展的现状

我国的数据库产业从引进到自建大体上经历了三个阶段:

第一个阶段是引进阶段。从1975年到1979年,主要是引进、学习、借鉴国外数据库的理论及其成果。如1975年北京文献服务处引进了美国政府研究报告GRA数据库并进行了试验性服务。又如1978年机械情报研究所引进了英国两种磁带库。

第二个阶段是起步阶段。从1979年到1992年,主要是我国中小型数据库建设阶段。如1979年建立的中国药学数据库、1980年化工部信息硬件司建立的中国化学化工文献库等。又如1986年4月由全国340所高校参编的《中国高等学校学报论文文摘(CUJA)磁带》。该文摘磁带共存储了10000多条记录。并在北京文献服务处计算机上建立了CUJA的两个数据库。1986年国家海洋局首次引进两种CD—ROM光盘。1987年北京图书馆引进ERIC光盘。1988年又建立了中国产品信息数据库。到1988年底,我国自建的中西文数据库共有260多个。从1979年到1992年底,在国家科委科技信息司登记注册的全国已建成的数据库共计806个,记录信息5000万条。同时从国外通过各种方式共引进50多种数据库磁带,70多种CD—ROM光盘,共有3000多万条记录。

第三个阶段是发展阶段。从1992年至今,是我国数据库产业形成和发展的重要历史时期。诸如1992年建成的中文科技期刊数据库、中国专利公报数据库;1993年生产的中国化学文献数据库、中国机电工业10万企业及产品商情数据库;1994年生产的各国生物医学文献数据库;1995年北京图书馆建立的中国国家书目数据库、中国企事业单位咨询数据库;1996年建成的中国人民大学书报资料中心文献资料全文数据库、中国百家报刊精选数据库,等等。特别是1993年2月18日我国第一家数据库专业公司—北京万方数据股份有限公司宣告成立,并于1993年8月在Internet上推出万方数据库系统,这标志着我国的数据库产业已开始市场化。据1996年11月出版的《中国数据库大全》统计,截至1995年11月,国务院64个部门和27个省、市、自治区共建数据库1038个。这些数据库多为中央及地方的信息机构、研究单位和图书馆所建,而且大部分集中在北京。仅北京市就占全国数据库总产量的40%,其次是上海、广东、江苏、浙江、湖南、湖北、山东、四川等。如1989年重庆维普资讯有限公司推出的VIP数据库系统、1993年上海市图书馆承建的《全国报刊索引数据库》系统、1995年正式立项建设的CNKI工程等,都是我国著名的大型数据库群。近几年我国数字图书馆的建设方兴未艾,如1997年开始建设的CALIS联合书目数据库、2000年1月正式开通的在线超星数字图书馆系统、2000年4月正式运营的中国数字图书馆书目数据库,2000年5月正式开通的书生之家数字图书馆、2002年12月开始建设的CNKI-DL数字图书馆等。

(2)我国数据库产业存在的问题

我国的数据库产业虽然发展很快,但也存在着如下一些问题:

①数据库规模小,上网数据库少

由于我国缺乏统一的管理机构,各部门、各地方过分强调地方性、学业性,因而造成我国目前多数数据库容量小,有的只有几千条记录,几十兆字节。我国目前数据库总容量约为世界数据库总容量的1%,而产值也只有世界数据库总产值的1‰,上网的数据库就更少,还不足Internet网上的1%。虽然20世纪90年代之后,我国数据库产业的发展进入了快车道,但与发达国家相比,仍然缺乏大型的数据库,特别是具有特色的数据库还不多。

②商品化程度低,缺乏市场意识

由于我国处于市场经济的初级阶段,许多企业缺乏竞争意识,更是缺乏信息意识,致使一些数据库仅供内部使用,就是投放市场的数据库,由于缺乏大企业的支持和使用,也难以维系。目前我国建成的数据库能够提供商品化服务的仅占10%,年产值不足1亿元人民币,多数数据库还没有商品化,信息资源共事性差,利用率低,甚至只建不用,成为死库。

③缺乏宏观调控,重复建库严重

我国目前还没有设立数据库规划和协调部门,缺乏宏观规划和总体布局,往往是各自为政、自立项目、自行上马,盲目建库,重复建设严重,浪费严重,特别是在图书馆界更为严重。另外,多家重复引进数据库,浪费了国家的大量外汇。如MEDLINE就有44家引进。这种低水平重复建设,浪费了人力物力,也延误了我国现代化建设的进程。

④书目数据库多,全文数据库少

全国几乎各级图书馆都在建书目数据库,而且都是自建自用,向社会开放得少,全文数据库特别是专题全文数据库更少,极大地影响了读者对图书馆的利用。目前我国数据库有1038个,其中书目数据库就有100多个,累计记录量在100多万条;其中一次信息占30%,二次信息就占70%。

⑤标准化程度低,兼容性差

我国数据库标准化工作还未跟上数据库建设的需要,就是已建成的数据库往往都有自己的规定,兼容性差,合乎标准的数据库少。有些数据库大同小异,如重庆维普公司的《中文科技期刊篇名数据库》与万方公司的《中文科技文献数据库》重复率很高。特别是管理软件和检索界面的不同,严重影响了资源共事。

⑥重视硬件建设,软件投入不足

有人统计,在过去的五年时间里,我国各部门共投入信息系统建设的费用达到200多亿元人民币,而投入到数据库建设的只有5~10亿元人民币,各种软件的研发经费不足。

⑦政府监管不力,只管建不管用

中国自从20世纪80年代信息化高潮以来,在政府行为的作用下,投入一大笔资金用于各级各部门的数据库建设,由于经费是上级下达,任务是上级布置,所以很多单位只是应付了事,经费用完,鉴定会开过,热闹一阵子;又由于缺乏后续资金,而且缺乏专人负责,数据库也就难以维护,由活库变成死库,便束之高阁了。特别是政府部门的数据库和一些国有企业的数据库,此现象更为严重。

⑧维护不及时,待建栏目多

有的数据库有其名无其实,维护更新不及时,有的半年甚至多年不变,新闻变成了旧闻,提供的信息失真,还有的数据库长期设置的待建栏目就是不去建,有些死链也不删除,浪费读者的时间。

(1)我国数据库产业发展的对策

①数据库经营的商业化、市场化

在初级阶段,国家投入支持数据库产业的快速发展是有必要的。但今后阶段,我国的数据库产业应走商业化的道路,这也是必由之路。如万方数据库股份有限公司、维普资讯公司等。当然,对于推向市场的数据库企业,政府在税收、监管等方面应给予“最惠”待遇,犹如当前对我国的软件产业政策一样,建立数据库生产基地,在税收方面给予优惠,注重培育市场、公平竞争、优胜劣汰。

②数据库产业的法律化、规范化

我国数据库的生产、经营、使用、安全及知识产权保护等方面还缺乏配套的法律法规,生产过程中也缺乏一定的技术规范。这是我国发展数据库产业亟待解决的问题。

③数据库生产的规划化、协调化

我国数据库产业目前出现的粗制滥造、重复浪费、无序竞争、价格居高等混乱现象,主要是由于缺乏政府监管,法规不健全,因此,建立国家级的数据库管理机构实属必要,这些机构可隶属于各级的信息产业部门。数据库管理部门的主要任务是对我国数据库产业发展做出规划、制定政策,对条块分割情况下数据库的建设进行协调,对数据库生产企业进行登记、统计、监督、指导等,打破部门所有、条块分割的局面,把数据库推向市场,发挥其应有的作用。

④数据库经费的正常化、制度化

凡是由各级各部门经营的数据库,其经费应该纳入政府事业经费,使其正常化、制度化,否则由各级政府建设或支持的数据库就会因一哄而起和因经费、人员等因素而昙花一现。如我国的“三上网”工程,有些是走过场、图形式,浪费了巨大的人力、财力。

⑤数据库企业的现代化、品牌化

作为我国的数据库企业,除了企业外部环境改善之外,加强企业内部的管理,使之现代化、数据库产品品牌化才是最关键的。目前有些数据库生产企业不是在提高产品质量、降低成本、技术创新、满足用户等方面下工夫,而是靠价格垄断制胜,结果造成价格偏向,销量较少,用户买不起,商家卖不掉,极大地影响了我国数据库市场的形成和发育。企业只有在数据压缩、检索噪声控制、智能搜索引擎等方面搞自主创新,从而争得更多用户群和市场份额才有出路。

⑥数据库标准的科学化、统一化

数据库建设是一项复杂而又经常性的工作,没有统一的科学标准是难以实现共享的考虑。从内容服务考虑,数据库建设标准可概括如下:

Ⅰ 收录信息的完备性标准。由于网络信息无限膨胀,任何数据库都不可能囊括无余,因此,作为数据库无论大小都应有恰当的定位,都应有一定的范围。在一定的范围内要尽可能地收录完备,特别是不能遗漏有价值的信息,但也不能包括垃圾信息和冗余信息。

Ⅱ 数据加工的彻底性标准。由于信息内容表达的复杂性、元数据置标(置标,又称置标语言,即计算机为处理元数据而设置的标记、标签等)的模糊性、文献出版的不规范性,都会导致元数据检索结果的不确定性,因此,严格按照机读目录格式进行深加工,全部采用全数字化工艺进行文本处理,是解决此问题的关键。那种采用扫描方式开发图像型数据库的方法是不可取的。

Ⅲ 数据库更新的及时性标准。从信息采集、数据库制作到网上服务,是需要一定周期的。但如果长达半年或一年才更新一次的数据库,会被用户视为呆库、死库。目前由出版单位将出版物的电子文档直接传至数据库制造商,则大大缩短了数据更新的周期。

Ⅳ 使用版权的合法性。与其他有形产品不同,数据库产品有知识产权,受到法律保护。如果数据库开发单位不依法解决版权授权使用问题,就有可能带来法律纠纷,因此,一定要解决好版权问题的内部控制制度和合作制度,严格管理。

Ⅴ 使用方法的便捷性。就是说,数据库的检索手段和检索方法要便捷、简单、快速;后台工作不论如何复杂,也要使前台工作更简化;尽可能不用复杂的标记符号和太多的组配方式。总之,既要减轻用户的操作负担,又要让用户快速查到数据库的信息。

⑦数据库产业的联合和合作

我国数据库产业要想实现跨越式发展,赶超欧美发达国家和地区,这就需要发挥社会制度的优势,搞强强联合攻关,联合建库,组建现代化的数据库产业集团,参与国际竞争、打入国际市场。国家和地区的数据库企业进行合作,吸收先进的科学技术,创造自己的国产品牌。中国已于2001年底正式加入WTO,这就意味着中国经济将以更快的速度融入世界经济。国外大批企业陆续进入中国市场,他们渴望了解到更多的中国信息;中国大批企业陆续走向世界,他们需要了解更多的外界信息,特别是竞争对手的信息。市场的需要就是商品发展的强大动力。数据库作为一种商品也是如此。

由政府推动的电子政务、电子商务和“三上网”工程,特别是由政府倡导的信息高速公路如中国的十大“金手工程”建设,都极大地改善了中国数据库产业的生长和发展环境。应该看到,我国政府对数据库产业的发展给予了高度的重视,扶植了一大批软件生产基地和数据库产业企业,并正在酝酿对国产数据库产业进行新一轮的政策优惠和经费支持。总之,中国的数据库产业还是大有希望的。