一、文献检索的概念与原理
(一)文献检索的概念
文献检索是指将文献按一定方法存储起来,然后根据特定课题的需要,从中查出特定文献的过程。
文献检索包括存储与检索两个过程。
存储是检索的基础,检索是存储的目的。
(二)文献检索的原理
存储:收集大量无序信息,依据其特征加工处理,使之系统有序化,建成检索工具和检索系统;
这个过程一般由专业情报人员完成。
检索:使用检索工具和检索系统,依据其提供的检索方法,查找所需的特定信息。
二、计算机检索的类型
从世界上诞生计算机以后,文献检索便有了计算机检索。计算机检索经历了几个阶段:脱机检索(20世纪50年代)发展到联机检索(20世纪60年代末70年代),之后又有光盘检索(20世纪80年代),网络检索(20世纪90年代)。现在常用的是光盘检索和网络检索。
计算机检索是当今文献检索的主要方式,原来手工检索的工具也都有了对应的计算机检索的数据库,如《中目-医》有了CBM,《IM》有了medline和pubmed。计算机检索系统由硬件、软件、数据库组成,其核心是数据库。
三、数据库
(一)数据库的概念
是指一定专业范围内的信息记录及其索引的集合体,是计算机检索系统的核心部分,即信息资源。
(二)数据库的类型
1.按对信息收录的学科范围划分
(1)综合性数据库:收录内容范围广泛,涉及多个学科,如 CNKI、 万方。
(2)专业性数据库:收录内容限于某一学科或专业,如Pubmed、 CBM。
(3)专题性数据库:收录内容限于某一特定对象或专题,如中国药物专利数据库。
2.按收录信息内容的类型不同划分
(1)文献型数据库:指以各类型文献为内容的数据库,包括书目数据库和全文数据库。
书目数据库:存储二次文献信息,包括题录、文摘、目录数据库等,是信息检索最常用的数据库。为检索者提供文献出处,检索结果是文献的线索而非原文。
全文数据库:存储文献的全文,包括图书全文、期刊全文、学位论文全文等,是信息检索最受欢迎的数据库。
如:超星数字图书馆、CNKI、万方等。
(2)数值型数据库:存储有关科研数据、数值,包括各种统计数据、实验数据、临床检验数据等。如医学使用的化学制剂、药物的各种理化参数,人体生理上的各种数据等。
如:Pubmed 中的“Protein”、“Genome”等数据库即为数值数据库。
(3)事实型数据库:也称指南数据库,存储某种具体事实、知识数据的非文献信息源的一般参考性、指示性资料信息,每个条目都是对一个事实确切、完整的描述。包括人物、机构名录、大事记等参考资料。
如:美国医生数据咨询库 PDQ 是典型的事实数据库,提供肿瘤诊断、治疗、预后、临床研究等详细资料。
(4)图像数据库:指以图像、图面、图形等为信息主体数据集合。
如CNKI的工具书图谱数据库。
(5)多媒体数据库:存储数值、文字、表格、图形、图像、声音等多媒体信息。
如美国NLM的医学史数据库。
(三)数据库的结构
数据库由若干文档组成,文档由记录组成,记录由字段组成。
1.文档(file)
数据库中一部分记录的集合。
许多大型数据库往往包含有数以万计的记录,为便于检索,常按年代或学科专业划分为若干个文档。
2.记录(record)
数据库中文档的组成单元,是对某一篇文献或一则信息的全部相关属性进行描述的结果。
一条记录代表一篇文献的信息,每条记录描述了一篇文献的外部特征和内容特征。
3.字段(field)
比记录更小的单位,字段集合组成记录。每个字段描述文献的某一特征,即数据项。如篇名、作者、文摘等。
通常情况下,检索是从某一个角度(著者、主题词、篇名)开始的,即从相应的著者字段、主题词字段、篇名字段入手查找相关内容。因此每一个字段不仅是构成记录的基本单元,也是一个检索点或检索入口。
数据库的检索实际上就是通过对字段检索获得文献记录的。
四、检索途径与语言
(一)检索途径
途径就是路线,如:从学校去火车站有几条路可选?
检索文献也是一样,有检索的路径,通过哪条路线找到文献,即检索途径。
检索途径是检索系统提供的检索入口,在数据库中通常表现为对字段的检索。
常用的检索途径有主题词途径、关键词途径、篇名途径、著者途径、分类途径等。
1.主题词途径
对主题词字段进行检索来查找文献,其检索标识是主题词。
由于主题词是一种规范化的检索语言,主题词途径能够在一定程度上提高检索效率,因而往往是课题主题检索的优选途径。但并非所有的检索系统都提供主题途径,并且使用主题词有一定的难度,需要一定的检索语言知识作为基础,因此使用时是有限制的,不很方便。
CBM、Pubmed 数据库都有主题途径。
2.关键词途径
选取关键词字段作为检索入口来查找文献,其检索标识是关键词。
关键词不同于主题词,不需要经过规范化处理,是常用的检索途径。检索时需考虑相关内容的同义词、近义词等不同的表达形式,否则容易造成漏检。
3.分类途径
选取分类号或类名作为检索入口来查找文献,其检索标识是分类号或类名,便于族性检索。
分类途径可满足从学科或专业角度检索文献的需要。
4.题名途径
利用文献题名(篇名、书名、专利名)作为检索入口来查找文献。
题名往往能反映文献的主要内容,因此利用题名中的名词术语可以较为准确地查到所需文献。
5.著者途径
利用文献上署名的作者、编者、译者等作为检索入口来查找文献。
著者途径可以查到同一著者的多篇文献,适于全面了解某一著者或团体机构的学术观点、研究成果、科研动态等。
注意:检索系统中,著者姓名通常采用姓在前用全称,名在后用缩写的形式。特别是欧美国家的名字需要注意。
(二)检索语言
1.检索语言的概念
是信息检索系统存储与检索过程中共同使用的一种专用语言,是在文献检索领域中用来描述文献特征和表达信息检索提问的一种专用语言。
检索语言是标引与检索之间约定的一种人工语言;揭示文献特征(外部、内部);使文献由无序→有序;沟通标引者与检索者之间的桥梁。
2.检索语言的类型
(1)按照加工程度划分,检索语言可分为规范化语言和非规范化语言。
规范化语言:对文献检索用语的概念加以人工控制和规范,对同义词、多义词、近义词等进行规范化处理,用一个词来表达一个概念,如主题词。
举例:AIDS、爱滋病、艾滋病、获得性免疫缺陷综合征;这几个词中获得性免疫缺陷综合征是规范化语言。
非规范化语言:也叫自然语言,对于同一个概念可以有不同的自然语言表达形式,如关键词。
举例:AIDS、爱滋病、艾滋病、获得性免疫缺陷综合征;这几个词中AIDS、爱滋病、艾滋病是非规范化语言。
(2)按揭示文献特征划分,检索语言可分为描述文献信息外部特征的检索语言和描述文献信息内容特征的检索语言。
描述文献信息外部特征的检索语言:依文献的外部特征作为标引和检索途径的检索语言。如著者、刊名或书名、文献序号等。
描述文献信息外部特征的检索语言是非规范化检索语言。
描述文献信息内部特征的检索语言:内容特征指文献研究的主题、所属学科或专业等方面。
描述文献信息内部特征的检索语言分为分类检索语言、主题检索语言和代码语言。
①分类语言:使用分类方法将文献所涉及的学科内容区分、归纳形成类目体系,用分类号表达类目体系中每一个主题概念的检索语言。
其特点是揭示学科体系,按学科专业所属等级排列文献,通过分类体系(分类号)使同学科专业文献集中,提供从学科专业角度查找文献的途径。
常用分类法为《中图法》。
②主题语言:是一系列反映文献主题内容的概念标识。 包括关键词和主题词(叙词)。
关键词:指从文献题目、文摘或正文中抽取出来的具有实质意义,未经或略经规范化的能代表文献主题内容的词汇,是自然语言。
特点:直接来源于文献,不需做规范化处理,抽词简单,使用灵活,能准确检索到含有新出现概念的文献。
缺点:同一主题内容的文献可能因使用不同的关键词而被分散,从而造成漏检。如:异博定、异博停、维拉帕米,这是同一药物的不同名称,均可作为关键词,若仅选其一进行检索,就会漏掉使用其他形式表达的相关文献。
主题词:也称叙词,指能代表文献内容实质的从自然语言中精选并经过严格规范化处理的名词术语或词组。
如抗坏血酸、阿司匹林、肿瘤等。
主题词规范的依据是主题词表,有《汉语主题词表》、《中国中医药学主题词表》、美国《医学主题词表》(MeSH)等。
主题词的特点:唯一性,一个概念的多种表达形式只能用唯一一个主题词来表达,使内容相同或相近的文献更加集中,避免同义词的多次检索。
例如:
维生素C 、维他命C、 Vc、抗坏血酸,其中抗坏血酸为主题词。
阿司匹林和乙酰水杨酸,其中乙酰水杨酸为主题词。
癌症和肿瘤,肿瘤为主题词。
举例:
查找维生素C方面的文献。
首先确定,维生素C对应的规范化主题词为抗坏血酸,点开抗坏血酸,点击主题检索,即可得到文献。
有时我们不想查很笼统的文献,而是要查找更加专指的文献,例如:
查找维生素C服药剂量方面的文献。
同理到主题索引中查找“抗坏血酸“,这是需选择投药和剂量,组合后,点击主题检索得到文献检索结果。那么这个投药和剂量是什么呢,为什么这个题就要用到这个词呢?引出副主题词的概念。
副主题词是限定主题概念的一类规范化的词语,对主题词起细分作用,以及解释多个主题词之间关系。也叫限定词。
使用副主题词的目的是将一篇文献的主题限定在它所研究、讨论的一个或几个方面,从而缩小该主题的范围,增加主题概念的专指性,提高查准率。
如“投药和剂量、副作用、并发症、药理学、治疗应用、分泌、分析、毒性和血液“等都可以作为副主题词与主题词进行组配检索。
对副主题词的说明:
a.副主题词也是规范化的词语,两个词表
b.并不是所有的副主题词均能够和主题词相组配,截图举例
c.副主题词也有下位词,截图举例
d.副主题词也有注释,表明其用法,截图举例
③ 代码语言
利用代表事物的代码作为标识系统的检索语言。
例如:美国《化学文摘》的分子式索引

