1.1 引文分析方法与应用

引文分析方法与应用


随着科学技术的发展与科学知识的积累,人们对科技文献的引文分析与研究也在不断地深入。自20世纪20年代Gross等首次开创引文分析方法以来,对科技文献中引文的分析得到了极为广泛的开发和应用。Garfield利用引文分析方法分析了各学科的文献分布规律及各学科的经典论文,使引文分析方法从整体的定量和定性水平,发展到了“细胞水平”甚至是“分子水平”。以后又有学者在引文分析的基础上应用数理统计学方法分析,绘出一些非常严谨的文献结构图。聚类分析、多元回归分析、双引分析等各种统计方法不断被引入到引文分析中,为进一步研究文献利用与分布提供了方法和依据。

一、引文分析的概念

引文分析是利用各种数学、统计学以及逻辑方法,对科技期刊、论文、著作等各种分析对象的引用或被引用现象进行分析研究,以便揭示其数量特征和内在规律,达到评价、预测科学发展趋势目标的一种文献计量研究方法[8]

在科学文献体系中,文献并不是孤立存在的,而是相互引用、相互联系的。可以看到,在一篇文献的末尾通常会附有参考文献,在文中也会出现脚注、尾注等,这篇文献和它的参考文献便形成了引用与被引用的关系,如:B文献被A文献引用,B文献称为A文献的“引文”或称“参考文献”(Citation);文献B的著者称为引文著者(Cited Author);文献A称为“来源文献”(Source Item),因它提供了引文;文献A的著者称为来源著者(Source Author);刊登文献A的出版物称为来源出版物(Source Publication)。来源文献与参考文献存在的这种简单逻辑关系,吸引了不少文献学家致力于引文分析理论和技术的研究,主要有格罗斯、布朗、普赖斯、尤金·加菲尔德等。普赖斯于1956年发表重要著作《科学论文的网络》,为引文分析奠定理论基础;尤金·加菲尔德于1953年受法律业务工具书《谢泼德引文》的启发,1955年提出编制引文索引的设想,然后进行了数年小规模试验,1960年创办了科学信息研究所(Institute for Scientific Information,ISI),1961年开始编制《科学引文索引》,1963年编成出版,成为文献检索和引文分析的重要工具,为文献计量学和科学的发展做出了重要贡献,为现代引文分析奠定了基础,使引文分析获得了强劲的生命力[9]。加菲尔德在引文分析研究方面的代表作为《引文索引法的理论和应用》,最初于1979年出版[10]

1.引文分析的基本假设

引文分析主要采用数学方法和逻辑方法进行研究,而这两种方法都需要基本假设,这些假设是引文分析有效性的前提。归纳起来,引文分析的基本假设主要有以下几点。

(1)文献被引用意味着文献被引用者利用。

(2)文献的被引用与该文的质量有某种正向(肯定)的联系。

(3)所引用的文献都是最适于作者所用的。

(4)被引文献在内容上与引用文献相关。

(5)所有被引文献在引文分析研究中具有同等的地位。

(6)这种引用与被引用的联系具有简单可加性。

(7)作者参考、借鉴的早期文献均被列入引文,即引文包括了作者参考、借鉴的全部文献。

2.引文分析的类型

1)引文数量分析

主要用于评价期刊和论文,研究文献情报流的规律等。

2)引文链状分析

科学论文间存在着一种“引用链”(Citation Link),如文献A被文献B引用,文献B被文献C引用,文献C又被文献D引用,等等,主要用于揭示学科的发展与联系,并展望未来前景。

3)引文网状分析

文献的引用不仅仅是简单的线性结构,往往在时间上先后相继,在学科专业中相互交叉,通常将这种文献群体及由其相互引用关系形成的结构称为引文网络(Citation Network)。从引文反映出的主题相关性入手,主要用于揭示学科的结构、相关程度和进行文献检索等。

3.引文分析的作用

1)测定学科的影响力和重要性

通过文献引用频率的分析研究可以测定某一学科的影响力大小和某一国家某些学科的重要性。

2)研究学科结构

通过引文聚类分析,特别是从引文间的网状关系进行研究,能够探明有关学科之间的亲缘关系和结构,划定某学科的作者集体;分析推测学科间的交叉、渗透和衍生趋势;还能对某一学科的产生背景、发展概貌、突破性成就、相互渗透和今后发展方向进行分析,从而揭示科学的动态结构和某些发展规律。

3)研究学科信息源分布

通过文献间的相互引证关系,分析某学科(或专业)文献的参考文献的来源和学科特性,不仅可以了解该学科与哪些学科有联系,而且还能探明其信息的来源及分布特征,从而为制定本学科的信息管理方案和发展规划提供依据。

4)确定核心期刊

引文分析方法是确定核心期刊的常用方法之一。这种方法的主要特点,是从文献被利用的角度来评价和选择期刊的,比较客观。加菲尔德通过引文分析,研究了文献的聚类规律。他将期刊按照期刊引用率的次序排列,发现每门学科的文献都包含有其他学科的核心文献。这样,所有学科的文献加在一起就可构成一个整体的、多学科的核心文献,而刊载这些核心文献的期刊不过1000种左右。利用期刊引文的这种集中性规律可以确定学科的核心期刊。

5)研究文献老化规律

目前,有关文献老化的研究一般是从文献被利用角度出发的。普赖斯曾利用引文分析探讨文献的老化规律。通过对“当年指标”和“期刊平均引用率”的分析,他认为期刊论文是由半衰期绝然不同的两大类文献构成的,即档案性文献和有现时作用的文献。科学文献之间引文关系的一种基本形式是引文的时间序列。对引文的年代分布曲线进行分析,可以测定各学科期刊的“半衰期”和“最大引文年限”,从而为制定文献的最佳收藏年限、对文献利用进行定量分析提供依据。同时,一个学科的引文年代分布曲线与其老化曲线极为相似,这有力地说明文献引文分布反映了文献老化的规律性。因此,从文献引用的角度研究文献老化规律是一种有效的途径和方法。

6)研究信息用户的需求特点

利用引文分析方法进行信息用户研究是一种重要途径。根据科学文献的引文可以研究用户的信息需求特点。一般来说,附在论文末尾的被引用文献是用户(作者)所需要和利用的最有代表性的文献。因此,引文的特点可基本反映出用户利用正式渠道获得信息的主要特点,尤其是某信息中心对其所服务的用户所发表的论文的引文分析,更具有直接的指导意义。通过对同一专业的用户所发表的论文的大量引文统计,可以获得与信息需求有关的许多指标,如引文数量、引文的文献类型、引文的语种分布、引文的时间分布、引文出处等。

7)评价人才

在人才评价方面,常采用引文分析方法。这是因为某著者的论文被别人引用的程度可以是衡量该论文学术价值和影响的一种测度,同时,也从科研成果被利用的角度反映了该著者在本学科领域内的影响和地位。因此,引文数据为人才评价提供了定量依据。从对历年诺贝尔奖金获得者的论文被引用情况的统计来看,物理学、化学、医学领域中诺贝尔奖金获得者中,其论文被引次数最高者(L.D.Landan)为1888次;最低的也有79次(J.H.D.Jensen);只有6名低于200次。可见,这些科学界的精英的论文的引用次数是很高的。

4.引文分析的测度指标

引文分析有很多测度指标,如期刊载文量、被引文量、高频被引论文占有率等,在具体研究中,应该根据不同的目的选择或者设置适合的指标。在这里,我们只介绍下面几种最常用的指标[11]

1)期刊被引频次

这是指在一定时期内,某种期刊被引用的绝对次数,即被引总次数。该指标可以客观地说明该期刊总体被使用和受重视的程度,以及在学术交流中的作用和地位。

2)引文率

指某时间段内,每篇论文平均占有的参考文献数。引文率是衡量研究对象吸收情报能力的一个指标。根据研究对象的不同可分为期刊引文率、著者引文率、学科引文率、机构引文率、国家引文率等。对期刊而言,引文率等于该刊中参考文献总数除以载文量,即每篇论文平均占有的参考文献数。

期刊引文率=该刊中参考文献总数/期刊载文量

3)期刊载文量

指某种(类)期刊在某段时间内的载文量。这是一个与时间长短和期刊种类有关的量。

4)被引文量

指对象含参考文献的数量。实际应用时,根据不同的研究需要,对被引文量还可以按照不同的学科、地区、部门、语种等加以细分。

5)被引次数

指被所有文献引用过的次数,使用时需冠以特定范围。

6)影响因子

一般情况下,普遍认为论文在其发表一两年后即可达到被引用的峰值阶段,因此,加菲尔德在20世纪70年代提出了影响因子(Impact Factor)这一评价期刊影响力的指标,其定义为:

某期刊第k年的影响因子

例如,在1998年曾引用某刊在1997年、1996年所发表论文的次数分别为140次和100次,又知该刊在1997年、1996年所发表的论文数分别为120篇和80篇,则1998年该刊的影响因子为:Impact Factor(1998)=(140+100)/(120+80)=1.2。

引入影响因子,可以消除由于载文量不同和质量不等的论文所造成的对期刊被引率的影响,抵消较大或较老的期刊在被引率上所占的优势。这样就能对不同期刊的引用次数和质量进行比较,以说明其利用效率和在科学上的重要性。

显然,影响因子的值越大,该刊在科学发展和文献交流过程中的作用就越大,也可以认为其质量就越高。作为引文分析的重要指标,得到了研究者们极大的关注,产生了各种变形和推广。比如,将影响因子的概念推广到某一学科领域,即得学科影响因子,可将其定义为某刊中论文被某一学科的核心期刊所引用的平均次数。

7)H指数

H指数(也叫h-index)是一个混合量化指标,其计算方法为一个人在其所有学术文章中有N篇论文分别被引用了至少N次,他的H指数就是N。如美国耶鲁大学免疫学家理查德·弗来沃(Richard Flavell)发表的900篇文章中,有107篇被引用了107次以上,他的H指数是107。

该指标最初是由美国加利福尼亚大学圣地亚哥分校的物理学家乔治·赫希(Jorge Hirsch)在2005年提出来的,其目的是量化科研人员作为独立个体的研究成果。H指数被认为是对先前众多衡量指标的一大改进;先前的衡量指标都倾向于关注科研人员在其发表论文的期刊,因而,它们都假定作者的贡献等同于期刊的平均值。如果一位科学家的出版成果以它们被引生命周期的数字进行排序的话,那么H指数就是一个最大值。

8)自引率

在引用文献的过程中,限于主体本身范围内的引用称之为“自引”,包括同一类学科文献的自引、同一期刊文献的自引、同一著者文献的自引、同一机构文献的自引、同一种文献的自引、同一时期文献的自引、同一地区文献的自引。自引率就是对主体本身范围内文献引用的次数与主体引用的文献总数的比值。

自引率=主体的自引次数/主体引用的文献总数

9)即年指标

主要描述期刊当年发表的论文在当年被引用的情况,用于测度期刊被引用速度的指标,也是衡量期刊载文质量的及时性和有用性一种判断依据。其计算公式为:

10)耦合强度

当两篇文章同时引用一篇或多篇相同的文献时,这种现象称为引文耦合(Bibliographic Coupling),这两篇文献就具有耦合关系。引文耦合的文献之间总存在着这样或那样的联系,其联系的程度(共同引用的文献数)称为耦合强度(Coupling Strength)。

11)共引文强度

当两篇(多篇)论文同时被别的论文引用时,则称这两篇论文具有“共引文”(Cocitation)关系,引用它们的论文的多少,称为共引文强度(Co-citation Strength)。

12)引证系数和被引证系数

这是度量科学文献间引用关系的指标,可以从引用和被引用的角度反映出科学文献相互引用的分类结构和关系。其计算公式为:

引证系数和被引证系数在具体应用的时候还可分为期刊引证系数和期刊被引证系数,学科引证系数和学科被引证系数,自引证系数和被引证系数等。

5.引文分析的主要类型

通过引文分析,可以研究文献结构和科学结构、文献的动态规律、用户行为特征和需求特点、科学发展史;评价科学发展水平,科学研究人才、机构和成果;测定某一学科的影响和某一国家某些学科的重要性;探索学科情报源分布、评价和选择期刊和文献;反映科学交流和情报传递规律;揭示文献老化和情报利用规律;指明科学家之间的交流情况;分析预测学科进展、动向与趋势等。在实施过程中主要有以下几种类型。

1)引文年代分析

一般来说,随着年度的由远而近,引文量呈增长趋势,即时间愈近,被引用的文献愈多;文献被利用的峰值是该文章发表以后的第二年。如果以引文年代为横轴,各年引文量为纵轴,在坐标图上描绘各年数据点,然后用一条线连接起来,便可得到一条引文年代分布曲线。

2)引文量分析

(1)引文量的理论分布:将一定量的论文的引文量数据进行分析比较,发现其变化规律表现为以平均数为中点,接近中点的频数最多,离平均数远的频数趋于减少,形成中间高两极低的正态分布。

(2)引文篇数分布:即每篇研究论文平均占有的引文篇数的分布。它不仅反映了论文作者引用文献的广度和深度,而且还能说明引文与被引文的学科内容之间的联系强度。

3)引文的集中与离散规律分析

引文分布的集中性与离散性是相对于一定的测度指标而言的。引文按来源期刊的分布,引文篇数的频数以平均数为中心的分布,引文按年度、语种、文献类型等的分布,都表现出这种集中与离散的趋势。

4)引文类型分析

科学研究中引用的文献很广,有期刊论文、图书和特种文献。对被引文献的类型进行分析,将有利于确定文献情报搜集的重点。

5)引文语种分析

引用文献是由不同语种的文献构成的。某一语种的文献被引用量愈大,则说明该语种比较常用和重要。考察和分析引文语种的分布,对于人们有计划地引进外文文献、译文选题、外语教育等,颇有参考价值。

6)引文国别分析

对引文的国别分析,特别是各国文献互引情况的统计分析,可以探明各国互引文献的状况,弄清国际文献交流的数量和流向。

7)引文耦合与共引文分析

引文耦合是20世纪60年代由开斯勒(M.M.Kessler)首次加以研究的。最初作为一种全新的检索工具,后来还被用来研究学科的内部结构、学科之间的关系,以及当前学科研究的热点,而且对文献的主题相似性、不同学科文献之间的交流等研究也有重要意义。

引文耦合是引用文献之间的联系,因此是一种固定不变的关系,其耦合强度永远是一个常数。为了能研究文献之间的动态联系,美国人斯莫(Henry Small)和苏联人马尔莎柯娃(I.V.Marshakova)于1973年分别引入了共引文的概念。大量的共引文和引文耦合分析表明,尽管学科专业可以千差万别,却都可以从这种引用关系中得到以下的结论:从统计意义上讲,对给定的文献群体,当共引文强度(或文献耦合强度)的值超过了一定的阈值时,必定会反映出文献的学科内容相似性以及它们在学术思想上的紧密联系。

8)文献的聚类分析(Cluster Analysis of Literature)

文献的聚类分析是指以耦合强度或共引强度等为基本的计量单位,对一定的引用文献集合或被引文献集合中,学科或专业内容上所存在的或疏或密的联系进行分类的定量研究方法。

通过聚类分析,可以将在内容上有密切关系的论文聚合为一个一个的文献簇,并且还能定量给出各文献簇之间的联系,从而勾勒出一幅幅疏密不均的学科或专业网络图或树状图。

6.引文分析的步骤

1)选取统计对象

根据所要研究的学科的具体情况,选择该学科中有代表性的较权威的杂志,确定若干期及若干篇相关论文作为统计的对象。

2)统计引文数据

在选取的若干篇论文中,分项统计每篇论文后面引文的数量,引文的出版年代、语种、类型,论文作者的自引量等。

3)进行引文分析

在获取的引文数据的基础上,根据研究的目的,从引文的各种指标或其他角度进行分析。

4)得出结论

根据引文分析原理和其他一般原则进行判断和预测,从而做出相应的分析结论。

二、引文分析法的应用

应用引文分析法研究科学产品可以将分散的文献和著者彼此之间联系起来。具体而言,应用最广泛的有以下几个领域。

1.在科技政策制定中的应用

科学研究一直是科学技术发展的原动力,对科学发展的未来进行预测,以期把握未来科技发展趋势及其对经济和社会发展的影响,从而确定重点研发领域,构建符合未来发展的国家创新体系是非常重要的。科学研究是以拟定和发表报道它的论文来表述的,而科学研究中分散的各个部分之间的关系则通过论文中的参考文献来表述。因此,每篇学术论文就是科学发展进程中某一特定事件的记录,通过对引文时间分布和引文网状关系的分析和研究,能揭示出某一科学领域或某一研究方向的产生背景、发展过程、标志性成果、突破性成就以及未来的发展趋势等。

人们可以利用引文分析,从科学文献的引文入手,利用被引频次来加以考察,从而对科研前沿的形势给出一个客观定量的反映与描述,根据引文分析的结果不仅能够揭示各国科技、人才政策和战略的现状,还能探索科学研究与科技政策、文化背景之间的关系;通过对某学科文献引用情况的分析研究,可以测定该学科的影响力和某国某些学科研究的重要性,从而为研究和制定科技政策提供参考。例如:20世纪70年代末,科瓦奇(Kovach)利用引文分析法测定了各国的生产率,并分析了各国科学活动的趋势。1988年匈牙利的T.Braun等人使用引文分析法对全世界51个国家的人均科学论文发表数目和被引情况、人均国民生产总值、人均能耗量、万人电话拥有量等指标进行了研究,并以此为基础,探求了每个国家后三项经济指标与第一项科学计量指标之间的联系,获得了很多有价值的启示。

2.在科学结构和科技发展史研究中的应用

科学引文与被引文之间有着一定的内在联系,通常在科学内容上是相关的。参考文献可以反映出学科的特征和背景,通过文献之间的相互引证关系,分析某一个或若干个学科(或专业)文献的参考文献来源和学科特性,不仅可以了解该学科与哪些学科有联系,而且还能探明其情报的来源及分布特征,从而得到相关科学结构的描述并为制定本学科的发展规划提供依据。科学作为一种系统具有明显的层次性和动态性,利用引文分析法对科学系统进行“共时性”(Synchrony)和“历时性”(Diachrony)分析能够研究科学发展的层次结构性和动态性,探究其发展的趋势。通过共引聚类分析和多维标度分析相结合的方法,绘制“科学图”,能够研究学科专业子结构之间的“超微观结构”关系。科研人员进行科学研究时,既要参考最新的文献,又须查阅前人的文献。因此,通过对引证关系的定量分析,可以揭示出科学研究发展的足迹和脉络,发现科学理论和方法的历史演变过程。通过文献“耦合”与共引的分析,可以揭示科学的这种整体化发展趋势,探讨科学发展的规律。

3.在科学评价中的应用

评价国家、地区、机构和个人的科学水平和情报能力的途径是多方面的,引文分析可以通过评价对象的引用与被引用文献的能力来进行这种评价。引文分析法作为科学评价中的定量方法,在国内外都颇受重视,被各国政府机构和科研管理部门广泛应用于科学成果的评价。

在科研评价工作相对成熟的发达国家,由政府组织的评价工作绝大多数都是以科研管理部门和科学研究机构为主体,对国家的整体科研实力、宏观科技政策、大型研究计划等进行评价,以改善投资水平,优化有限的科研资源配置,提高工作效率。以SCI数据为基础的引文分析作为一种实用的定量指标和评价手段,在评价中发挥了重要作用。

例如,20世纪80年代,英国苏塞克斯大学科学政策所开展了一系列评价研究,以SCI为基础建立了自己的应用于科学评价的数据库。澳大利亚工业与科学技术部的工业经济局,曾于1995年对该国的科技体制和科学研究水平进行了评价。对其科研活动的绩效评价主要根据1981~1994年SCI数据库中的指标,通过对科学论文与引文进行国际比较以及对合作论文的考察,分析该国若干学科领域中的优势与劣势以及国际合作状况(包括不同地域、在不同研究领域的合作),进而对国家基础研究的整体水平进行评估。此外,这项工作还研究了澳大利亚在一些主要学科领域基础研究的实力在时间序列上的变化趋势,并分析造成这一变化的可能原因。比利时林堡大学用SCI数据评估科学学科,用SSCI评估社会科学学科,将结果与世界平均水平进行比较分析,交给科研人员进行讨论,将科学计量学的分析结果与科研人员自身所在学院和研究组的印象进行相互验证。韩国在1999年制定“21世纪脑业韩国计划”。该计划为期7年,拟花费11.7亿美元,目标是从1999年至2005年,理科博士培养人数从2500名增加到4500名,SCI论文数从1万篇增加到2万篇,位次从世界17位提升到第10位。

20世纪80年代开始,我国开始注意并重视研究论文要投到SCI收录的杂志。同时,EI、ISTP、SSCI等一批索引数据库已经在众多科学领域被广为接受,并且在各领域的科学评价中占主导地位。自80年代中期起,掀起了利用SCI评价的热潮。

在人才评价方面,常采用引文分析方法。这是因为某著者的论文被别人引用的程度可以是衡量该论文学术价值和影响的一种测度;同时,也从科研成果被利用的角度反映了该著者在本学科领域内的影响和地位。因此,引文数据为人才评价提供了定量依据。

4.在期刊评价与核心期刊确定中的应用

某学科核心期刊是指刊载该学科学术论文较多的、论文被引用较多的、受读者重视的、能反映该学科当前研究状态的、最为活跃的那些期刊。使用引文分析法来确定核心期刊,是从文献被利用的角度来评价和选择期刊,比较客观,因为期刊的被引用要受到许多因素的影响。将引文分析作为期刊价值的客观测量指标是由Gross在1927年首先提出的。1977年,ISI对所有科学技术领域期刊的引用模式做了系统研究。目前国际上最常用的期刊评价指标是影响因子,加菲尔德使用引文分析法研究了文献的聚类规律,他将期刊按照被引用率的次序排列,发现每门学科的文献都包含有其他学科的核心文献。这样,所有学科的核心文献加在一起就可构成一个科学整体的、多学科的核心文献,而刊载这些核心文献的期刊只有1000种左右。

由于统计源的学科结构差别,以及各个学科自身发展的特点和特有引文行为的不同,如科学家研究行为的社会性、学科间交叉渗透的程度、学科发展所处的阶段等,引用率在各个学科之间具有较大的差异性,由此产生了不同学科论文之间影响因子的不可比性。即使在一份影响因子高的期刊上发表的文章,其被引用次数事实上并不一定比一个影响因子较低的期刊的论文平均引用频率高。因而,影响因子在实践中作为期刊评价的测度指标是可行的,但如果用来评价科学家个人的成果就不甚合理。

5.在学科结构研究中的应用

通过引文聚类分析,特别是从引文间的网状关系进行研究,能够探明有关学科之间的亲缘关系和结构,划定某学科的作者集体;分析推测学科间的交叉、渗透和衍生趋势;还能对某一学科的产生背景、发展概貌、突破性成就、相互渗透和今后发展方向进行分析,从而揭示科学的动态结构和某些发展规律。

6.在文献老化和情报利用规律研究中的应用

目前,文献老化的研究一般都是从文献被利用的角度出发的。利用科学文献的“引文链”和“引文网络”研究情报流的方向、过程、特点和规律,从而分析科学发展的历史和规律。普赖斯曾利用引文分析探讨文献的老化规律。通过对“当年被引指数”和“期刊平均引用率”分析,他认为期刊论文由半衰期绝然不同的两大类文献构成,即档案性文献和有现时作用的文献。科学文献之间引文关系的一种基本形式是引文的时间序列。对引文的年代分布曲线进行分析,可以测定各学科期刊的“半衰期”和“最大引文年限”,从而为制定文献的最佳收藏年限等管理方案及对文献利用进行定量分析等提供依据。研究表明,一个学科的引文年代分布曲线与其老化曲线极为相似。这有力地说明了文献引用分布反映了文献老化的规律性。因此,从文献引用的角度来研究文献老化和情报利用规律是一种有效的途径和方法。

7.在图书馆期刊馆藏资源建设中的应用

引文分析可以帮助图书馆发展核心馆藏,将期刊被引用的排名作为图书馆订购期刊的参考。

1)引用文献类型分布与馆藏文献评价

科技信息一般来源于期刊、图书、会议资料等。研究引用文献类型的分布,可帮助人们确定各类型文献的情报价值。据不完全统计,引用期刊的量最大。文献情报部门要研究探讨文献搜集的整体性、系统性,要注重各类型文献搜集的比例,充分开发利用各类型文献资源,发挥文献情报的整体优势。

2)引文时间分布与馆藏文献评价

对参考文献的年代进行研究分析,可以帮助用户了解学科的发展动态,文献利用的最佳期。文献情报部门据此可以掌握文献的半衰期,研究探讨馆藏文献的最佳年龄结构,从而保持文献的最佳动态馆藏。而且,掌握引文的时间分布有助于了解和利用期刊的时间效应,为情报人员和科技人员提供宝贵有效的情报动态,也便于对图书情报的科学管理和优化馆藏。

3)引文语种分布与馆藏文献评价

对引文语种的分析,可了解文献作者除中文外,控制和吸收外文文献的能力,大量引用国外文献是目前科技人员进行研究的特点之一。积极引用外文文献,说明文献作者吸收国外先进科技研究成果和国外文献情报的能力比较强。统计和分析科研论文所引文献的语种分布,可以帮助人们了解科研人员的外语水平,从而确定最佳语种比例的藏书体系。

8.在专利分析研究中的应用

专利引文分析是以引文分析为基础的专利研究,它是按照科学论文引文联系的方式探寻专利间的联系。从技术角度,主要用于判断技术的尖端部分、勾画技术结构图、提供竞争情报等;从企业角度,可帮助公司进行专利许可贸易,帮助评估竞争对手的技术实力和技术策略,帮助了解竞争对手的技术循环周期等。

专利引文分析研究两个方面:专利引文量和专利引文分析指标。专利引文分析方法包括引用关联分析、核心专利引用关系、技术族谱分析、高被引分析。通过专利引文分析,可以判断技术的尖端部分、绘制技术构图、提供竞争情报、确定技术在科学上的可靠性,并提供专利与科学联系的紧密程度。

9.在网络结构挖掘中的应用

网络结构挖掘理论源自于引文分析,它是引文分析在网络领域的继承与发展。引文分析主要着重于平面文献之间的信息挖掘,找出引用文献与被引文献之间的逻辑关系,进而为科学评估与科学管理、决策等服务,而网络结构挖掘着重于网络文献之间和网络文献内部的信息挖掘,找出同一主题下各超链接间的链接与被链接之间的逻辑关系,进而找出同一主题下的中心站点、中心网页和权威站点、权威网页,为用户能够准确、快捷地使用网络信息资源服务。

三、引文分析的工具

目前,利用率较高的引文分析工具,主要是网络版的数据库,例如美国的《科学引文索引》(SCI)、《工程索引》(EI)、《科技会议录索引》(CPCI)等,国内的如《中国科学引文数据库》(CSCD)、《中国科技论文与引文分析数据库》(CSTPC)、《中国社会科学引文索引》(CSSCI)等。

1.科学引文索引(SCI)

现代科学论文的一个重要特征是,在“参考文献”标志下依序列出所援引文献的著录事项。参考文献(被引用文献)与正文(引用文献)的简单逻辑关系就是引文分析的基础和背景,致力于引文分析理论和技术研究的文献学家主要有格罗斯、布朗等。普赖斯于1956年发表重要著作《科学论文的网络》,为引文分析奠定理论基础,E.加菲尔德于1953年受法律业务工具书《谢泼德引文》的启发,于1961~1963年编成《科学引文索引》(SCI),使引文分析具备了实用的工具,并于1964年由美国科技信息研究所(ISI)正式出版发行。

SCI是公认的权威的多学科的科技文献检索工具,收录了全世界170个学科领域近8600种核心学术期刊,主要收录自然科学的各个学科,包括化学、物理学、生物学、环境科学、医学、药学、工程技术、农业等,其文献可回溯到1945年。

SCI的编排结构:

1)引文索引(Citation Index)

包括作者引文索引(Citation Index)、团体著者引文索引(Corporate Author Index)、匿名引文索引(Citation Index-Anonymous)、专利引文索引(Citation Index-Patent)等。

2)来源索引(Source Index)

来源索引提供编入本期SCI的全部来源文献的篇名及其出处。由来源出版物一览表(Lists of Source Publications)、团体索引(Corporate Index)和来源索引(Source Index)三个部分组成。

3)关键词轮排索引(Permuterm Subject Index)

由计算机在来源文献的篇名中自动抽取若干个具有独立检索意义的关键词。

SCI的常用功能包含了基本检索、作者检索、引文检索等,检索界面如图4.1至图4.5所示。

SCI具有多方面、多学科的科学评价功能,主要体现在下述5个方面:①对科研成果的评价;②对科技人才的评价;③对科研机构的评价;④对科学出版物的评价;⑤对科学学科本身的评价。因此,应用SCI数据可以涵盖科学研究评价对象的全部方面,包括科学研究成果、成果的创造者(即作者)、成果产生的单位或机构、成果的载体(即刊物)、成果产生的总环境——国家等的评价。当前,SCI广泛应用于我国的科研项目的结题验收、科技奖评选、职称晋升、国家自然科学基金申请、申报院士等涉及科研成果评价的活动中。

图4.1 SCI一般检索界面

图4.2 SCI引文检索界面

图4.3 SCI检索结果分析界面

图4.4 SCI检索结果引文报告界面

图4.5 SCI检索结果引证关系界面

但是,SCI也有其局限性。主要表现在如下几个方面:①学科分布不均匀。SCI对于有些学科的期刊收录和关注比较少,即便是自然科学领域,仍集中在少数几个学科领域里。②国家分布不均。SCI收录44个国家和地区的期刊,我国大陆地区的1000多种自然科学核心学术性科技期刊SCl收录十几种,收录期刊数排在第18位。③语种分布不均。SCI收录我国国内核心期刊,大部分仍以英语版为主。语言成为SCI筛选我国期刊的主要障碍。可见,SCI的局限性和科学评价的多样性、复杂性,决定了SCI不可能是科学研究评价中唯一的、全面的评价工具,不能仅依据和过度依赖SCI数据。

由于收录的学科范围不同,与SCI对应的还有SSCI和A&HCI。SSCI(社会科学引文索引)为SCI的姊妹篇,亦由美国科学信息研究所创建,全文收录3000余种世界最重要的社会科学期刊,内容覆盖包括人类学、法律、经济、历史、地理、心理学等55个领域。A&HCI(艺术与人文科学引文索引),收录数据从1975年至今,是艺术与人文科学领域重要的期刊文摘索引数据库,A&HCI收录期刊1500余种,数据覆盖了考古学、建筑学、艺术、文学、哲学、宗教、历史等社会科学领域。

2.基于SCI开发的引文分析工具

1)Journal Citation Reports(JCR)

JCR(期刊引证报告)是web of Science数据库中的一个综合性、多学科的期刊分析与评价报告,由美国ISI(科学信息研究所)编制出版,它客观地统计Web of Science收录期刊所刊载论文的数量、论文参考文献的数量、论文的被引用次数等原始数据,再应用文献计量学的原理,计算出各种期刊的影响因子、立即影响指数、被引半衰期等反映期刊质量和影响的定量指标。其中JCR Science Edition用于查询自然科学类期刊,JCR Social Sciences Edition用于查询人文社会科学类期刊。

2)Essential Science Indicators(ESI)

ESI(基本科学指标)是由世界上著名的学术信息出版机——构美国科技信息所(ISI)于2001年推出的一项文献评价分析工具。这是一个基于SCI(Science Citation Index Expanded,科学引文索引)和SSCI(Social Sciences Citation Index,社会科学引文索引)所收录的全球11000多种学术期刊的1000多万条文献记录而建立的计量分析数据库,提供与ISI Web of Knowledge、ISI Document Solution和Science Watch的链接。

该数据库从各个角度对各国科研水平、期刊的声誉和影响力,以及科研机构和科学家的学术水平进行全面衡量,并对当前正在深入研究和有突破性进展的科学领域进行直观反映。通过该数据库,用户不仅可以了解在各研究领域中最领先的国家、期刊、科学家、论文和研究机构,识别科学和社会科学领域的重要趋势与方向,还能够确定具体研究领域内的研究成果及其影响,评估潜在的雇员、合作者和竞争对手,并对彼此的研究业绩和竞争能力进行评估,从而具备更深层次的战略竞争情报意义。除提供具体数据图表以外,ESI还为用户提供了简要的数据分析指导,并为所有图表提供解释性的链接页面。

3)ISI-InCites

InCites是基于Web of Science(SCIE/SSCI)权威引文数据建立的科研评价工具。相较于Web of Science,InCites的评价功能更加强大和全面,使用也更简捷、高效。通过InCites,可以着重从以下3个角度进行科研产出及影响力分析:①机构引文报告:以科研机构为单位,提取该机构研究人员所发表的论文及引用信息,同时提供高附加值的文献计量学指标进行深入的分析和有效的科研评估,帮助科研机构及时了解本机构的发展情况;②国家指标数据:以国家及地区为单位,汇总其论文与引文总数,同时提供全球170多个国家与若干个地区,亚太(不包括日本)、欧盟、拉丁美洲、中东、北欧、OECD等各学科领域的综合科研效绩评估指标;③机构指标数据:以大学或研究机构为单位,汇总其论文与引文总数,同时提供各国大学或研究机构在各学科领域的综合研究绩效评估指标。

3.《工程索引》(EI)

《工程索引》(Engineering Index,EI)是美国工程信息公司(Engineering Information Inc.)1884年创办的著名工程技术类综合性检索系统。EI在全球的学术界、工程界、信息界中享有盛誉,是科技界共同认可的重要检索工具。

EI自1884年创办至今均按时出版传统印刷版月刊及年刊,即为Engineering Index。自20世纪70年代末开始出版磁盘版电子数据库,并可通过DIALOG、DATA-STAR、ESA-IRS和OCLC等大型联机系统提供检索服务。20世纪80年代开始出版光盘版电子数据库,1990年以来提供网络版电子数据库,并推出了综合性项目工程信息村(Engi-neering Information Village),1998年EI在清华大学图书馆建立了EI中国镜像站,2000年底EI推出功能强大的Engineering Information Village 2新版本,对文摘录入格式进行了改进,并首次将文后参考文献列入EI Compendex数据库。设于大连市的EI中国网站于2003年1月1日正式开始运行,其网址为http://www.ei.org,主要收集工程和应用科学领域的文献,其数据来自全球50多个国家,所用语言近20种,但大部分是英文。每年增加25万条文摘,文献来自7000余种工程领域的期刊以及会议论文及技术报告。

4.《科技会议录索引》(CPCI)

《科技会议录索引》最初简称ISTP,现在已经更名为CPCI,提供1990年以来以专著、丛书、预印本、期刊、报告等形式出版的国际会议论文文摘及参考文献索引信息,涉及自然科学和工程技术的所有领域。ISTP(科学技术会议录索引)和ISSHP(社会科学及人文科学会议录索引)两大会议录索引集成为ISI Proceedings,分别更名为CPCI-S和CPCI-SSH。

5.中文引文分析工具

1)《中国科技期刊引证报告》(CJCR)

《中国科技期刊引证报告》由中国科学技术信息研究所每年出版发布。《中国科技期刊引证报告》选择总被引频次、影响因子、即年指标、被引半衰期、论文地区分布、基金论文数和自引总引比作为期刊评价指标,按期刊所属学科、影响因子、总被引频次和期刊字顺分别排序,是我国最权威的期刊质量评价报告之一。

2)《中国科技期刊引证指标数据库》(CSCD JCR Annual Report)

《中国科技期刊引证指标数据库》是根据《中国科学引文数据库》(CSCD)年度期刊指标统计数据创建的。该统计数据以CSCD核心库为基础,对刊名等信息进行了大量的规范工作,所有指标统计遵循文献计量学的相关定律及统计方法,这些指标如实地反映了国内科技期刊在中文世界的价值和影响力。

3)CNKl发布的期刊复合影响因子

在CNKI“文献来源列表”中可以查到CNKI的期刊复合影响因子。复合影响因子是以期刊综合统计源文献、博硕士学位论文统计源文献、会议论文统计源文献为复合统计源文献,计算被评价期刊前两年发表的可被引文献在统计年的被引用总次数与该期刊在前两年内发表的可被引文献总量之比。

4)《中文社会科学引文索引》(CSSCI)

CSSCI是由南京大学中国社会科学研究评价中心编制,提供中文人文和社会科学期刊影响因子。CSSCI采取定量与定性评价相结合的方法,从全国2700余种中文人文和社会科学学术性期刊中精选出学术性强、编辑规范的期刊作为来源期刊。目前收录包括法学、管理学、经济学、历史学、政治学等在内的25大类的500多种学术期刊,约占我国正式刊行的社科期刊总数的8%~15%。

四、引文分析法的发展趋势

随着人类科学文化的发展,信息处理水平不断提高,对引文分析法的研究也将日益完善,其未来的发展趋势可概括为以下2个方面。

1.向科学化和规范化方向发展

首先,文献著录(包括引文著录)规范化的加强将为引文分析的科学化和规范化奠定基础。目前引文的著录还很不规范,信息缺乏完整性和准确性。从国内的期刊来看,引文著录的随意性很强,有的是姓名在前,有的是篇名在前,格式与详细程度均不统一。随着将来在学科、国家乃至国际范围内引文规范的建立和推行,引文行为中的主观盲目因素将会大大减少,而且作者也将提高引文意识,自觉遵守引文规范。其次,科学的发展推动着人类文明的进步,使科学伦理、科学道德日益健全和法制化,科学引文的规范化也随之成为必然。

2.向准确性和可靠性方向发展变化

随着电子计算机的普及使用和大型文献数据库的建立,对计算机辅助的文献计量研究将为解决引文分析所需要的数据获取和分析统计等提供强有力的技术支持手段,成为引文分析法取得突破性进展的重要途径。在此基础上,全文数据库、全文检索的实现,社会信息化、网络化水平的提高,电子通信网的拓展,以及真正意义上的资源共享成为现实时,作者和读者的检索活动就会大大简化,引文的转引行为将会大幅度减少,作者实际使用的参考文献和所列引文也都会与其论文更加相关,同时在全文数据库中,可以方便地找出引文文献的全文内容并与文源引证处内容加以比较,使引文分析在更细致、更精确的层次上进行。另外,技术的进步也为期刊文献的编审人员和读者更好地监督作者的引用行为提供了方便,引文行为所受的约束力变大,引文范围自然也向着最佳点靠近,引文分析结果的准确性和可靠性也将提高[12]

参考文献

[1]王伟军,蔡国沛.信息分析方法与应用[M].北京:清华大学出版社,2010:8-11.

[2]徐庆宁,陈雪飞.新编信息检索与利用[M].上海:华东理工大学出版社,2014:201-202.

[3]王怀诗.信息检索与利用教程[M].兰州:兰州大学出版社,2007:281-284.

[4]余波.现代信息分析与预测[M].北京:北京理工大学出版社,2011:92-100.

[5]岳一凡,张锦顺.布拉德福定律应用现状研究综述[J].学理论,2009(19):179-180.

[6]马林山.信息检索与利用[M].合肥:安徽科学技术出版社,2013:97-101.

[7]江三宝,毛振鹏.信息分析与预测[M].北京:清华大学出版社,2008:145-150.

[8]刘君玉.引文分析的评价[J].情报理论与实践,1998(02):24-26.

[9]东江,真集.美国科学情报研究所创办人——尤金·加菲尔德[J].图书与情报,1982(02):83.

[10](匈)温克勒.基于科学计量学指标的科研评价[M].北京:科学技术文献出版社,2014.

[11]沙勇忠.信息分析[M].北京:科学出版社,2009.

[12]肖明.信息计量学[M].北京:中国铁道出版社,2014.