1.结果分析
1.1下载模式
样本中论文总下载量为2,735,208次,篇均下载量为302.50次,单篇最高下载量为5087次。从下载量的分布区间来看,“1≤下载量<1000”的论文数量为8838篇,占样本总量的97.74%,“1000≤下载量<2000”的论文数量为170篇,“2000≤下载量<3000”的论文数量为27篇,“3000≤下载量4000”的论文数量为6篇,下载量达到4000次以上的论文数量为1篇,可以看出,下载量的分布遵循布拉德福分散定律。在前期研究中,作者对学术论文的下载模式进行了分析。结果表明,样本论文基于绝对下载量的下载模式可聚类为如图1所示的4种。
其中,模式D1、模式D2和模式D3的下载量均为第一年最高,然后呈逐年下降趋势,三者变化趋势基本一致,拟合曲线均为负幂函数形式,主要是绝对数量上的差异;模式D4的下载量则呈现先降低后上升的趋势,下载量在第四年到达最低点后又逐渐上升,到第七年的下载量接近第一年的下载量,其函数关系拟合度最高的为二项式。从总体上看,模式D1、模式D2和模式D3可以认为是常态的下载模式,反映了学术期刊论文在使用上的一般性规律,即读者倾向于使用最新出版的期刊论文,以获得最新的研究动态。模式D4呈现一种先降后升的特殊下载模式,考虑到其平均下载量也显著高于其他下载模式,表明这一类下载模式可能包含了更加丰富的下载动机,多重下载动机的叠加一方面使得该模式的论文获得了更高的下载量,另一方面也改变了其常规的老化模式。Moed和Schloegl等在对其他学科的期刊论文的研究中也有类似发现,并且认为被引量的增加对于下载量的再次上升具有直接作用。
1.2引文模式
样本总被引量为111,790次,篇均被引量为12.36次,单篇最高被引量为620次,与下载量最高的论文为同一论文。从被引量的分布区间来看,“1≤被引量<50”的论文数量为8805篇,占样本总量的93.65%,“50≤被引量<100”的论文数量为190篇,“100≤被引量<150”的论文数量为36篇,“150≤被引量<200”的论文数量为9篇,被引量达到250次以上的论文数量为2篇。被引量大体遵循布拉德福分散定律,稍有偏离。基于绝对被引量变化趋势,作者发现样本具有3种引文模式。这3种模式的变化趋势基本一致,均呈先上升后下降的规律,但总被引量相对高的论文(模式C1)达到其被引峰值较晚(3年),模式C2和模式C3更早地达到了其被引峰值。这3种引文模式都属于“经典引文曲线”,反映了文献老化规律的普遍存在,同时发现在同一学科中,平均被引量越高,其老化趋势越缓慢。在其他关于引文模式的研究中,发现除“经典引文曲线”外,还存在睡美人型、双峰型、波型等不规则引文模式,这些不规则引文曲线的被引量在某一特殊时期,受到外在因素的影响,突然增加或者减少,从而产生了特殊的波动。譬如Mazloumian等人发现,诺贝尔得主的标志性论文被引次数呈爆炸式增长,同时也会带动该科学家其他论文被引次数的增加,引用动机理论的研究也证实了这一点,但是李江等人的研究却发现被引次数的增长并不能归因于获诺贝尔奖,引文曲线的类型与被引用对象的质量没有直接关联。究竟是哪些因素在引文模式的形成和变化中起主要作用,还有待进一步研究。
1.3下载量与被引量的总体相关性
样本平均下载/被引比为42.54,最高下载/被引比为522,最低下载被引比为3.33。单篇论文下载量与被引量的相关系数为0.712,秩序相关系数为0.743,总体上表现出了较高的相关性。在前期研究中,我们发现下载量呈对数正态分布,因此我们将下载量与被引量分别进行对数转换后绘制两者的散点图,可以直观地观察到两者之间的相关性,通过曲线拟合,两者关系可表示为线性函数y=1.0595x-1.6432(R2=0.517)。同时对论文出版1-6年后累积下载量与累积被引量进行对数转换后分别作出散点图,可以看出在初期,线性关系较弱,并且论文的下载/被引比较高,随着出版时间的增加,线性关系逐渐加强(相关系数从0.284逐渐上升至0.673),且下载/被引比逐渐上升。由于论文出版初期下载具有较大的随意性,与被引动机差异较大;随着时间的延续,下载动机与引用动机的契合度增强。
1.4下载量与被引量的变化趋势及两者相关性的动态变化
利用双Y轴图可以直观地呈现下载量和被引量不同的变化趋势。下载量在论文出版后的第1年即达到峰值,然后缓慢下降;被引量的峰值稍有滞后,在第2年达到峰值,第3年开始直线下降。两者在7年的时间窗口内均表现出老化现象,下载量在初期老化速度更快。为了研究下载量与被引量的相关性在论文出版后不同年份的差异,本文分别计算了后每一年的下载量与被引量之间的相关系数,同时考虑到两者的交互作用可能存在滞后性,又对第N年下载量与第N+1年被引量的相关系数,以及第N年被引量与第N+1年下载量的相关系数进行了计算,结果如图6所示。可以看出,在初期,第N年下载量与第N+1年被引量的相关系数较高,暗示前一年的下载量可能对后一年的被引量具有一定的促进作用;而随着时间的发展,这种下载量效用的滞后性便逐渐消失,表现为第N年下载量与第N年被引量的高度相关性。考虑到读者多数以论文已有的累积下载量与累积被引量来对论文的影响力进行评价,因此本文对累积下载量与累积被引量的相关性也进行了动态分析。
可以看出,虽然在初期,第N年累积下载量与第N+1年累积被引量的相关系数在三类相关系中最高,但随着时间的发展,这三类相关系数最终都达到同一水平。论文相关性的变化可以从读者下载及引用的动机来进行分析。在论文刚发表时,论文的下载量与被引量都接近于零,读者主要基于论文的内容特征及所在期刊来决定是否下载,此时下载量迅速积累,其被引的概率也随之增大,但是由于施引文献从撰写到投稿,再到出版,需要经历较长的一段时间,此时被引量仍处于较低水平,而后在出版后的2—3年逐渐达到被引高峰,因此,此时下载量与被引量的相关系数仅为0.4左右。在此之后,下载量与被引量均有了不同程度的分化,高下载量论文与高被引论文凭借其“累积优势”得到更多下载和被引,两者在后期下载及引用行为中的权重及相关性得到进一步加强,相关系数上升到0.7左右,并逐渐趋于稳定,此时无论是下载量对于被引量的推动作用,还是被引量对于下载量的牵引作用,效用都已充分发挥。
1.5不同下载和引文模式下论文下载量与被引量相关性动态变化
在本部分研究中,作者进一步对不同下载模式下论文下载量与被引量的相关系数的变化规律进行了研究。可以看出,无论是否考虑下载量或被引量作用的滞后效应,4种下载模式的相关系数均随出版时间的增长而增加,同时明显地归为两个集群:相关系数较高的模式1和模式4,分别代表了平均下载量最高和平均下载量最低的两种下载模式;相关系数较低的模式2和模式3,则分别代表了下载量居于中间水平的两种下载模式。但是,由于样本数据的变异系数较大,各模式下的下载量与被引量相关系数均不高。本文对不同引文模式下论文下载量与被引量的相关系数的变化规律进行了探讨。与不同下载模式下的研究结果类似,不同引文模式下的3类相关系数均随出版时间的增长而增加;在初期,属于引文模式C2的论文(被引量居于中间水平),其累积下载量与累积被引量相关系数显著低于引文模式C1和C3的论文,而在6—7年后,各引文模式下论文累积下载量与累积被引量相关系数达到几乎同一水平。已有学者研究发现,论文下载量与被引量的相关性存在学科差异,暗示在利用早期下载量预测后期被引量时,不同学科之间的预测准确度也必然存在较大的学科差异。
本研究进一步扩展了这一观点:就算排除了学科差异,对于具有不同早期下载量和下载模式的论文,其预测准确度也会存在差异。Brody等认为,当下载量与被引量具有较好的相关性时,前期下载量可作为后期被引量的一个预测依据;而当下载量与被引量的相关性较差时,下载量可作为一个独立的“使用影响力”指标,弥补被引量的不足。在本研究中,作者发现,对于高下载及低下载论文,下载量与被引量具有中度的相关性;而下载量居中的论文,下载量与被引量相关性较差;不同引文模式下的研究也有类似发现。因此,虽然在长期时间窗口内,下载量与被引量具有较强的相关性,但是在短期内,下载量与被引量的相关性并不高,特别是下载量与被引量处于中间水平的论文(分别占样本总量的49%和32%)相关性更弱,因此不建议采用论文出版后5年内的数据来进行后期被引量预测。同时,由于累积下载量与累积被引量的相关性强于分年下载量与分年被引量的相关性,作者建议在后期被引量预测中采用累积数据而非分年数据。
从知识/信息的传递过程来看,对于单篇论文,下载行为早于引用行为。一般认为如果下载量与被引量之间存在正相关性,那么就应该是下载为因,引用为果,先期的下载量对于后期的被引量具有某种程度上的决定作用。因此,在预测被引量的研究中,部分学者基于先期的下载量来预测后期的被引量。但实际上,以论文为载体的知识/信息是处在一个使用-引用的循环中,两者的相关性也与因果性无关,论文后期被引量可能与先期的下载量有关,同样先期的被引量也可能直接或间接影响后期的下载量,单篇论文的下载量与被引量的关系可能类似于DNA的双螺旋结构———两者通过某种函数关系紧密相关,同时相互促进,螺旋式上发展,而驱动两者向上发展的原始动力,还在于论文本身的质量。因此,如果要利用论文的早期下载量与被引量来对长期的被引量进行预测,必须同时考虑到论文内容特征,期刊特征及学科等因素,作者将在下一步工作中开展此方面研究。
2结论与展望
通过上述分析,本研究主要获得如下结论:第一,下载量与被引量是分别从不同角度对论文的测度,下载量是从读者的角度,测量论文被使用的程度;被引量是从作者的角度,评价论文对其有用的程度。因此,两者既具有一定的相关性,又具有不同的变化规律。本研究发现累积下载量与累积被引量存在线性相关性,且两者相关性随时间的增长而增强(从出版后第一年的0.4左右上升到第7年的0.7左右),表明这两个指标随着时间的增长在表征论文的使用和有用程度上逐渐达到统一,即随着时间的增长,对于论文更多的使用是有效的使用,读者的下载行为更多地转化成为其引用行为。第二,不同下载模式下,下载量高或低的论文累积下载量与累积被引量的相关系数高于下载量居中的论文;不同引文模式下,被引量高或低的论文累积下载量与累积被引量的相关系数同样高于被引量居中的论文,但是这一差距随着时间的增长逐渐消失,表明随着时间的延续,下载动机与引用动机的契合度增强。
因此,在后期被引量预测时,建议选择出版后5年及以上的累积数据进行预测。本研究基于论文下载量与被引量相关性的动态分析,对能否利用论文早期下载量预测后期被引量进行了探讨,认为早期的高下载和低下载论文更具有可预测性。因此,在后续的研究中我们将对不同下载模式下论文的早期下载量和后期被引量进行回归分析,以便更好地回答本研究中的问题。随着信息时代的发展,下载量等基于学术文献使用的新型数据越来越受到人们的重视,其数据的即时性在领域热点分析、读者行为分析等方面具有引文分析无法比拟的优势,但在学术文献影响力评价方面仍存在一定的局限性,如数据不透明、易被人为操纵等。如何合理地利用这些新型数据,综合引文指标、补充计量学指标来构建学术文献影响力多维评价体系,将成为科学计量学领域的研究热点之一。
免责声明以上文章内容均来源于本站老师原创或网友上传,不代表本站观点,与本站立场无关,仅供学习和参考。本站不是任何杂志的官方网站,直投稿件和出版请联系出版社。