首页 期刊知识 期刊知识数据来源处理

期刊知识数据来源处理

发布时间:2022-07-25 09:08:59

1前言

被引量作为论文学术影响力的主要评价指标,在人才评审、科研立项、科研奖励等过程中发挥着重要的作用,并衍生出影响因子、H指数等一系列指标。但是其时滞性、片面性及地域差异性等问题也逐渐受到学者的诟病。

随着互联网的发展,学术论文的电子化日渐普及,几乎所有的期刊论文都能够通过网络数据库被获取,人们对学术文献的使用得以被服务器记录,这使得研究者开始关注一个新的学术文献计量指标———UsageMtricse,即使用量指标。使用量指标能够即时反映论文被使用的情况,亦能在一定程度上反映在科学研究中被使用但未被体现在引用上的价值。随着使用量指标被众多学者所接受,一些数据库厂商也紧跟步伐,推出了基于自身平台的使用量指标,如WebofSiencec平台的Usage指标,Springer的Download指标,Nature的文章页面浏览量指标(ArticlePageViews),PLOS的ArticleLevelMtricse,以及中国知网的总下载量指标、热度指标等。一般而言,学术论文在被引用前,对其的使用行为包括浏览、下载、阅读等。以论文为载体,知识/信息刊出后,首先被读者浏览发现,其中一部分读者被某一论文的标题或文摘信息所吸引,进而会进行下载、阅读,获取该部分知识/信息,其中更小一部分读者会在其撰写的论文中进行引用,然后经同行评议后发表,知识/信息进入一个新的使用-引用的循环中。在这个循环过程中,浏览行为夹杂着太多的随意性,阅读行为则难以统计,而下载行为则更具针对性也易于记录。

虽然读者可以通过共享、文献传递等方式获得所需论文,但是从总体上看,从数据库下载仍为互联网时代获取论文最主要的途径,下载量也是最接近、且最易获取的反映论文实际使用量的指标。因此,在已有研究中,一些学者将论文的使用量等同于下载量,更多的学者直接采用下载量作为主要的使用量指标,来探讨其合理性、影响因素以及与被引量的相关性。上述研究为我们了解论文下载量数据的特性等方面提供了丰富的信息,且基本上都认为下载量与被引量之间存在着某种程度的相关性,一些学者甚至提出可以用论文早期下载量来预测其后期被引量,以弥补被引量的时滞性问题。但是,上述研究在数据的选择和处理上仍有不足之处,从而导致不同研究结果中论文下载量与被引量相关性的显著水平存在较大差异,使得利用论文早期下载量预测后期被引量的可行性存在一定的争论。

首先,由于受数据库供应商的限制,早期的一些研究只能从不同的数据库获取下载量和被引量数据。如Moed以期刊TetrahedronLtterse为例,其下载量来源于ScienceDrecti,而其被引量来源于SCI数据库,结果显示25个月后两者的Spearman相关系数仅有0.220;Brody等则分别以arXv.orig和Cite-base作为其下载量和被引量数据的来源,来探讨利用早期下载量预测后期被引量的可行性,发现两者的相关系数从1个月后的0.270上升到24个月后的0.440;Guerrero-Boteh和Moya-Anegon从ScienceDrecti和Scopus获取下载量和被引量数据来研究两者之间的相关性,发现在期刊水平上两者的相关系数为0.780,而在论文水平上两者的相关系数仅为0.480;Schloegl等利用ScienceDrecti提供的下载量数据,结合JCR或Scopus提供的被引量数据,进行了一系列相关研究,相关系数范围为0.600—0.800。这些研究虽然通过数据处理,使得每一篇论文的下载量与被引量能够一一对应,但由于不同数据库平台的使用者重合度无法测量,这样得出的结果可能存在偏差。其次,在单篇论文的水平上,大多数数据库只提供即时的累积下载量数据,并未提供分年下载数据,这使得研究者要么只能对某一时间剖面的下载量与被引量的相关性进行分析,要么只能从期刊水平上进行相关性的动态分析,而从单篇论文水平上的动态相关性分析则不多见。

而事实上,读者使用的是论文本身,并非期刊整体,一本期刊所刊发的论文不会集中于完全一模一样的主题和对象,因此在同一期刊上,也存在着不同的下载模式和引文模式,这些具有不同下载模式和引文模式的论文在下载量和引用量的相关性上有何异同尚未见研究报道。因此,本文拟通过对图书情报领域中文学术期刊论文下载量与被引量相关性的动态变化过程进行研究,来探寻不同下载模式和引文模式下,下载量与被引量相关性的变化规律。不同于已有文献,本研究的下载量和被引量数据均来源于同一数据库———中国学术期刊网络出版总库(ChinaAademicJurnalNt-coeworkPblishinugDatabase,CAJD),这一世界上最大的连续动态更新的中国学术期刊全文数据库。本研究拟研究的问题如下:(1)采用来源于同一数据库的论文下载量与被引量的相关性,是否高于采用不同数据来源的论文下载量与被引量的相关性?不同下载模式和被引模式下,论文的下载量与被引量的相关性是否存在差异?(2)论文的早期下载量,在不同下载模式和被引模式下,是否都能用于预测论文后期被引量?

2数据和方法

2.1数据来源与处理

以中国学术期刊网络出版总库作为数据源,选择其中的11种图书情报领域期刊在2006—2008年发表,且在2015年12月31日前获得过被引和下载的9042篇论文作为研究对象,选择依据主要是由于这些期刊创刊时间较长,在数据库中收录完整,且其出版日和上线日基本一致,从而能够获得较为真实的下载量及被引量数据。而《图书情报工作》、《中国图书馆学报》等期刊因为出版到上线的滞后期较长,未选择其作为研究对象。将该原始数据集命名为DataSt1e。DataSt1e中,每篇论文所涉及的数据包含论文的基本题录信息以及该论文在2006—2015年每一自然年的下载量和被引量,分别加总每一自然年的下载量和被引量,得到每篇论文自出版时到2015年12月31日的总下载量和总被引量;由于不同论文出版月份不同,有的在年初出版,有的在年末出版,因此出版月份较晚的论文在出版当年的下载量和被引量无法体现其真实数量,为了更加准确地呈现论文在出版后1年内的下载量和被引量,本文假设每篇论文下载量和被引量在一年的不同月份不存在差异,首先采用如下公式计算绝对下载量。

2.2分析方法

2.2.1聚类分析

采用IBMSPSSStatistics23提供的两步聚类法(Two-StepCluster),分别根据DataSt2e中每篇论文出版后每年的绝对被引量和绝对下载量进行聚类分析,获得不同的下载模式和引文模式。具体聚类步骤为:选择DataSt2e中每年的绝对下载量作为连续变量,聚类准则采用施瓦兹贝叶斯准则(BIC),由于之前对数据已经进行了清理,因此对离群值不再使用噪声处理,评估字段采用唯一的文件识别号,并勾选创建聚类成员变量,最终得到每一篇论文所属下载模式。采用同样的步骤获得每一篇论文所属引文模式。聚类质量通过内聚与分离轮廓测量指标(Silhouettemeas-ureofcohesionandseparation)进行评价,该值大于0表明聚类质量较好。

2.2.2相关性分析

采用Spearman相关系数从单篇论文的角度对总下载量与总被引量的相关性进行分析,同时分别对单篇论文的下载量及被引量进行排序,分析两者的秩序相关性。然后分别研究了总样本集,以及不同下载模式和不同引文模式下,论文下载量与被引量相关性的变化趋势。

免责声明以上文章内容均来源于本站老师原创或网友上传,不代表本站观点,与本站立场无关,仅供学习和参考。本站不是任何杂志的官方网站,直投稿件和出版请联系出版社。