首页 优秀范文 大数据技术论文

大数据技术论文赏析八篇

发布时间:2022-05-05 14:41:45

序言:写作是分享个人见解和探索未知领域的桥梁,我们为您精选了8篇的大数据技术论文样本,期待这些样本能够为您提供丰富的参考和启发,请尽情阅读。

大数据技术论文

第1篇

PDA也可以称为个人数字化助理,简称为掌上行机,它的优点是形状很小,携带很方便,可以把它放在手上或者口袋。很便于输入数据,操作结构很简单,使用起来很方便,可使用手接触或者笔输入信息,耗费功能很低,电池能使用的时间很长,通信里很强,可以使用蓝牙、红外接受发送信息,价格实惠。现在很多PDA使用windowsCE来进行操作,用来开发windowsCE系统功能,就像是在计算机的桌面进行开发软件程序一样,构建一个比较有相对性的移动设备。

2分析PDA和全站仪中的数据

2.1串口技术

使用Wicrosoftwindows开发串口系统,进行有以下方式:a.使用windows来进行通信函数.b.windowsAPI对端口进行读写或者开发其它程序,对串口实行操作步骤。C.串口中的组件通信,比如Activek控制MSCcomm。根据以上介绍的几种方法,比如b需要熟悉电路结构,驱动层次比较深,需要有比较强的专业技能,如C方式简便,不能使EmbeddedVisualC++所接受,该程序就是应用windowsAP来进行通信函数。

2.2串口施行步骤

windows的读写文件方式不一样,它主要使用windows结构中的多线程,然后再后台进行串口读写,正常使用程序就要在前台进行。进行改善1/0的速度,使用windows结构中的多线程,可以使用它来进行开发非单一系统,windows不能操作1/0的异常操作,可以使用它来进行操作串口,使用异步的方法,可以提高系统的操作能力。工作效能比较高的串口是事件驱动。应用这种方法有比较高的时实性,主要是针对一些比较广泛的串口,跟查询的方式不一样,不是只对那个串口进行查询。是以中断的形式来进行,一般运行中断时,确定的事件发生变化时,windows系统就会发出信息,才能有针对性的进行处理,确保数据存在。

3开发通信程序

3.1串口通信应用API函数

⑴串口进行打开关闭。在应用程序中用Create-File函数把串口打开,注意事项主要有:A.串口名后面需要加个冒号(:)。B.PDA的串口就是全部已经打开的串口,只含COM1。C.应用的参数定为零,安全没有危险性的参数定为NULL。应用Close-Handle可以把串口关闭。⑵对串口进行配置。串口配置与PDA通信中的参数进行配置一起,这样才能达到通信的效能,因此配置也是比较重要的一个步骤。LPDCB主要是针对DCB结构,DCB结构是对串口的进一步描述,串口的波特率主要是由DCB中的BaudRate来确定,原因是CE对非二进制不能进行输送,所以fBinary要设定为TRUE,ByteSize是指字节在进行发送时接受到的数据。Parity是奇偶校验,StopBits是停止位数,⑶对串口进行读写。串口进行读写时可以使用ReadFile和WriteFile函数实现,主要是串口进行读写时速度不是很快,⑷对串口进行异步读写,CE不能进行操作输入输出的功能,因此只能应用读写进行重复操作。第一,设定串口EV_RXCHAR要用SetCommMask函数来实现,应用WaitCom-mEvent阻拦线程,指直到把事件EV_RX-CHAR设定好,字符要应用回调函数来进行处理,续等发生事件。

3.2隔开水平角、竖直角、距离及进行组合测量

在测量过后,需要测出水平角,偏心的水平角与距离不能合在一起测量,测量时要分开进行,因此应用程序能进行水平角和竖直角及距离分开测量以及组合测量,进行测角时不能仅仅依靠棱镜。所以,可以应用水平角和、竖直角、距离重复选框来进行模拟。针对不一样规模的全站仪,使用的方式也不一样,索佳操作的模式只含有一种规模的全站仪,只需要点击按钮即可,假如选择斜距就进行输送测角距,没有选中斜距进行输送测角距,收到的数据后。在根据模块来分析与选取有针对性的数据,拓扑康是第二种模式,在选中斜距时,还要在斜距中的复选框中进行点击,在进行输送时改变测量距离的模式,进行发送时。进行驱动测量,跟读取指令是一样的。

3.3处理已经接收到的字符串

⑴ASCII编码是已经收到的字符串,可以使用MultiByteToWideChar函数转变成Unicode编码然,在进行处理。⑵测量指令在进行发送出去后,全站仪中的数据不是一次性发完,应该是分层次来进行发送,因此,字符串要直接连接到字符串,才能完成接受任务。⑶字符串的主要任务就是接收完后,要依据复合框进行有效的选择,分析全站仪的字符串,也会显示的很清楚。⑷拓扑康是第二种模式,符串后的任务就是接受,在输送时显示清楚。相反,就会把全站仪输送数据全部给PDA,造成不良后果。

4应用在实际生活中

VC++2005smartdevice的MFCsmartdeviceApplication,PDA与全站仪中的通信主要依靠多线程来完成,使他们能够稳定运行。根据太原市在进行测绘进行探索指出,外业进行采集时,效果是良好的。全站仪中的数据直接读取,防止在读、记方面存在有误差。不过,对存在有误差的数据要自动检查,防止2C差、差互差、2C互差的影响产生误差,而不能及时的进行检查,而导致返工现象的发生,工作效率的提高,PDA储存的文件就是测量的结果,外业任务完成之后把所得出的结果直接输入到PC,经过对程序的进一步分析,能直接评估精准度及计算坐标,不使用人工来进行操作,从一定程度上减少了工作人员的工作量,也能减少造成不要的麻烦,有效的提高工作效率。

5结束语

第2篇

基本的大数据的处理流程可以分成数据采集、数据处理与集成、数据分析和数据解释4个阶段。首先获取数据源的数据,因为在数据源端的数据包含各种各样的结构,需要使用某种方法将其进行预处理,使数据成为某种可以用一种算法分析的统一数据格式,接着需要找到这种数据分析的算法,将预处理过的数据进行算法特定的分析,并将分析的结果用可视化等手段呈现至用户端。

1.1数据采集

大数据的采集是整个流程的基础,随着互联网技术和应用的发展以及各种终端设备的普及,使得数据的生产者范围越来越大,数据的产量也越来越多,数据之间的关联也越来越复杂,这也是大数据中“大”的体现,所以需要提高数据采集速度和精度要求。

1.2数据处理与集成

数据的处理与集成主要是对前一步采集到的大量数据进行适当的预处理,包括格式化、去噪以及进一步集成存储。因为数据采集步骤采集到的数据各种各样,其数据结构也并不统一,不利于之后的数据分析,而且,一些数据属于无效数据,需要去除,否则会影响数据分析的精度和可靠性,所以,需要将数据统一格式并且去除无效数据。通常会设计一些过滤器来完成这一任务。

1.3数据分析

在完成了数据的采集和处理后,需要对数据进行分析,因为在进行数据分析后才能体现所有大数据的重要价值。数据分析的对象是上一步数据的处理与集成后的统一格式数据,需要根据所需数据的应用需求和价值体现方向对这些原始样本数据进一步地处理和分析。现有的数据分析通常指采用数据仓库和数据挖掘工具对集中存储的数据进行分析,数据分析服务与传统数据分析的差别在于其面向的对象不是数据,而是数据服务。

1.4数据解释

数据解释是对大数据分析结果的解释与展现,在数据处理流程中,数据结果的解释步骤是大数据分析的用户直接面对成果的步骤,传统的数据显示方式是用文本形式体现的,但是,随着数据量的加大,其分析结果也更复杂,传统的数据显示方法已经不足以满足数据分析结果输出的需求,因此,数据分析企业会引入“数据可视化技术”作为数据解释方式。通过可视化结果分析,可以形象地向用户展示数据分析结果。

2云计算与大数据分析的关系

云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源,是一种按使用量付费的模式。这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。目前,国内外已经有不少成熟的云计算的应用服务。数据分析是整个大数据处理流程里最核心的部分。数据分析是以数据的价值分析为目的的活动,而基于大数据的数据分析通常表现为对已获取的海量数据的分析,其数据来源可能是企业数据也可能是企业数据与互联网数据的融合。从目前的趋势来看,云计算是大数据的IT基础,是大数据分析的支撑平台,不断增长的数据量需要性能更高的数据分析平台承载。所以,云计算技术的不断发展可以为大数据分析提供更为灵活、迅速的部署方案,使得大数据分析的结果更加精确。另一方面,云计算的出现为大数据分析提供了扩展性更强,使用成本更低的存储资源和计算资源,使得中小企业也可以通过云计算来实现属于自己的大数据分析产品。大数据技术本身也是云计算技术的一种延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术,包括海量分布式文件系统、并行计算框架、数据库、实时流数据处理以及智能分析技术,如模式识别、自然语言理解、应用知识库等等。但是,大数据分析要走向云计算还要赖于数据通信带宽的提高和云资源的建设,需要确保原始数据能迁移到云环境以及资源池可以随需弹性扩展。

3基于云计算环境的Hadoop

为了给大数据处理分析提供一个性能更高、可靠性更好的平台,研究者基于MapReduce开发了一个基于云计算环境的开源平台Hadoop。Hadoop是一个以MapReduce算法为分布式计算框架,包括分布式文件系统(HDFS)、分布式数据库(Hbase、Cassandra)等功能模块在内的完整生态系统,已经成为当前最流行的大数据处理平台,并被广泛认可和开发应用。基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个节点组成的大规模计算机集群上。

4实例分析

本节以电信运营商为例,说明在云计算环境中基于Hadoop的大数据分析给大数据用户带来的价值。当前传统语音和短信业务量下滑,智能终端快速增长,移动互联网业务发展迅速,大数据分析可以为运营商带来新的机会,帮助运营商更好地转型。本文数据分析样本来自于某运营商的个人语音和数据业务清单,通过Hadoop2.6.0在Ubuntu12.04系统中模拟了一个大数据分析平台来处理获得的样本。希望通过对样本数据的分析与挖掘,掌握样本本身的一些信息。以上分析只是一些很基本的简单分析,实际上样本数据中所蕴含的价值要远远大于本文体现的。以上举例意在说明基于云计算的大数据分析可以在数据分析上体现出良好的性能,为企业带来更丰富更有效率的信息提取、分类,并从中获益。

5结束语

第3篇

一.大数据风控发展迅速,但有效性不佳

在应用层面,金融行业利用大数据进行风控已经取得了一定的成效。使用大数据进行风控已成为美国等发达国家互联网金融企业的标准配置。

美国Zest Finance公司开发的10个基于学习机器的分析模型,对每位信贷申请人的超过1万条原始信息数据进行分析,并得出超过7万个可对其行为做出测量的指标,而这一过程在5秒钟内就能全部完成。

为网上商家提供金融信贷服务的公司Kabbage主要目标客户是ebay、Amazon、PayPal等电商,其通过获取这些企业网店店主的销售、信用记录、顾客流量、评论、商品价格和存货等信息,以及他们在Facebook和Twitter上与客户的互动信息,借助数据挖掘技术,把这些店主分成不同的风险等级,以此来确定提供贷款金额数量与贷款利率水平。

中国互联网金融企业对于大数据风控的运用也如火如荼。

阿里推出了面向社会的信用服务体系芝麻信用,芝麻信用通过分析大量的网络交易及行为数据,对用户进行信用评估,这些信用评估可以帮助互联网金融企业对用户的还款意愿及还款能力做出结论,继而为用户提供相关的金融和经济服务。

腾讯的微众银行推出的“微粒贷”产品,其风控核心就是,通过社交大数据与央行征信等传统银行信用数据结合,运用社交圈、行为特征、交易、基本社会特征、人行征信5个维度对客户综合评级,运用大量的指标构建多重模型,以快速识别客户的信用风险。

对于大数据风控的理论研究尚处于萌芽阶段,本文以“大数据风控”为主题在CNKI数据库进行搜索,与此相关的文献数量可以从侧面反映大数据风控的理论研究现状。

CNKI数据库中以“大数据风控”为主题的文献共46篇。在这些文献中,以报道性的文章较多,重要报纸全文库和特色期刊总共为33篇,占比72%;而理论研究的文章较少,中国学术期刊总库为12篇,占比26%;尚没有CSSCI2014—2015年的来源期刊(如图1)。

图1 CNKI数据库与大数据相关的文献数量和分类

虽然大数据风控在实践上已经有所进展,但是其有效性也受到一些挑战。

例如,以大数据风控为基石的P2P平台就频频暴露出各种各样的问题来。对于P2P平台来说,由于其纯线上操作的特点,大数据风控的有效性是决定其经营状况的重要因素,如果大数据风控有效性较差,则面临的坏账压力较大,容易出现提现困难甚至跑路的问题。

网贷之家的数据显示,2015年上半年新增问题平台419家,是2014年同期的7.5倍,已超过2014年全年问题平台数量。截至2015年10月底,全国问题平台数累积已达1115家。

二.当前大数据风控有效性不足的原因分析

一些学者对于大数据风控的有效性问题进行了研究。

王强(2015)指出当前个人大数据征信的问题,一是数据的真实性,二是数据收集的法律障碍,三是坏账的不可预测性问题。

甚至有作者认为大数据风控是无效的,陈宇(2015)援引各种证据认为大数据风控是无效的。

总体而言,当前大数据风控有效性欠佳的原因主要有以下几个方面:

(一)数据的质量问题

当前大数据风控的有效性欠佳,其首要原因就是数据的真实性不高,包括社交数据和交易数据两个方面。

1.社交数据的真实性问题

美国lending club和facebook合作获取社交数据,在中国宜信也曾大费周折的收集借款人的社交数据,最后两者得出的结论都是社交数据根本就不能用。美国很多大数据征信公司的信息错误率高达50%,垃圾进、垃圾出。

2.交易数据的真实性问题。

当前许多电商平台的刷单现象非常严重,这将导致交易数据的严重失真。随着网购的火爆,有关电商平台“刷单”的报道屡见报端。

电商“刷单”有两种方式,一种是商家找所谓的消费者进行“刷单”。卖家买快递单号,其收件人和寄件人与实际的买家、卖家不一致。

另一种是快递公司发空包,但快递公司并未完成配送,而帮助商家完成平台上的物流信息。

(二)大数据风控的理论有效性问题

从IT技术层面论证大数据风控的实践性案例已经很多,但是在经济金融的理论层面,大数据风控还面临一些问题需要解决。

1.金融信用与社会信用的相关性不确定

目前大数据主要来源于互联网,而人们在网络中的表现并不能完全反映其真实的一面。相同的人群在不同场合呈现的特征是不一样的,尤其是目前人们在线上、线下割裂的状态,其行为方式往往会出现强烈的反差。

例如有些人不善交际,却将自己做的美食展示在微博上,吸引大量关注,粉丝暴增。因此网络并不能确切地证明某人的社交圈子,也就是说互联网的数据很难还原用户现实中的信息。

2.大数据对于“黑天鹅”事件的滞后性

在现实世界,总会出现不可预测的“黑天鹅”事件,一旦出现则有可能冲击大数据风控模型的基本假设,进而影响大数据风控的有效性。大到美国的次贷危机,小到个人意外事件的发生,在某种程度上大数据风控是无法预测的,但这些事件的发生,对宏观经济和微观主体都会产生重大的影响。

例如,2008年美国次贷危机后产生了一种“策略性违约”行为——贷款主体本身有能力还款,但是其在房价远低于贷款总额的时候,重新购买一套房子,并对之前的房贷断供,贷款者可以此方法进行“套利”。

虽然此类违约者会因此有不良信用记录,但是这对信用报告的影响有限,因为其他的债务按期偿还。而大数据对这种突变事件的预测能力则非常有限。

(三)大数据收集和使用的制度问题

在数据收集和使用的过程中也面临着合法使用的问题。如何高效、适度地开发和使用大数据,不仅仅是一个技术问题,也是一个社会问题,这些泄露的数据大量流入数据黑市,造成了用户安全、企业安全甚至国家安全方面的连锁反应。数据的收集和使用在很多时候都没有征得数据生产主体的同意,这导致了数据的滥用和隐私的泄露。

近年来,个人数据泄露事件频频发生,因个人数据泄露而造成损失的新闻屡见报端。猎豹移动安全实验室的《2015年上半年移动安全报告》显示,截至2015年上半年,猎豹共监测到496起数据泄露事件,影响超过544万人。2015年10月19日,乌云网消息称,网易的用户数据库疑似泄露。

图2 2005-2014年国内外数据泄密情况

资料来源:上海汉均信息技术有限公司《2005—2014年全球泄密事件分析报告》

数据安全问题也将越来越多的企业推向风口浪尖。

上海汉均信息技术有限公司的《2005—2014年全球泄密事件分析报告》显示,10年间,全球泄密事件中,我国泄密事件数量占比为58.5%,其中高频发地域主要是东部沿海经济较发达、产业格局以高技术含量为主的一二线城市(如图2)。

Verizon《2015年数据泄露调查报告》,报告覆盖95个国家,其中有61个报告了问题,涉及79790个安全事件(Security Incident),超过2000个(2122个)确认数据泄露(Data Breach)。

三.提高大数据风控有效性的路径

尽管大数据风控的有效运用尚处在诸多障碍,但这并不能成为大数据风控无效的理由。因为对于数据这个资源的挖掘尚处于初级阶段,在消除障碍、解决问题中前行,是大数据风控发展的必然趋势。有效扫除当前大数据风控的障碍需要各方面的共同努力,其中金融企业、金融研究部门和政府监管部门的角色尤为重要。

对于金融企业而言,要从基础数据上保证客户数据的多样化、连续性和实时性,确保数据真实可靠。

对于金融研究者而言,可从经济学、数学等多个角度综合论证大数据风控的有效性,为大数据风控提供理论支持。

对于政府监管部门而言,需要从法律制度、会计制度等方面进行建设,构建数据合理运用的良好环境体系。

(一)对于金融企业而言,要构建多样化、连续性和实时性的基础数据

1.多维度的收集数据,互联互通,打破数据的孤岛

美国征信系统的完善是因为美国政府对其拥有的大数据资源的开放程度日益透明化。

目前我国的大数据风控系统还没有实现互通互联,阿里、银联、平安、腾讯以及众多的P2P公司,都是各自为政,P2P公司拿不到央行的数据,几家大的互联网平台在相关大数据的分享上彼此也未互通有无。

因而,各金融企业要建立互联互通机制,打破数据孤岛,从而能多维度地收集数据,确保数据之间能够相互验证。

2.从供应链交易环节获取数据

获取真实数据最好的途径就是要切入客户的交易环节,尤其是稳定可持续的交易环节,即供应链。

一方面,经过了几十年的发展,当前的供应链都有一套完整上下游进入和退出机制,数据的真实性对于核心企业而言至关重要,因而这些数据的质量非常优异。

另一方面,这些数据和数据维度对于供应链中的企业评价是可靠的,金融企业可以此为基础,加上自身的风险控制经验,构建一套全新的基于数据的信用评价机制。

3.积极布局“物联网+”

物联网覆盖了产品生产、交易和使用的环节,因而互联网只是物联网的一部分。在物联网下,不仅要获取交易环节的数据,更重要的是获取生产环节和使用环节的数据。

因而,金融企业要积极布局“物联网+”,为获取更为全面的数据打下基础。例如,企业机器运行数据,可以收集客户汽车驾驶数据,可穿戴设备的身体状况数据,等等。这些数据都是大数据风控不可或缺的部分。

(二)对于金融研究部门而言,可从经济、金融等多个角度综合论证大数据风控的有效性,为大数据风控提供理论支持

当前对于大数据风控模型的构建大多是从技术的角度探讨的。但是,从经济、金融角度进行的探讨亟待加强,不同的经济假设会使模型推导的结果产生截然不同的变化。因而,从经济、金融等角度对大数据风控有效性的研究就显得很有必要了。比如大数据风控如何顺应经济周期的变化,如何从统计上论证过去的数据对于未来行为判断的准确性,如何解决道德风险所带来的不确定性。例如,唐时达(2015)提出要把数据提升至与传统抵质押品同等重要的高度,建立“数据质押”风控体系。

(三)对于政府监管部门而言,要推动和完善与数据相关的制度建

1.法律制度的建设,对数据的收集和使用予以法律上的保护

我国对于数据保护的制度性举措散见于多部法律中,如宪法、刑法、侵权责任法等,多是以保护个人隐私、通信秘密等形式出现,尚缺乏一部数据保护的专门性法律。这导致了数据的法律边界不明,数据保护法律的操作性不强、数据保护执法机制滞后等问题,制约了数据收集和运用的发展。

对此,最理想的状况是出台一部《信息保护法》。在完善个人信息保护法律制度的道路上,应出台《个人信息保护法》,明确国家机关、商家和其他法人、自然人掌握个人信息的边界和使用的范围[6-7]。齐爱民、盘佳(2015)认为要构建数据主权和数据权法律制度[8]。2014年最高人民法院颁布的《关于审理侵害信息网络传播权民事纠纷案适用法律若干问题的规定》(以下简称《规定》)就是此领域的进展之一,《规定》首次明确了个人信息保护的范围。

2.会计制度建设,对数据资产予以明确的计量

随着数据重要性的提升,数据列入企业资产负债表只是时间问题,数据将和土地、劳动力和资本一样,成为一种生产要素(Viktor Mayer-Schönberger,2013)。越来越多的理论界和实务界的研究者都倾向于认为数据将成为个体的财产和资产。

2012年达沃斯世界经济论坛的《大数据,大影响》报告认为,数据已经成为一种新的经济资产类别。

第4篇

关键词:大数据时代;科技期刊;出版;编辑

中图分类号:G232 文献标识码:A 文章编号:1672-8122(2016)03-0105-02

20世纪80年代初,著名未来学大师及社会思想家阿尔文・托夫勒(Alvin Toffler)便预言大数据(big data)将成为“第三次浪潮的华彩乐章”。20世纪90年代以来,随着计算机技术的迅猛发展,上至国家的重大决策,下至人民生活的衣食住行,方方面面的信息均被数字化,并得到有效的储存。迈入21世纪,人类社会进入了一个大规模生产、分享和应用数据的时代――大数据时代,它强调信息技术的重点由“技术”转变为“信息”。因此,在以信息为基础的人文社会科学研究领域,大数据势必引发其组织决策和业务流程等方面的根本性变革。而为学术研究服务的科技期刊在大数据时代浪潮中,又将面对怎样的机遇和挑战呢?

一、大数据的概念与特征

大数据,又称为巨量资料或海量资料;其是由数量巨大、结构复杂、类型繁多的数据资料构成的数据集合,是以“云计算”为基础技术支持的数据处理和应用模式。大数据技术是通过集成共享数据,将分散的数据资源转变为集中的智力资源和知识服务能力。研究机构Garter定义“大数据”为需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资源。简而言之,从各种类型数据中,快速获得有价值信息的能力,就是大数据技术。

大数据的特征通常表现为以下四个方面:数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)。这就是人们通常所说的大数据的4V特征,也是大数据区别于传统数据的显著特征。

二、大数据时代下科技期刊面临的机遇

1.出版形态的多样化。大数据时代,在计算机、互联网等技术的不断发展和创新环境下,传统科技期刊的出版模式已悄然向大数据平台、多媒介及全媒体模式转型。科技期刊数据化集群建设得以实现的一个重要条件就是大数据技术的成熟与推广,随着大数据平台技术的建立,科技期刊实现了内容的自主优化、信息服务的个性化,以及出版发行模式的多元化,科技期刊将向着在线投稿及评议系统、编辑管理系统和增值服务系统一体化的方向发展。大数据期刊平台的构建将通过期刊内容推荐系统、流计算、期刊数据库和期刊信息整合与治理四大功能板块完成[1]。大多数科技期刊所采用的纸质媒介,在大数据时代背景下已不能满足读者的阅读体验,网络、无线、手持阅读器的全媒体出版要求凸显。传统纸质科技期刊传播媒介将呈多样化、全媒体的发展态势,物联网、互联网、移动智能终端等技术平台,都已成为科技期刊传播的重要媒介。科技期刊利用数字化、多媒介、全媒体的出版模式,在为读者提供平面媒体与数字媒体相结合的全新视听阅读感受的同时,也获得了更多途径和更深层次的推广效果。

2.业务流程的智能化。随着计算机技术的迅猛发展,以及云计算技术的成熟,使得任何复杂的数据都可以实现定量化分析[2]。因此,导致编辑工作流程中的信息收集、加工、传递等过程的智能化成为可能。科技期刊编辑的目标是将知识差大,且读者或该领域从业人员感兴趣的论文从众多稿件中挑选出来,体现在编辑出版过程中就是组稿策划和审稿过程[3]。而过去这一编辑流程基本依靠编辑人员的经验、价值观或学术专家提出的建议完成。而现在大数据技术将科技期刊历史出版物数据化,将全社会、全行业的科技成果数据化,并将这些数据进行整合、分析,从中获得真实、客观、准确、全面的学术信息,从而为科技期刊的选题策划、组稿及审稿提供依据。可以想象在大数据技术提供的真实、客观、准确、全面的学术信息下,那些“一稿多投”或学术不端、学术腐败的问题稿件,将无处遁形。在信息的加工过程中,大数据及云计算技术将过去编辑流程中,因编辑习惯不同或各期刊要求各异,而无统一标准的编辑规则模式转化为统一、有序的编辑规则模式。在这种编辑规则模式下,利用人工智能工具或软件,有可能实现稿件的计算机“预编辑”。从而减少编辑的重复劳动和简单劳动,提升编辑质量和编辑效率。

3.评价规则的多元化。目前,对科技期刊及论文的质量和影响力的评估,普遍采用基于文献计量学的评价体系,如影响因子和被引频次。然而,由于模拟数据时代采集的数据样本量小、种类少,导致科技期刊界对定性或定量评价的优劣争议不断[4]。大数据时代的到来解决了这一问题。通过文本分析、语义分析、专家印象评估及同行评估等方法,可以实现对科技期刊的定性评价。通过期刊影响因子动态跟踪、论文被引动态跟踪、论文浏览及下载量动态跟踪等方法,可以实现对科技期刊的动态评价。通过专家反馈信息采集、同行引用反馈信息采集、读者反馈与推荐信息采集、厂商应用效果市场反馈信息采集等方法,可以实现对科技期刊客观评价。因此,基于大数据平台的科技期刊及论文评估是定性与定量、历史与现代、静态与动态、学术价值和经济效益、主观与客观相结合的多元化、综合性科学评价机制[5]。

4.营销模式以品牌营销为主。大数据时代科技期刊的营销模式是将文化价值、创新价值、版权价值和广告价值融为一体的新型商业模式。文化价值即科技期刊的学术品牌,是科技期刊建设的最主要目标,有文化内涵、科技含量及艺术价值的品牌形象,不仅保证了科技的发展和文化的繁荣,更是吸引读者的关键,从而获得更好的经济效益和社会影响力,实现科技期刊的良性发展。创新价值即是以创新为突破口的跨媒介融合出版,利用大数据技术获取受众群体的核心信息,通过大数据分析掌握市场动向,并及时提出有创新性的营销策略,是科技期刊出版单位需要具备的专业能力。印刷时代建立的传统版权原则和制度,在大数据时代受到了根本性动摇,传统版权规则所确立的利益观、价值观,以及商业模式也被逐渐解构,特别是随着数字出版的蓬勃发展,版权资源潜在的巨大市场和价值被重新挖掘和开发。版权产业迎来了前所未有的发展机遇,版权资源成为争夺主战场,版权资源的价值亟须重塑[6]。大数据时代,出版载体已向跨行业全媒体模式转变,出版形态也更加丰富,广告形式不仅仅局限在传统期刊投放的平面广告,声音、动画、影像等多媒体形式的广告将有效地与科技期刊的主题报道内容相结合,读者在阅读杂志内容的同时,也反复接受了产品的展示与推广,加强了品牌宣传效果,真正达到广而告知的目的。

5.出版编辑理念面临的机遇。在大数据时代背景下,要求科技期刊的编辑工作从传统的文字编辑加工,转变为全媒体新出版语境下的数字编辑。数字编辑的定义是:在数字图书、数字报纸、数字期刊、网络原创文学、网络教育出版物、网络地图、数字音乐、数字视频、网络动漫、网络游戏、数字音像制品、手机出版等出版过程中,从事选题策划、组织稿件、审核把关和加工整理的专业技术人员[7]。这就要求科技期刊编辑首先从思想上树立数字编辑理念,深刻理解大数据时代,数字出版背景下编辑工作不断追求创新和数字技术应用的要求。科技期刊数字出版编辑在推广重要学术成果、传播科技文化知识、促进科技期刊发展进程中,不仅是实现期刊全媒体化的先行军,更是数字出版技术创新的开拓者。数字出版编辑应顺应数字出版的潮流,更新数字化出版的编辑理念,主动参与文化、科技成果的数据化,并积极实现数字信息的加工与传播。在读者服务方面,编辑也利用大数据技术提供的精准信息,实现对目标消费群体的个体化信息推送,提供更为精准服务。数字出版编辑要不断适应数字理念的创新,以适应大数据时代不断深化的移动互联网终端输入内容智能化的趋势[8]。

三、大数据时代下科技期刊面临的挑战

1.信息透明化导致期刊生存环境竞争激烈。通过大数据技术,所有科技期刊都将在一个更为透明的环境中生存。所有科技期刊的评价指标,都将作为公共信息,而被公之于众。例如,中国科学技术信息研究所每年都会将中国科技论文统计源收录期刊的主要计量指标,如核心总被引频次、核心影响因子、核心即年指标等,以引证报告的形式,提供给大众。在这些细化和量化的数据信息面前,科技期刊的优劣势一目了然。这必将造成优秀期刊的良性发展和劣质期刊的自我淘汰。这种数据公开机制,有可能导致某些优质期刊或优势学科领域的期刊获得更多的读者和作者资源,而对于新创办的期刊和某些弱势学科领域的期刊将进入一个更为不利的生存态势之中。

2.对科技期刊编辑人才队伍提出了新的要求。随着大数据理念深入人心,大数据技术的日臻成熟,数字化出版必将成为科技期刊的主要出版形式[9]。因此,数字化编辑也将成为科技期刊编辑工作者的新要求。编辑工作者不仅应具备组稿策划、文字编辑加工能力外,还应具备内容扩展、内容研究、内容创作等能力,以适应科技期刊在大数据时代下的数字化发展。

3.传统的盈利模式不再满足期刊的发展需求。在科技期刊数字化进程中,科技期刊文章无偿向全社会提供阅读已成为必然趋势。因此,依靠纸质发行、有偿下载阅读的传统盈利模式,已不能满足期刊的发展要求。然而,在将来期刊出版社或编辑部是否能成为数据运营的主体,也是一个悬而未决的问题。数据库运营商有可能通过与科技期刊共同建立和运行数字化出版平台,或开发数字化产品,来分享杂志的发行和广告收入。

由此可见,在大数据时代背景下,科技期刊将面临前所未有的机遇和挑战。作为科技期刊的从业者,我们要抓住这些机遇,迎接挑战,完成科技期刊的完美转型,尽早实现真正意义上的数字化期刊集群化。

参考文献:

[1] 丁田.大数据时代科技期刊的未来形态[J].中国科技期刊研究,2014(2).

[2] 贾晓青,王萍,陈清莲.大数据时代科技期刊编辑思维拓展[J].出版科学,2014(6).

[3] 张小强,张苹,吕赛英.从信息传播角度看科技期刊编辑出版过程及其优化[J].编辑学报,2007(3).

[4] 朱剑.量化指标:学术期刊不能承受之轻――评《全国报纸期刊出版质量综合评估指标体系(试行)》[J].清华大学学报(哲学社会科学版),2013(1).

[5] 柴英,马婧.大数据时代学术期刊功能的变革[J].编辑之友,2014(6).

[6] 张勤.试论大数据时代版权资源的价值重塑[J].中国出版, 2015(11).

[7] 李超.数字出版人才培养:职称评定的作用[EB/OL].中国数字出版信息网,2013-05-23.

第5篇

关键词:大数据 环境 数字图书馆 安全威胁 对策 分析

中图分类号:G250 文献标识码:A 文章编号:1672-3791(2017)02(c)-0219-02

大数据是当前社会发展中非常重要的组成部分,在大数据时代下,我国的图书馆管理也实现了高新技术的层面,图书馆数据流量也呈现出了级数非线性增长,大数据环境的主要特点是数据量大,高速且高价值。这也使得图书馆数据系统的复杂程度以及数据的管理难度有了极大的增加,大数据平台也逐渐成为广大黑客攻击的主要目标,基于此,如何保证在大数据时代下,图书馆数据平台的安全问题也就成为了当前主要的研究课题,怎样有效利用大数据技术来构建智能图书馆,这对于提升图书馆的市场竞争能力都是非常有帮助的。

1 大数据时代下数字图书馆说面临的安全威胁

1.1 数据中心IT系统安全需求

随着我国图书馆现代化的不断深入,图书馆系统也在不断的更新换代当中,在图书馆体系的运用上,系统要求安全检测具备更加广泛的深度和需求,这样一来就会导致图书馆数据中心系统的能耗急剧增加,档子运行的整体速度大幅度的下降,所以,我们在研究大数据的时候,一定要保证图书馆数据中心系统部署可以真正的满足用户服务的需求,进而创建一个科学高效的图书馆系统架构,这也是当前图书馆系统深入部署的有效前提,一般来说,传统的图书馆系统环境下,数据中心会设置相关的防范产品来控制数据流量的安全检测,而由于这些传统的安全策略对图书馆系统资源的耗能是非常大的,在加上图书馆数据流量总是出现延迟和数据丢失等问题也是非常的明显,很明显现在已经不能适应大数据时代下图书馆高校、快速的服务需求,在大数据环境下,图书馆在用户服务的时候还有可能会面临着木马、病毒等安全方面的威胁,除此之外,黑客还可以利用云计算以及大数据等技术手段对新模式进行攻击,所以,图书馆在复杂的大数据安全环境中,着呢用用加速、负载为单一的操作,对数据流在应用过程中只是做单一的处理,这也是为了能够进一步消除数据流在安全检测中出现延迟故障。

1.2 大数据给图书馆带来了新安全问题

随着大数据技术在图书馆应用的不断加深,图书馆数据环境具有海量存储、计数递增等特点,与此同时,数据结构模式以及数据类型的多样性特点也是非常明显的,这也导致数据处理的格式其可变性和处理速率也更加的不确定。

在大数据时代,图书馆对云计算计数的依赖性也在不断的增强,因此要求图书馆与云服务商要签署符合大数据环境的云服务租赁协议。明确双方的权利和义务。除此之外,云服务的安全保障有效性和安全管理效率也要有本质上的提升。这也与图书馆大数据应用安全息息相关。

除此之外,虚拟化技术也是当前我国图书馆大数据应用中非常重要的技术手段之一,数据虚拟化技术是一种允许用户访问和管理的方法,图书馆在利用虚拟化技术来改善图书馆系统的同时,也极大的降低了运营的实际成本,面临着数据中心系统设备异构化等安全问题。

1.3 黑客会利用大数据技术对图书馆发起攻击

在图书馆利用大数据技术提高服务质量以及获取读者需求的时候,黑客会运用大数据技术向图书馆发起攻击,首先,图书馆大数据平台存储着大量的系统管理以及用户服务等数据信息,这些信息大部分都是客户的私密信息,而黑客通过对获取的大数据资源进行分析,能够明确图书馆的系统运营特点以及安全防范的相关措施,能够运用大数据决策对图书馆发起非常精准的攻击。

其次,由于大数据时代下的图书馆网络具备非常强的社会化属性,网络数据还附带复杂、敏感等特点,因此网络数据平台已经完成了不同图书馆大数据平台的数据整合与资源共享。

1.4 读者自身面临的威胁

在大数据时代下,图书馆主要是通过对用户行为数据的健康和采集来获取读者的个体特征,这些数据在确保图书馆用户服务质量的同时,也面临着泄露用户信息的威胁,而为了进一步的提高系统管理与用户服务决策的有效性,图书馆会通过扩展用户数据采集的对象来不断提升大数据几何的数据价值。

首先,数据拥有者能够通过对大部分无关的数据分析来获取用户的隐私信息,由于体术管对一些相对比较敏感的数据没有一个明确的界定,这一状况也使得很多机遇大数据的图书馆所有权和使用权也没有明确的界定。

其次,随着读者个性化阅读的不断提升,读者运用移动阅读的频率越来越高,现如今已经成为大数据时代下消除时间、地域、阅读环境以及阅读能力的主要模式。但是由于移动月底在带给读者阅读便利性的同时也间接的泄露了用户的个人信息。

2 基于大数据的数字图书馆安全防范策略

2.1 增强安全防御能力

2.1.1 现安全威胁

首先,我们的图书馆在利用大数据技术保护系统与服务安全的时候,我们的研究人员要对提供监控设备采集的大数据安全资源进行综合的分析,明确恶意攻击的来源,与此同时,还要通过对相关的安全指标数据关系来挖掘数据信息的价值,进而实现对非法攻击者的精准预测。

其次,在构建安全管理大数据平台的时候,要尽量使用一些技术相对成熟且兼容性强的数据来分析图书馆数据流,针对图书馆大数据服务于安全管理的相关需求来制定专业的大数据资源,增强图书馆基于大数据安全威胁发现的主动性。

2.1.2 构建基于大数据安全威胁与防御能力的评估评价体系

大数据安全威胁与预防能力的评价主要是针对当前我国图书馆精准评估安全威胁等级和安全防范能力的关键体系,图书馆基于大数据的安全威胁评估评价体系是图书馆服务信息与系统管理数据传输的重要载体,由于网络安全关系着图书馆管理与服务安全的可靠性,所以,图书馆在数据中心的网络传统评估中,要平均的在网络上部署大量的安全检测数据采集设备,进一步保证安全评估平台的全面性和准确性。

2.2 保证云计算计数和虚拟化数据的安全

在当前的大数据环境下,图书馆一般都会采用租赁等方式来采集图书信息,除此之外,我们的研究人员在对云服务平台的数据进行管理的传输的时候,图书馆最好是根据高校的计算机管理系统来实现对数据的自动化管理,不断加强对读者阅读行为的安全管理,通过建立全面、高校的监控网络来进一步实现对数据流的全程较差监管,这样也能够有效的避免数据出现非法监听和窃取。

2.3 制定实施科学的大数据安全管理策略

首先,大数据安全管理平台想要真正的实现安全管理和相关流程的整合,让我们的图书馆能够根据大数据安全信息来完成相关安全事件的管理和分析工作,因此需要我们的研究人员在对图书馆监控设备采集数据信息的时候,要对数据进行预先的处理,只有保证了数据格式的标准化之后,才能够真正的用于图书馆管理和运用。

其次,图书馆安全管理平台还要通过实时的监督管理系统来对图书馆安全威胁问题进行检测和评估,并根据安全管理平台数据反馈来实现对图书馆大数据运用平台的参数设置,提升图书馆安全管理的强度。增强图书馆管理系统的整体效率。

3 结语

大数据自身的复杂性和多样性特点使得在大数据环境下的图书馆出现了很多的不可预测攻击行为,导致图书馆大数据资源在采集的过程中经常会出现很多的问题,我们此次主要针Φ鼻拔夜大数据时代下现代化图书馆的安全威胁问题进行了详细的分析和研究,并针对出现的问题提出了几点可行性的解决建议,希望可以为我国的图书馆安全问题提供有效的帮助。

参考文献

[1] 蔡津津,郜新鑫,付建俐.基于业务元数据标准化的金融财经数据仓库及服务系统架构探讨[C]//中国新闻技术工作者联合会2012年学术年会、五届四次理事会暨第六届“王选新闻科学技术奖”的“人才奖”和“优秀论文奖”颁奖大会论文集.2012.

[2] 周为钢,杨良怀,潘建,等.论智能交通大数据处理平台之构建[C]//第八届中国智能交通年会论文集.2013.

[3] 乔向杰.基于大数据的旅游公共管理与服务创新模式研究[C]//北京两界联席会议高峰论坛文集.2013.

[4] 谭胜淋,陈曦.大数据的标准化研究[C]//市场践行标准化――第十一届中国标准化论坛论文集.2014.

[5] 包磊,罗兵,孙越林.大数据时代的态势评估技术思考[C]//2014第二届中国指挥控制大会论文集(下).2014.

[6] 尹素格,王健,张桂刚,等.大数据技术在精确空投系统中的应用[C]//2014第二届中国指挥控制大会论文集(下).2014.

[7] 刘春琳,冷红.基于大数据挖掘的城市关注平台的构建与应用[C]//城乡治理与规划改革――2014中国城市规划年会论文集(04城市规划新技术应用).2014.

[8] 飞.大数据时代中国期刊的发展机遇与探索创新[C]//第十二届2014全国核心期刊与期刊国际化、网络化研讨会论文集.2014.

[9] 朱力纬,刘丽勤,王健.高校基于大数据时代的数字化校园建设研究[C]//中国高等教育学会教育信息化分会第十二次学术年会论文集.2014.

[10] 孙圣力,郑志高,王平,等.RTDP系统网络体系结构及其关键技术[C]//.2013年全国通信软件学术会议论文集.2013.

[11] 张岚,郭俊杰.信息安全风险评估的安全措施探讨[C]//2011年通信与信息技术新进展――第八届中国通信学会学术年会论文集.2011.

[12] 韩俊,刘晓婷.科技期刊在“云时代”所面临的机遇和挑战[C]//科学评价促发展,品质服务谋共赢――第九届(2011)全国核心期刊与期刊国际化、网络化研讨会论文集.2011.

第6篇

(湖北省科技信息研究院 湖北 武汉 430071)

摘 要:大数据背景下信息服务工作发生较大变化。湖北省科技信息共享服务平台顺应大数据挑战,利用云平台和元数据仓储技术,从硬件、软件层次上解决了大数据条件下的数据存储与检索问题。以湖北省科技信息共享服务平台的功能特色为角度,研究了以信息平台为基础进行的信息服务内容与模式创新,最后对信息平台今后的服务方向进行了探讨。

关键词 :大数据;信息服务;信息共享平台;元数据仓储;云平台

中图分类号:G203 文献标识码:A doi:10.3969/j.issn.1665-2272.2015.01.008

在大数据时代,信息服务工作的信息获取、存储、组织、分析等技术,用户获取和利用信息的方式方法都发生了较大变化,如何进行大数据处理,为用户提供更加专业的信息服务将成为挑战。

湖北省科技信息共享服务平台(以下简称信息平台)是支撑湖北省内科研机构和科技型中小企业创新创业的综合信息服务平台,是全省科技进步和科技创新必不可少的支撑条件。信息共享服务平台顺应大数据时代的挑战,利用元数据仓储技术,真正实现统一跨库检索,集产业追踪、区域聚焦、个性定制、代查代借、特色服务等多功能为一体,能够实现多层次、全方位地为用户提供信息服务。对促进全省科技创新体系建设,推动科技创新驱动战略实施具有十分重要的意义。

1 大数据环境下信息服务面临的问题

1.1 大数据存储管理问题

首先,随着网络环境下数据爆增,巨大存储空间需求给硬件存储带来压力。大数据时代信息资源的建设已经不止是简单的网页文本、照片或音频、视频文件。这就需要购置大量的存储设备去满足不断增长的需求,而传统模式的数据存储方式不仅扩展能力有限,而且扩展方法很麻烦。

其次,对非结构化数据存储管理效率低。例如各种类型的数据如办公文档、图像、音频、视频、电子邮件、超媒体等,数据处理操作不仅需要使用不同的文件处理软件,而且要在人工参与下才能完成。过多的人工操作会大大增加数据处理的时间,致使信息管理中心无法快速获得重要的信息,工作效率降低。

1.2 技术问题

面对指数级增长的数据目前PB级的存储系统中,检索数据无异于大海捞针。传统的数据检索是靠数据库文件系统命名的。这种检索方式在检索和查询影像文件时可能会遇到障碍,当影像文件超过了文件系统的厚度时就会出现问题。此外,各种非结构化的数据又增加了大数据的复杂性,即关于数据库表结构定义的不一致性和标准缺失也是数据库检索的另一大问题。

1.3 传统服务模式出现的问题

传统信息服务方式在大数据时代已经不能满足信息化发展的要求,信息管理中心不仅需要收集、存储大量的数据信息,还要在这些原始数据的基础上通过专业技术手段分析、挖掘数据,得到更为有效的信息资源,为信息资源用户的决策管理提供数据参考。而传统的数据管理方式适用于存量不大并且实时性要求不高的结构化数据,面对大容量的非结构化数据显得力不从心。

2 信息平台的功能特色

2.1 云平台布署解决大数据存储问题

信息平台为解决大数据带来的检索和存储问题,引入了云平台技术。从硬件方面来说,云平台采用了6台高性能服务器作为6个底层节点,一台普通服务器作为管理机,节点与节点之间部署了心中检测线,而节点与管理机之前则用千兆交换机连接。从软件方面来说,信息平台部署了一个云平台操作系统,包括管理系统、门户网站、运营系统各一套,3套存储管理平台。信息平台从硬件和软件功能上进行升级,保证了平台虚拟机的稳定运行,为信息平台元数据仓储提供了强有力的支持,促进信息平台检索、下载功能高效率进行。

2.2 实现统一跨库检索

信息平台集成当前国内最大的几家数据库厂商资源,包括万方数据、维普资讯、中国知网、国研网、NSTL、国家知识产权局等,同时还集成了湖北省科技信息研究院自建的特色数据库,文献类型包括科技期刊、学位论文、会议论文、专利、标准、国研报告、研究报告、法律法规、科技成果、年鉴、报纸、图书等,用户只需一次检索便可得到所有数据库的不同类型资源,而且具有去重功能,改变以往多个库检索、重复浏览的模式,节省大量宝贵时间与精力。

2.3 元数据仓储技术保证查全率

元数据在众多领域都有其具体的定义和应用,其中得到最广泛认可的概述是:关于数据的数据,即描述任意资源结构化的数据。信息平台利用元数据仓储技术,采用数据收割、数据整理、数据更新这一流程,利用先进的资源调度规则和资源调度配置,将最底层的元数据预先建立索引,进而将不同的异构数据库导入一个全新的数据库,实现各类资源的快速检索,大大提高检索速度与检索效率。信息平台利用元数据仓储技术,整合4.7亿条不重复的元数据,并且每年保持大规模增长,数据量超过任何一个单一的数据库厂商,大大保证了查全率,方便用户快速找到文献资源线索。

2.4 多渠道保证原文无障碍获取

信息平台获取原文的方法多样,包括直接下载、共建单位原文传递、云传递及代查代借。信息平台整合了国内几大主流数据库厂商的各类资源,基本保证了各类中文数据的原文下载,本着资源共建共享的原则,信息平合全省各大高校及科研单位参与共建共享,目前已有武汉大学图书馆、华中科技大学图书馆、中科院国家科学图书馆武汉分馆等19家单位参与,开通共建单位原文传递窗口,方便用户获取本馆没有的文献。同时,信息平台还有云传递功能,此为全国范围内的参与单位实现,从而更大幅度地保证原文获取效率。

在以上三种方式都无法获取原文时,系统也会引导用户采用代查代借功能获取,代查代借是信息平台的辅助功能,主要解决以下两类问题:一是在信息平台检索到文献题录,但是无法获取全文,二是知道文献相关信息,在信息平台中未检索到。用户只需在代查代借页面提交文献题名、作者、来源等信息即可,所提交的信息越详细,获取原文的机率就越大。提交请求后信息平台共建单位服务人员会在五个工作日以内将查询结果反馈到用户邮箱。

2.5 特色功能满足用户个性化需求

2.5.1 检索功能操作方便快捷

信息平台实现文献类型和检索字段同时可选的功能,而且文献类型可多选。其实这一功能在单一的数据库中实现并不难,然而在统一资源检索平台要实现此功能需要解决一些技术难题。笔者也比较其他省级科技信息平台,如广东、广西、四川、上海等省的科技文献共享服务平台均只实现文献类型单选。湖北省信息平台可以在多选文献类型的情况下选择所需字段,这样处理方便用户进行简单的计量分析,例如可以通过一键式检索分析某一机构或作者的文献产出情况,通过

关键词 检索分析各种文献类型的主题分布情况等,大大方便用户进行科研研究。

2.5.2 多维度服务导航功能

多维度服务导航为用户提供了强大的资源揭示功能,用户可借此功能进行简单的情报分析,如果没有此功能,用户检索到数据后需耗费大量的时间与精力下载、加工、整理数据,然后利用相关的数据分析工具来得到分析结果。同时,此功能又方便用户进行二次选择,快速找到有用的资源,例如可根据期刊刊种判断论文质量,对自己的研究会起到更大的作用。而其他类型资源检索结果展示可方便用户在不同的文献类型之间进行切换,无需回到首页重新检索。

2.5.3 检索结果排列方式多样

传统的检索结果排列方式为表格排列,这样方便用户需要阅读大量的文献题名、作者、机构、来源等信息时使用,通过对用户阅读习惯的研究发现许多用户比较喜欢如百度式的自然排列方式,因而目前一些专业数据库也改变以往的数据排列方式,选择自然排列方式。调查发现,不同类型的用户习惯的排列方式不一样,两类排列各自都有用户选择,甚至同一类用户在不同的检索目的下也会采用不同的排列方式进行阅读。信息平台为用户提供了较大的选择空间,检索结果可按列表和自然排列两种方式,用户可根据习惯或需要自行选择。列表方式方便用户阅读大量文献时使用,自然排列方式符合用户自然的阅读习惯。

2.5.4 本馆馆藏满足快速获取原文

信息平台采用元数据仓储技术,大大保证的平台的查全率,因而用户检索到的文献会存大许多不能直接下载的情况,此时可以通过共建单位传递、云传递或代查代借三种方式获取原文。然而通过用户调研发现,许多用户检索到文献时希望立刻能够获取原文。信息平台提供本馆馆藏功能,此功能将用户检索结果中可以直接下载的文献聚类,此聚类中所有文献均可直接下载,无需通过原文延迟获取,满足对获取原文具有较高时效性要求的用户的需求。

3 信息平台服务模式研究

信息平台保留了传统的信息服务内容,包括期刊论文、学位论文、会议论文、标准、专利等文献的原文下载、原文传递、代查代检服务,这是科技信息共享服务平台的基础支撑,必须要充分保证。在此基础上,信息平台也探索了新的信息服务内容,包括产业专题服务、区域特色服务、专业化服务。

3.1 产业专题服务

信息平台根据地方重点产业,追踪产业的最新研究热点,并分类整理入库,方便用户直观了解产业最新研究热点。通过对信息平台各类用户调查发现,越来越多的用户不仅仅满足于信息平台提供的简单检索、下载原文功能,为其提供专题服务是信息服务机构要努力的方向。目前信息平台已建立的产业专题是湖北省千亿产业,包括汽车、食品、机械、电子信息、钢铁、石化、纺织、建材。主要对各个产业的最新研究文献进行了收录,方便用户跟踪产业的研究方向。

3.2 区域协调化服务

为促进全省科技信息全面发展,省信息平台采用二级服务站模式进行推广服务,即提供全省17个地市州的二级服务站窗口,聚焦各地市州的区域动态,这样为全省科技信息共享打下良好基础。采用二级服务站模式进行服务是符合湖北省省情的,目前以武汉市为首,以宜昌、恩施、荆州为代表的地市州服务推广效果都比较显著,信息服务是一个循序渐进的过程,今后在服务推广上应该探讨更加合理、更加专业的服务推广模式,例如在二级服务站模式的基础之上,以高企、孵化器、大型企业、中小企业、科研机构、政府机关等多个角度,各有侧重地推广,使信息平台能够真正深入到省内各个企业的各个科研人员中去。

3.3 专业化服务

作为省级专业的信息服务平台,湖北省科技信息共享服务平台不仅提供基础性的科技文献信息,同时还提供专业化的定制服务。包括行业研究报告、定制报告、委托检索、科技查新及知识产权服务、科技决策咨询、科技评估等深度服务内容。如行业研究报告包括市场分析报告、技术研究报告、政策环境报告、综合分析报告等内容,满足企业、科研机构、政府部门的管理决策者、技术人员等各类情报需求。定制报告则根据企业用户提出的具体定制需求,利用专门工具,可为企业定制关于行业竞争对手、企业自身状况、特定技术领域、单项技术等的专题分析报告,专题推送。

3.4 个性化推荐服务

信息平台具有合理的后台管理系统,将用户分类明确,包括大型企业、中小企业、科研机构、政府部门等不同类用户。大型企业一般都具备自己的情报部门,因而信息平台可为大型企业提供战略研究、竞争情报、科技查新、科技评估与咨询、知识产权等方面的服务,从而为企业发展提供战略性决策指导。针对中小企业,信息平台不仅为其提供期刊、学位论文、会议论文、专利、标准、政策法规等传统类文献,而且为其提供行业信息,并为其量身打造了行业研究报告数据库,解决了中小企业因资金、人才、资源等所限而无法自己获取情报信息的困境。面向科研院所,信息平台可为其提供知识产权相关的信息服务、培训、咨询等内容。针对政府机关,信息平台可为其提供全局性、深层次、科学化,比较宏观的统计数据与研究报告,方便用户宏观把握其所关注的内容。

总之,针对不同用户提供个性化的服务,要基于用户分类、用户行为研究的基础之上,根据用户的行为轨迹分析其所关注的内容,定期为其推送信息服务内容。

4 信息平台服务发展方向

信息平台采用元数据仓储技术,实现统一跨库检索,具有多种个性化的功能,然而要适应新的服务模式还需要进一步完善。首先是个性化推荐实现智能化,目前的个性化推荐还基于人工分析用户行为轨迹,今后应该建立一种高级智能平台,基于少量数据挖掘技术,由系统智能完成对用户的个性化决策支持和信息服务。其次是实现移动终端随时随地获取文献,如今用户更倾向于使用移动终端学习与工作,开发信息平台移动终端是迫在眉睫的,然而如何开发简单适用、符合用户习惯、满足个性化推送、方便进行用户管理等也是下一步必须探讨的。第三,实现更加专业化的产业追踪功能,建立产业专题是一项任务艰巨的课题,目前信息平台已进行了初步的探索,今后还应深入完善产业专题内容,例如建立更多的产业专题库,根据地方特色打造不同区域的行业专题,为各个专题建立更加科学合理的子类目等。

参考文献

1 陈甜远.大数据时代的高校信息管理中心对策[J].网络地带,2013(8)

2 陈豫等.大数据影响科技信息工作未来的大背景[N].中国航空报,2012 -12-18

3 覃凤兰.个性化服务高校图书馆服务的新举措[J].情报杂志,2005(7)

4 丁梅.大数据时代云平台与大容量存储——以湖北省科技信息共享服务平台部署为例[J].软件导刊,2014(5)

5 夏浩,李瑞雪.如何基于无数据仓储技术构建数字图书馆统一检索平台[J].科技创新导报,2014(14)

第7篇

关键词:大数据;科研管理;数据处理

一、大数据技术引入高校科研管理中的优势

大数据技术是现代多种信息技术的有效结合,具有相当的优越性。从科研管理的角度来看,大数据技术通过针对科研管理系统、财务系统、人事系统以及基于互联网的大型科技文献数据库、专利库等数据资源的关联分析,找出数据的相关性,提取有价值的信息,可以为传统专家定性决策管理提供广泛、科学的理论依据。由于这些知识大 多直接来源于数据库内部,因此它较少受外部资源的限制和影响,具有相对的独立性,对于科研决策的指导意义也较为重大。

二、大数据环境下的高校科研管理信息化的应用探索

(一) 为高校科研评估提供数据支持

随着高校信息化的推进以及大型科技文献、专利、论文数据库系统等在科学研究领域的普及,全球范围内的科技数据信息量急剧增加。面对这些庞大、繁杂的原始数据,需要快捷、有效的技术手段进行筛选,并从中获得有价值的知识。

传统的数据分析和统计方法,由于受到人力,物力及财力的限制,原始数据背后隐藏的深层次知识无法得以有效采集、分析和使用。

而大数据技术可以综合内部、外部以及网络数据资料:从学校科研管理部门获得研究项目的类别和数量;从内部数据库得到人员、经费、设备等信息;从网络数据库中获得论文、专利的数量和质量信息;结合往年项目成果报表中获奖、专利成果转让情况,最终综合集成各类数据。通过建立综合数据评估模型将各类指标进行整合,为科研评估的专家提供数据支持,最终得出科学、合理的评估结果。

(二)提升项目立项决策的科学性

从筛选项目角度看,可以利用大数据技术,对项目的研究领域、预期成果,通过与外部文献库进行结合分析的方法检验课题的科学性、创新性,判断得出该项目立项的必要性;从筛选申请者角度看,可以将申请者所涉及的各项因素进行多数据的联合查询和分析,发现并建立科学的指标体系和筛选方法,最终得到候选人名单,从而达到提升项目立项决策的科学性的目的。

( 三) 为教师科研活动提供深层次服务

以科研人员欲向某单位进行项目申请为例。以往,科研人员只能够通过自身了解或者往年申报情况对对方单位的需求进行分析,由于个人收集的信息不够全面、不够准确以及信息传递的滞后性等问题,容易出现研究目标偏离实际需求的问题,申报结果往往不够理想。而随着大数据技术的普及,通过对大型数据仓库进行有效的挖掘,可以对相关单位所关注的关键技术、重点领域和发展方向进行分析和预测。通过建立模型、 数据可视化和生成文本报告等形式向科研人员提供可参考信息,了解各种影响之间的内在联系,指导科研人员开展研究工作, 达到为科研人员提供深层次服务的目的。

(四)优化科研资源配置

第一,对数据进行采集和筛选,建立不同种类的数据库,例如人员库、 成果库等;第二,建立适合本校的科学发展的评判模型,包括各类科研资源、科研成果的计算参数和规则库;第三,以定量化绩效考核作为基础的资源配置工具和决策支持管理工具,以此通过大数据技术完成对学校科研资源的优化配置。

三、大数据环境下提升高校科研管理信息化水平的方法

(一) 加强数据采集基础建设

高校应当采用先进、稳定的技术确保数据的快速传输与储存,选择合适的综合布线技术和设备,为数据储存提供良好的基础设施。面向未来数据爆炸式的增长,可以考虑采用FTYO模式,该模式的特点是带宽大、速度快、节省成本和能源、减少电磁干扰。数据存储中心的建设应考虑虚拟化和云平台,保证数据传递的速度与准确度。

(二) 加强科研管理团队建设

由于高校科研管理方面的相关数据种类多样且体量庞大,管理人员在平时就应当注意对这些数据的收集、整理工作。收集的数据可以方便管理人员及科研人员进行查询,但是广泛的原始数据往往来源多样、良莠不齐。科研管理人员应当对所获得数据的质量进行评价,评估数据来源是否可靠、数据的收集方法是否科学、数据是否具有时效性等等,然后对数据进行校核,除去冗杂的干扰性的数据,要注意清理或改正误差数据,最后将数据转化为可共享的标准化信息。科研管理人员应当利用大数据技术深度挖掘原始数据背后具有启示意义的信息,为管理层今后做出科学合理的决策提供依据。

(三) 改变科研管理理念

在大数据环境下,传统的科研管理理念无法保证高校科研事业的健康发展, 因此需要我们有所改变。 首先, 在大数据趋势下,信息挖掘要前倾,要从数据中来分析社会、国家的需求,使得科研目标更有价值、更有针对性。其次,在大数据趋势下,服务要前移,不能像过去那样等着科研人员来要数据、 要结果。 而是应该充分利用数据并且对数据进行分析、挖掘,掌握科研人员可能需要哪些数据或者结论,把服务工作前移。

(四) 推进数据的共享及利用

在大数据环境下,科研数据量激增,科学研究越来越依赖于系统的、高可信度的基础科学数据分析。当前全球科技活动不断增强,一系列重大科学工程的兴起、复杂科学问题的提出、大型科学研究计划的产生,导致前所未有的国际合作局面的产生,也导致了全球范围内对科技资源交流、互通的客观需求。因此,科研管理人员应针对大数据技术体量大、数据来源丰富、数据更新速度快等特点,积极推进科研数据的共享、利用工作,以达到提升科研管理的水平。

结束语

高校科研管理工作的质量水平决定着高校科研工作是否能够有效、顺利地开展。随着信息化技术的飞速发展,相应地推动了大数据技术的拓展。人类通过使用大数据的交换、整合和分析这一过程,从而发现新的知识,实现新的管理、创造出新的价值。高校科研管理是信息化应用的前沿领域,应当具有可能依托大数据技术提升管理与决策的水平。

参考文献:

第8篇

关键词:大数据时代 数字图书馆 机遇与挑战

中图分类号:G25 文献标识码:A 文章编号:1672-3791(2016)10(b)-0150-02

在科学技术的影响下,学术资源建设速度越来越快。例如:中国最大的学术资源建设商――中国知网,已经从期刊论文向国内外期刊论文发展,在图书资源收藏方面收集了大量资源,可以给行业机构、学术等提供大量文献。在此种发展形式下,数字图书馆承受了较大压力,如何在未来发展中更好生存,已经成为人员研究的主要问题,必须及时对其进行分析。

1 国内外研究与启示

1.1 国内外相关论述对我国的影响

随着大数据时代的到来,人们对数据的需求量不断增大。目前国外相关研究已经从理念、技术和数据等方面进行了很多研究。美国加州大学伯克利分校图书馆的Huwe在《构建数字D书馆》一书中明确指出,大数据与数字化图书馆的发展方向吻合,可以借助数字图书馆进行信息采集和收集,进而挖掘用户行为,帮助人们了解阅读行为与信息的联系。Borgman等人将嵌入式技术成功安装于数字图书馆系统中,增加了数字图书馆功能,可以实现图书分类、收集处理和关联等各项操作,促进了数字图书馆与网络技术的融合,发挥了大数据的作用。

国内研究人员曾建勋曾在《数字图书馆论坛》中明确指出,大数据时代将数据数字图书馆数据管理、收集等服务的深层次发展,对数字图书馆人员提出了较高要求。另外武汉大学生陈传夫等也从理念、发展知识和财政投入机制等,分析了图书馆素质等问题,并提出了相关应对措施。

从上述研究均可看出大数据对数字图书馆带来的发展机遇和挑战,促进了数字图书馆和大数据的融合。为了促进高校图书馆和我国公共图书馆在大数据时代的发展,发挥数字图书馆在人们的生活或科学研究中的作用,必须深入思考,及时转变观念,提高数字图书馆的竞争力。

1.2 启示与思考

从当前的发展状况来看,学术资源建设商已经在大数据时代取得了很大进展,不仅包含网络资源与期刊,还涉及各种文献资源,可以查找作者、文献关系与学者等关系,给数字图书馆的发展带来了很大压力。所以图书馆相关人员必须提高思想认识,将资源建设商带来的威胁作为新的机遇。在实际工作中,必须积极吸取图书馆建设资源,扩展图书馆资源范畴,进行各种资源的有机结合,同时还要充分发挥资源价值,促使各种资源的整合,深入挖掘数据规律,认真分析数据规律,发现数据潜在价值。从服务角度上分析,图书馆还要向众多资源建设商学习,从用户角度探索问题,给用户提供人性化服务,满足用户对资源的需求。

经过分析发现,大数据时代,必须要改变传统的思维模式,形成适合数字图书馆发展的模式,适应大数据时代的发展,充分利用大数据促进数字图书馆的发展,让数字图书馆在人们的生活、学习和工作中发挥更大作用。

2 浅析数字图书馆的大数据思维

数字图书馆的大数据思维主要表示从大数据角度思考并分析数字图书馆发展中存在的问题,实现数字图书馆和大数据时代的有机融合,增加数字图书馆产品种类,提高数字图书馆服务水平。

2.1 建设数字图书馆资源

第一,扩大数字图书馆资源范围。资源是数字图书馆发展的基础,也是提高数字图书馆服务质量的主要方法。在长期发展中,图书馆非常重视资源建设,主要是图书、期刊及学位论文等资源。为了在大数据时代下发展,必须创新思维,引入一些数据库资源或一些社会热点信息等内容,以用户的搜索习惯作为数字图书采集参考,深入挖掘各种数据之间的联系,实现可再生资源的生产、收集和储存,扩大数字图书资源范围。第二,提高数字图书馆资源整合度。大数据时代的主要特点是数据类型较复杂,单纯的文本信息已经不能被大数据时展用户吸取,可以实现资源整合向综合信息服务转变。为了满足不同用户的需求,还可以实现文献和政府等信息的整合,扩大社会资源和数字图书馆的联系,将公众最关注的问题引入到社会资源整合中。第三,加强数字图书馆资源加工深度。在大数据时代,虽然数字图书馆结构信息具有较强的表现形式,但主要体现在资源库内部。在大数据时代下,必须及时扩展数字资源和外界的联系,构建全社会数字图书馆资源架构。同时进行图书馆资源深度加工时,必须从知识结构向知识建构加工方向发展。例如:从图书馆文献资源中分析知识结构,利用知识单位和文献建立知识建构,形成新知识。

2.2 灵活应用数字图书馆技术

大数据时代,数字图书馆技术已经开始从处理局部数据向更广的区域发展。从图书馆技术体系分析主要进行信息处理、组织架构、分析预测、服务技术等操作。

第一,应用语义技术。大数据环境中可以采用语义实现复杂数据的联系。当前数字图书面临的主要问题是将语义加入数字文献信息中。所以必须将本体技术、人工智能等先进技术应用到实际工作中,让数据间形成语义关系,促进收录资源和知识挖掘等各项操作。目前语义技术已经广泛应用到图书领域中,如:汉语主题词表、图书分类法等均是依靠语义发展起来的。知识相互间的语义关系,不仅可以帮助用户及时获取知识,还可以获得有用知识途径。第二, 数据聚类技术。数据聚类是实现信息相互聚集的过程。在繁杂的数据中,只有灵活应用聚类技术,才能发挥信息服务、处理等各种功能。在大数据背景下,利用数据聚类可将不同数据划分成相互联系、主体相近的小数据,给用户信息检索、选择和分析提供很大方便,给用户个性化服务提供了数据支持。第三,信息分析技术。大数据时代可以充分利用信息分析技术。可以将大数据技术融入到书籍图书馆中,拓展了数据分析工作,给用户提供了高端服务。例如:联机分析技术可给在线用户提供数据支持;定量定性分析技术可以在数字图书馆中得到充分应用。

2.3 数字图书馆的定位

第一,打破传统资源框架束缚。大数据给图书馆提供了较广阔的发展空间,满足了用户对不同信息的需求,在信息采集、收集和服务等方面均发生了变化。数字图书馆进行定位时,必须打破传统资源框架,将数据理念融于到数字图书馆建设中,所以不仅要采用传统的方法进行信息采集,还要进行网络信息自动获取,构建语义关系、数据联系等信息组织框架。

第二,建立全方位服务信息。传统图书馆主要进行文献服务。数字化图书馆服务资源发生了变化,服务形式开始从被动化向主动化发展。一方面向全社会提供服务;另一方面,提供全新资源服务;最后不断扩展服务与传播方式,全面扩展数字图书馆服务。

第三,定位数字图书馆员。大数据时代对图书馆员提出了更高要求,每馆员都要有敏锐的数据分析能力;及时了解学术变化;掌握大数据分析技术;熟练使用各种数据分析工具和软件,准确定位网络资源,促进数字图书馆的发展。

3 结语

大数据时代给数字图书馆带来了挑战,是数字图书馆的一种巨大转型,可以扩展数字图书馆数据资源,提高数字图书馆服务功能;同时,还要不断思考资源框架、技术应用模式和服务功能,与广大学术资源建设商共同发展。

参考文献