发布时间:2023-11-11 09:18:19
序言:写作是分享个人见解和探索未知领域的桥梁,我们为您精选了8篇的云计算技术发展现状分析样本,期待这些样本能够为您提供丰富的参考和启发,请尽情阅读。
关键词:云计算;云计算产业;发展研究
中图分类号:F425 文献标志码:A 文章编号:1673-291X(2013)17-0066-04
引言
2008年的世界金融危机给各国经济带来了沉重打击,其影响至今尚未消除。世界各发达国家为了摆脱经济困境,积极致力于发展战略性新兴产业,以寻求新的经济增长点,占领未来全球竞争的制高点。其中,云计算产业同智慧地球、物联网等概念一起迅速成为全球各界的关注焦点。云计算产业的发展能够节约用户数据中心建设费用、计算机软硬件购置费用,大大提高资源的利用效率,促进信息的高度共享,因而,云计算产业被视为信息产业的未来发展方向和革命性变革之一。
目前,中国的云计算产业发展正处于快速成长期,预计在2015年之后将进入成熟期,云计算模式将会被广大用户接受[1],未来市场非常广阔。中国各级政府、电信基础运营商和云计算应用开发商纷纷向云计算产业进军,以便在新一轮技术发展浪潮中抓住战略机遇,占据国际产业分工制高点。基于此,本文在对云计算、云计算产业相关概念界定的基础上,进行了云计算价值链与服务模式介绍,归纳与总结中国云计算产业发展现状以及主要制约因素,并为中国云计算产业的发展提出相关对策与建议。
一、云计算与云计算产业相关概念
(一)云计算的定义
尽管云计算概念进入人们的视野已经有一段时间,不少国际IT企业如IBM、Google、Amazon等也纷纷从各种角度诠释云计算。但云计算至今尚未出现确切的定义。
维基百科(Wikipedia)认为,云计算是一种基于互联网的计算新方式,通过互联网上的异构、自治的服务为个人和企业用户提供按需即取的计算。中国赛迪顾问认为,云计算是一种IT资源的交付和使用模式,通过网络以按需、易扩展的方式获得所需的资源(硬件、平台、软件及服务等),提供资源的网络被称为“云”。“云”中的资源在使用者眼中是随时可以获取、按需使用,随时可以扩展、按使用付费的。
综合上述观点本文认为云计算是一种信息技术资源的交付和使用模式,计算机软硬件与数据处理等功能可以作为一种商品在网络上进行流通,用户可以通过网络获得所需的相应资源;同时云计算也是一种新型的服务模式,云服务提供商将资源进行整合,为用户提供按需的服务形式。
(二)云计算产业
业界专家对云计算产业的概念也没有一个统一的认识。现有研究只是形成了对云计算产业的产生路径、基本特征和范围形成了一些基本看法。
关于云计算产业产生的路径,祝小云(2011)认为,云计算产业由传统的IT产业、通信产业、广电传媒和互联网产业相互融合产生[2]。云计算产业对传统产业技术和资源实现了整合,因而具有具有资源整合性和垄断行的特征。
笔者认为,云计算产业是传统的计算机产业与互联网产业相结合的产物,以云计算技术为基础,提供云服务,具有强大的汇集整合资源能力,为社会各个部门提供软硬件资源与信息处理能力的知识和技术密集的产业,是信息产业的未来发展方向。
二、云计算产业价值链条与服务模式
(一)云计算产业的价值链
一般认为,云计算产业价值链条主要包括以下几个基本环节:运设施提供商、云平台提供商、云应用开发商、云服务运营商以及云系统集成商云计算产业价值链如图(见图1)。由此可以出云计算产业价值链涵盖了诸多传统IT产业,包括从芯片、服务器、PC、网络设备、存储等硬件设备,到平台软件、中间件、应用软件、信息安全厂商,到IT服务运营和外包服务商,再到电信运营商,最后面向政府、企业、个人用户。
(二)云计算产业服务模式
根据目前国内外云计算发展实践,云计算产业大致可以划分为三种服务模式,即IaaS模式、PaaS模式以及SaaS模式。其中:
1.IaaS(Infrastructure-as-a-Service:基础设施服务模式。该模式主要为用户提供基础性的计算资源和存储资源,用户可以通过Internet获得相对完善的计算机基础设施服务,其典型代表产品是亚马逊的AWS(Elastic Compute Cloud)。
2.PaaS(P1atform-as-a-Service):平台服务模式。该模式主要是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。软件开发者可以在这个基础架构之上建设新的应用,或者扩展已有的应用,同时却不必购买开发、质量控制或生产服务器。其典型代表产品有的、Google的App Engine和微软的Azure(微软云计算平台)。
3.SaaS(Software-as-a-Service):软件服务模式。该模式面向用户提供简单的软件应用服务以及用户交互接口等,如同一种软件分布模式,是最成熟的云计算模式。其典型产品有、NetSuite、Google的Gmail和等。
三种云计算产业服务模式由低到高构成了一个完整体系,从不同层次上为用户提供资源服务(见图2)。
尽管PaaS、IaaS和SaaS模式提供的服务内容不尽相同,但是其核心经济目的是一致的:都是采用外包的方式,减轻企业负担,降低管理、维护服务器硬件、网络硬件、基础架构软件和/或应用软件的人力成本。从更高的层次上看,它们都试图去解决同一个商业问题——用尽可能少甚至是零的资本支出,获得功能、扩展能力、服务和商业价值。当某种云计算的模式获得了成功,这三者之间的界限就会进一步模糊,成功的SaaS或IaaS服务可以很容易地延伸到平台领域[3]。
三、中国云计算产业发展现状
(一)云计算产业市场规模增长迅速
中国云计算产业市场规模呈现快速增长态势。计世资讯提供了一种包含搜索引擎与网络游戏的口径较宽的统计数据,认为2009 年云计算应用的市场规模已达403.5 亿元,比2008 年的315.2 亿元增长了28%。另外,根据赛迪顾问的统计结果,2009 年中国云计算市场规模为92.23 亿元,比2008 年增长26.85%。根据赛迪顾问2012年的《中国云计算产业发展白皮书》,初步估计2012年中国云计算产业市场规模为606.78亿元,相对于2009 年中国云计算市场规模92.23 亿元,年复合增长率为87.4%。由此可可见,中国云计算产业正处于市场起飞期,未来发展前景广阔。
(二)云计算服务模式相对单一
云计算服务分为硬件层的基础架构云(IaaS)、平台云(PasS)和软件应用云(SaaS)三个层次,从长期来看,在云计算的产值中应该呈现均衡发展的格局。但是,中国目前云计算产业服务模式比较单一,大多数的云计算服务主要以PasS和SaaS的形式提供给用户,在IaaS层则主要依赖于技术实力强劲的IBM、谷歌等国际公司。计世资讯的研究提供了云计算应用的细分市场结构,其中,以软件即服务(SaaS)为代表的云应用服务所占市场比例最大,是目前云计算服务的主要方式。2009 年,SaaS 在云计算服务中所占比例为87.8%,平台即服务(PaaS)所占比例为11.8%,基础设施即服务(IaaS)所占比例为0.4% [4]。这表明,中国云计算基础设施与基础服务领域非常薄弱,对国外企业的过度依赖很有可能在未来的国际竞争中受制于人。
(三)云计算产业布局缺乏统一考虑
尽管云计算服务在中国尚未真正全面普及,但是国内地方政府对云计算产业表现出了高度的热情。各地纷纷建立云计算中心,投入相当高,动辄是几千万或者是上亿元;初步统计,中国正有超过20个城市将云计算作为重点发展产业,例如北京、上海、江苏、广东等很多省市都结合自身特色,推出了各自的云计算发展战略。这种一哄而上的云计算产业发展局面已经严重偏离了云计算的本质。我们真的需要这么多云计算中心吗?这些云计算中心真的能够高效地为我们提供服务吗?大多数的云计算中心建设项目不但未能对已经过剩的计算资源进行整合和高效利用,反而演化成为重复建设、重复投资,从而造成更大规模的IT资源浪费。
因此,必须坚持“以市场需求为导向”的原则来发展云计算产业,需要从国家层面上统筹协调、统一考虑,参考各地实际需求来布局,避免重复建设,造成资源浪费。
(四)公有云难以“落地”
公有云是云计算服务的一种形式,在美国和世界很多地区已经大范围普及,对政府、企业和个人用户提供了极大的帮助。然而公有云在中国一直难以“落地”,究其原因:一方面是客户接受程度。根据埃森哲公司对100 多位IT 高级管理人员所做的问卷调查结果显示,中国企业已开始探索使用云计算,但在态度方面依然谨慎,目前更倾向于创建私有云,而不是使用公有云服务,只有不到20%的受访企业在使用公有云服务,构建和运行私有云平台的比例要更高,愿意把核心应用委托给云服务商的用户极少[4]。另一方面,则是发展环境不成熟。机房基础设施、网络环境以及政策管制等都是公有云发展的绊脚石,国际上成熟的云服务比如亚马逊AWS,微软Azure和Rackspace等移植到中国困难重重;国内土生土长的阿里云和盛大云等,不仅面临政策上的限制,也面临很多基础设施方面的问题。
四、制约中国云计算产业发展的关键问题
(一)安全问题
安全问题是影响云计算产业能否发展壮大的关键问题,也是云计算服务用户所关注的首要问题。云计算安全问题包括两个方面:一方面是客户层面的数据安全问题。这些问题表现为计算系统问题造成的数据丢失、黑客攻击隐私泄密,以及竞争对手通过非法手段窃取商业秘密等。另一方面是国家方面的数据安全问题。公有云计算环境下可能导致有关国家经济、军事、政府部门的敏感数据以及科研成果失窃,从而威胁到国家的经济和社会安全。云计算中的数据对于数据所有者以外的其他云计算用户是保密的,但是对于提供云计算的商业机构而言确实毫无秘密可言。面对这些潜在危险,商业机构和政府机构选择云计算服务、特别是国外机构提供的云计算服务时,考虑到安全问题不得不放弃云计算服务。
(二)标准问题
标准问题是云计算产业发展中的又一个关键问题。这个问题首先表现在国际统一标准的缺位。虽然目前云计算在国际上已成为标准化工作热点之一,但多个标准化组织互有交叉和重复,云计算标准还处于草案规划阶段,国际上还没有形成统一的云计算标准体系。另一方面表现为在国内云计算的标准工作刚刚启动,还处于起步阶段,与国际相比较严重滞后,在标准竞争中处于不利地位。总体来说,云计算服务标准的缺失在很大程度上制约着产业的健康发展,只有通过一致的标准才能使得云计算的应用更加广泛。
(三)人才问题
中国云计算产业的发展中的人才问题突出表现为:一是软硬件人才在数量上供不应求;二是质量结构不合理,缺乏多层次、复合型、交叉型、国际化的综合人才。 其主要原因在于:首先是人才培养模式问题。目前中国的应试教育体制使得大学生们缺乏创新的基本思维方式,创新型人才极度匮乏。其次是人才竞争问题。对于关键核心技术人才,国际大公司有较大的竞争优势和吸引力,优秀的毕业生首选外企工作,进一步加剧了中国云计算企业人才短缺困境。
(四)网络带宽问题
云计算是基于互联网络的应用,网络的是否流畅直接决定了云计算服务的质量。足够高的、可靠的、低成本的、容易获取的带宽资源,是云计算产业发展的前提和基础。和国际上美国、日本、韩国等发达国家水平相比较中国互联网带宽差距较大,根据DCCI互联网数据中心《中国宽带用户调查》报告,“网民使用的实际宽带下载速率,低于运营商提供的名义宽带速率,超半数用户上网平均速度达不到标定速度”,“使用4M宽带的用户中,平均速度在400KB/s以下的占91.2%;使用2M宽带平均速度在200KB/s以下的占83.5%;使用1M宽带在100KB/s以下的则占67.6%”。云计算环境下,数据交互大幅度增多,互联网流量呈几何式增长,会给本来就发展滞后的互联网进一步增加服务中断、网络延迟等问题,从而严重制约云计算产业的发展。
(五)资金问题
云计算产业属于高风险、高收益的高技术产业,传统的融资渠道难以满足云计算企业的资金需求,必须依靠风险资本的运作来推动云计算产业的发展。可事实上,中国目前扶持高技术企业技术转化的环境还不成熟。在美国,一项创新技术很容易获得风险投资顺利地实现商业化;但是在中国,同样的技术却难以获得风险投资。资金问题也将会严重制约中国云计算产业的发展。
五、结论与建议
(一)研究结论
本文在对云计算产业相关概念界定以及云计算产业价值链和服务模式分析的基础上,归纳总结了中国云计算产业的发展现状,认为中国云计算产业市场规模发展迅速,但是存在服务模式单一、布局相对缺乏统筹考虑、公有云客户发展滞后等问题,而安全问题、标准问题、人才问题、网络带宽问题以及资金问题是制约中国云计算产业的关键因素。
(二)对策建议
1.关于政府层面的对策建议。首先,政府要积极制定云计算产业发展政策,构建宽松的发展环境。例如制定相对宽松的政策和标准,细化云安全、云可靠性和市场准入机制。 其次,提高中国网络基础设施的质量,尤其要提高中国宽带网络的速度和可用性,做好最基本的云计算产业发展保障工作。再次,政策引导与市场化运作相结合,推动中国云计算产业发展。例如重点扶持一批具有国际竞争力的企业以及云计算产业的相关项目;政府率先应用云服务,支持诸如“政务云”、“公共服务云”的建设,起到行业表率和带动作用。 最后,做好国际对接工作,构建宽松的云计算产业发展国际环境。例如,政府积极参与国际上云计算相关产业政策和标准的起草,确保中国具有与国际接轨的相关政策与标准;鼓励中国企业和国际领先企业交流、合作,吸取国际云计算应用和服务的成功经验,避免中国企业在发展道路上走弯路。
2.关于企业层面的对策建议。首先,云计算企业要致力于云计算理念普及,提高用户云计算接受程度。云计算企业可以借助于各种技术论坛、产业峰会、高峰对话等活动,向潜在客户展示先进技术理念,可靠、安全、高效的解决方案,不断扩大企业在中国云计算应用领域的影响力,培育潜在市场。其次,中国云计算产业要形成云计算产业战略联盟,壮大中国云计算产业实力。云计算产业企业可通过行业协会、产业联盟等形式,解决行业发展的共性问题,例如,为云计算产业发展提供策略、规划及政策建议,积极维护联盟的合法权益,引领行业自律发展等。最后,积极开展云计算国际合作与交流,吸收借鉴国外的优秀经验。中国云计算产业还在发展初期,成功的云计算应用案例还不多,经验与技术的等方面都不成熟。可以借鉴国外政府、交通、教育、物流、制造、流通等各个行业的云计算成功应用案例,为中国云计算产业的发展提供指导。
参考文献:
[1] 房秉毅,张云勇,程莹,等.云计算国内外发展现状分析[J].电信科学,2010,(8A):1-5.
[2] 祝小云.从云计算产业链探讨中国云计算商业模式[J].经济视角,2011,(9):61-64.
关键词:云平台;数据挖掘;数字图书馆
中图分类号:G250.72 文献标识码:A 文章编号:1008-0821(2012)07-0046-04
信息技术的快速发展和图书馆服务模式的转变为以云计算为主的前沿技术在图书馆中的广泛应用拓展了空间。以云计算为平台的数据挖掘技术适应了用户多样化、迅捷化的需求,有利于用户在图书馆的海量数据信息中更快、更准确地发现所需信息。近年来,国内外诸多学者对数据挖掘技术及其发展趋势进行了研究,普遍认为在图书馆中采用数据挖掘技术,有助于数字图书馆的自动化建设,提升服务质量。数字图书馆要适应用户特定需求,向用户及时、准确地提供所需信息,必须动态地组织和呈现与用户当前信息需求相关的信息内容,而数据挖掘可以实现这一功能。基于云平台的数据挖掘技术是数字图书馆信息资源整合的最佳方法,也是目前世界各国图书馆潜在数据技术挖掘的技术发展趋势。
1、相关理论综述
1.1 云计算概述
云计算是指基于互联网的一种新型的计算模式,即把存储于个人电脑、移动电话和其它设备上的大量信息和处理器资源集中在一起,把信息资源、数据作为服务通过互联网提供给用户。云计算是一种新兴的共享基础架构管理方法,能够把大量的、高度虚拟化的资源管理起来,形成巨大的系统池,统一提供各种IT服务。云计算依靠B/S架构,把计算压力从客户端转移到服务器端,由技术提供商进行远程服务支持,是分布式处理、并行处理和网格计算的新发展。其资源和计算都在异地的设备中完成,而自己的终端设备只需要一个显示设备和操作设备。云计算主要运用虚拟机(虚拟服务器)聚合形成同质服务,强调在某个机构内部的分布式计算资源的共享。
图书馆云计算服务是以虚拟化技术为基础的,为用户提供最大限度的信息数据资源。云计算技术能实现海量数据的存储、分析、处理、挖掘,提供高可靠性、高性能的数据挖掘分析,主要是基于数据挖掘平台PDMiner(ParallelDistributed Miner),实现了对大数据集的处理、分析,向用户提供高效的服务。云计算在对海量的数据存储、读取基础上进行大量的分析,数据的读操作频率远大于数据的更新频率。
1.2 国内云计算市场发展现状分析
目前,我国已经掀起了发展云计算的热潮。从政府层面看,政府向来是IT服务方面最稳定的市场,面对社会经济发展的形势,政府部门已将云计算与政府的工作紧密结’合,从而成为经济社会发展的重要支撑;从企业层面看,国内很多企业已利用云平台对技术、产品、服务等进行了大胆创新,取得了良好的应用实践效果;从图书馆内部业务层面看,在云计算时代来临之际,考虑到服务方式的转变、信息数据的挖掘及未来数据库的采购等问题,也已经将云计算视为发展的重要保障。有学者认为,当前几乎所有的云服务都可以在图书馆领域得到应用,包括大量的软件服务、云存储服务、平台服务和互联网整合服务等。图书馆充分利用云计算技术,推进现代化建设和信息服务进程,进一步提升自身的信息资源建设与信息服务提供能力,显然是一种不可回避的选择。目前,图书馆界正在积极探讨如何将云计算和云服务应用到图书馆的资源建设与服务提供中。中国高等教育文献保障系统正在完成CALIS数字图书馆云服务平台,构建大型的分布式公共数字图书馆服务网络,力图将分布在互联网中各个图书馆的资源和服务整合成为一个整体,形成一个可控的自适应的新型服务体系。这一系统架构是以SOA规范为基础。以OSGi标准对各个服务进行统一封装,为服务提供者提供统一的服务功能,为消费者和提供者之间提供统一的通信方式。为实现来自不同服务平台、系统的服务整合,CALIS整个云服务平台提供了统一开放API,统一的API托管以及统一的认证服务。CALIS及其成员馆提供了灵活的部署和应用方式,既能满足CALJS构建公有云服务中心的需要,也能满足图书馆构建私有服务云的需要,还能实现对这两类服务云的整合。到目前为止,CALIS云服务平台的基本框架已经完成。国外较有代表性的云服务应用先例主要有美国国会图书馆与DuraSpace公司共同启动的Dur-aCloud项目。可以说,云计算对图书馆而言并不显得虚无缥缈,只有抓住这一大好机遇,明确自己在云计算环境中的发展定位,完善网络服务设施,提高公共服务的水平,才能进一步提升自身的社会价值与地位。
1.3 数据挖掘技术相关理论
数据挖掘(Dam Mhhg)技术是一种新兴的信息处理技术,源于20世纪90年代中期,作为知识发现的关键步骤,数据挖掘对于用户从海量数据中提取有用知识具有重要作用,这一新兴技术涉及到多个学科领域,如模糊数学、人工智能、机器学习等。数据挖掘方法也在近年来不断发展,从仿生算法、数据库法(多维数据分析、OLAP等)到目前盛行的领域驱动数据挖掘(DDDM)方法,可以说日新月异。
数据挖掘也称数据库中的知识发现,就是有效地从大量的、不完全的、模糊的、图书馆数据仓库中,提取在隐含在其中的、人们感兴趣的且事先不知道的、潜在的有用信息和知识的过程,并利用各种分析工具在这些海量数据中发现模型和数据间关系,从数据库中的大量业务数据进行抽取、转换、分析,从中提取有用的知识、高层信息或辅助决策的关键性数据。随着图书馆信息化程度的提高,数据量不断积累膨胀,为进一步的数据挖掘提供了丰富的数据信息资源。可以最大限度地满足各类用户的知识信息需求。用户从数据库中提取所需数据,对其进行进一步的集成和合并,利用合适的数据挖掘技术,对相应信息资源进行整合,从而为决策提供更为有效的帮助。
2、数据挖掘技术及在图书馆中的应用
随着图书馆数字化程度的推进,如何运用新技术挖掘潜在的信息资源,为服务读者和科学管理提供可靠的依据,成为图书馆界关注的问题。主动发掘读者需求,提供读者所需信息,是现代图书馆的重要工作任务之一。由于每一种数据挖掘技术方法都有其自身的特点和实现步骤,因此,成功应用数据挖掘技术达到最终目标的过程相当复杂。这一过程是基于约束的、人机结合、往复循环、不断逼近目标、深层次的知识发现过程。其基本处理流程包括:数据收集、数据整理、数据挖掘、知识的获取等,数据挖掘的每个过程不是一次就能完成的,而是一个循环迭代的过程,只有这样才有可能达到预期的效果。
2.1 建立数据仓库
数据挖掘的技术基础之一是数据仓库,而数据仓库技术是源于数据库的技术,它主要的设计思想是将分析决策所需的大量数据从传统的操作环境中分离出来,把分散的,难以访问的操作数据转换成集中的、统一的、随时可用的信息而建立的一种数据库存储环境。人们对数据仓库的定义是面向主题的,集成的,具有时间特征的,稳定的数据集合,用以支持经营管理中的决策制定过程。为什么要建设数据仓库的主要原因在于:数据仓库可以说是决策支持系统,它是在管理信息系统的基础上发展起来的,数据仓库提供的经过整理统计归纳的数据可以给决策者很多信息,并通过数据帮助决策者做出决策。所以建立数据仓库是很重要的事情。
建立图书馆的数据仓库,用以收集信息。在学校图书馆管理系统中,全面实行校园一卡通,这样为直接收集读者的借阅数据提供了便利。下面本人简单说明针对图书馆数据仓库事实表和维表的设计。
在借阅过程中,以学生、书籍、借阅时间三方面定义3个维度来建立维表,然后建立事实表,来收集信息。维表包含的是相应维度的描述信息,这些信息用作查询的约束条件,一般是离散的,描述性的,不具有可加性的。如图1-3所示:根据图书馆数据仓库建立的3个维表:学生维表、图书维表、借阅时间维表。
数据仓库多,一般多采用多维数据模型,这样能更好的完成多维数据分析的需要。多维数据模型普遍采用的一种非常重要的模式就是星形模式,星形模式是由事实表和维表通过星形方式来连接而成,事实表包含的是借阅数据信息,这些信息用于分析型查询。数据取值通常是可度量的。连续型的,且具有可加性,数据量可以达到几百万甚至上亿条记录。事实表中的借阅数据信息可以从多个维度查看,每一个维度对应一张维表。如图4所示:
在数据仓库星形建模的基本工作完成之后,就应该开始进行数据聚集的设计。数据聚集是数据仓库系统的必备内容,它与分析型应用的需求密切相关,且与事实表和维表的设计紧密联系。就工作的时间和内容而言,它是数据仓库多维数据建模的后期工作,是事实表和维表设计工作的延续。
创建数据聚集首先确定数据聚集的内容,步骤如下:
(1)确定在各个维的哪些属性上需要进行数据的聚集,这里以时间维的月份和年份,图书维的图书种类,学生维的专业建立数据聚集。
(2)确定不同维的属性如何进行组合。
数据聚集建立后,由于分析型查询一般都比较复杂,数据仓库的数据量一般有比较大,因此建立索引提高数据仓库中数据的访问速度具有重要意义。所以这里还要建立索引。
明确了数据仓库体系结构的基本方案,完成了数据模型的设计后下面考虑数据预处理问题。对事实表和维表进行一些数据净化等工作。
数据仓库经过以上经过建设后。我们还要对数据仓库进行运行和维护。
2.2 在数据仓库中进行数据挖掘
数据挖掘建立在数据仓库的基础上,前面已经介绍了一些数据仓库的相关知识,它们二者之间有着紧密的联系。数据仓库为数据挖掘提供了数据基础,数据仓库完成了数据的收集、集成、存储、管理等工作,数据挖掘面对的是经过初步加工的数据,使得数据挖掘能更专注于知识的发现;而且由于数据仓库所具有的新的特点,又对数据挖掘技术提出了更高的要求。可以说,数据挖掘技术和数据仓库技术结合起来,能够更充分的发挥数据的威力。
通过利用图书馆的数据仓库,采用数据挖掘中的聚类分析技术为解决图书更新周期问题和合理购买新书的问题提供了技术支持。本文主要应用基于密度聚类的分析方法。
基于密度的聚类方法是以局部数据特征作为聚类的判断标准,类被看做是一个数据区域,在该区域内对象是密集的,对象稀疏的区域将各个类分隔开来。多数基于密度的聚类算法形成的聚类形状也可以是任意的,并且一个类中对象的分布也是可以是任意的。这里主要介绍DBSCAN算法。
DBSCAN算法的主要思想是可以通过其要求的两个输入参数:半径r和对象最小数目MinPt来进行描述,即一个对象在其半径为r的邻域内包含至少NinPts个对象,那么在该区域内的对象是密集的。DKSCAN算法中的类被看做是一个个按一定的规则确定的最大密集区域,被稀疏区域分离开来。没有被包含在任何类中,即存在于稀疏区域中的对象被认为是噪声。
采用DBSCAN算法的聚类过程通过收集直接密度可达的对象来完成。针对聚类对象集中的每一个对象p检查其r邻域内是否至少包含MinPt个对象,也就是确定对象p是否为核心对象。如果p是核心对象,那么就创建一个初始类C,C中包含对象p及从p直接密度可达的所有对象,也就是包含p及其邻域r内所有的对象。然后在确定该邻域中的每一个对象q是否为核心对象。如果是核心对象,那么就将其r邻域内尚未包含在类C中的所有对象追加到C中。并继续确定这些新追加到c中的对象是否为核心对象,如果是,则继续进行上述对象追加过程。这一过程一直持续到没有新的对象可以追加到C中为止。类C也就完全确定下来了。DBSCAN算法的优点是形成的聚类形状可以是任意的。并且不受异常值的影响。
通过数据挖掘技术,我们可以分析出哪些图书已经利用价值不高;估算出每一种图书大概的利用周期等。定期的对图书馆的图书进行更新,旧书入库,新书上架,使得图书资源永远保持最高的利用率。在新书购买问题上,我们通过数据挖掘技术分析内部的历史采购数据,读者数据,数据流通,反馈信息等得出的信息,提炼出哪些书读者最感兴趣;哪些书是图书馆的主流;人们在不同时间都使用哪些书等,我们可以根据这些数据做出相应决策。
3、基于云计算的图书馆数据挖掘平台架构
基于云计算的图书馆数据挖掘平台架构设计如图5所示。自下往上每层都为上层提供服务,模型数据层为云平台提供相应的应用接口,应用表现层提供用户访问界面和开放的应用接口,可以向用户提供共享平台的数据集及相关算法,从而体现出图书馆云平台的数据信息共享性和开放性。
模型数据层是实现基于云图书馆数据挖掘平台中的基本数据结构,把底层异构数据库中的异构数据映射到图书馆平台应用表现层,调动图书馆内存储的各种资源对象,包括资源文件、元信息数据、元数据目录等等。应用数据挖掘技术对采集的评价数据进行挖掘分析,发现隐藏在数据中有用的知识,并将其提取出来供用户借鉴。用户可以根据系统挖掘出的规则,作出相应的决策。根据系统已经采集到的评价数据,可以挖掘出自己需要的信息。
控制算法层是实现基于云图书馆数据挖掘平台中的内部数据处理,在模型数据层的对象层上建立图书馆平台的内部算法集,可分为多个模块实现,每个模块完成一种功能。图书馆云服务平台通过对数据库的管理和部署,提供大规模原始数据、半结构化数据和经过处理的结构化数据,采取一定的挖掘规则(如关联规则、联机分析处理等),利用数据挖掘技术对这些经过处理的数据进行融合分析,有针对性地为用户提供个性化服务,这是数字图书馆的核心部分。个性化服务主要包括:发现新的相关信息或书目数据时,及时告知用户;用户访问时,发现用户的最新需要,提供相应的预测报告、动态分析等。图书馆控制算法层可判断并争取潜在用户,并将其转化为当前用户等等。
应用表现层是实现基于云图书馆数据挖掘平台服务的方法,应用表现层是对模型数据层和控制算法层的操作进行抽象,利用“云图书馆”不同模块的功能,对分布在不同地点的服务器联接起来,进行统一调度管理,虚拟出一个统一的服务器系统,同时可以不断增加新的服务器和节点,或删除不必要的服务器和节点,以实现较高的计算性能,满足和保证不断增长的计算需要。
基于云计算的图书馆数据挖掘平台将会为用户带来如下好处:
(1)用户无需安装任何软、硬件,只需通过网络配置接人系统网址,即可享受新技术带来的便利。
(2)基于云计算体系,服务器集群可提供高可靠性,为用户提供持续服务。
(3)可以有效地对服务器上的服务进行有效监控,第一时间发现问题。通过挖掘异常数据,进行有效报警。
(4)云图书馆能将不同地域的数据、信息资源集成在一起,避免了资源重复,同时形成资源互补,有利于实现数字图书馆的数据信息资源共享。
4、数据挖掘技术应用于“云”图书馆的未来展望
根据以上分析,我们可以发现,应用数据挖掘技术为图书馆的数字资源组织和管理、服务质量提升和方式拓展等方面提供了技术支持。现在,图书馆还处于云计算应用的初级阶段,云计算作为一种新的能体现互联网精神的计算模式,未来必将会产生强大的生命力,最大限度地发挥图书馆的作用。