发布时间:2023-09-08 17:06:08
序言:写作是分享个人见解和探索未知领域的桥梁,我们为您精选了8篇的简述云计算的关键技术样本,期待这些样本能够为您提供丰富的参考和启发,请尽情阅读。
1 引言
自2007年末,Cloud Computing开始频繁出现。2008年初,Cloud Computing开始被翻译为“云计算”。云计算在中国萌发的短短几年中,其概念迅速被发酵,并已上升到国家信息化战略层面,而在各大电信运营商发力备战云计算服务的形势下,云计算各级产业链逐步完善,短短几年云计算就风生水起。
云计算严格意义上讲,并不算是新产品,应称为一种新技术。而云计算的服务对于用户而言,用“有形不累物,无迹去随风“来形容最恰当不过,因为云计算最终是为了将企业级的计算能力和业务处理能力,变成如同电力一样的服务,从而降低公众和企业获取信息服务的成本,并提升应用的便利性。
2 云计算架构
云计算的架构可以分为服务和管理这两大部分,服务部分主要以提供用户基于云的各种服务为主;管理部分则像公司离不开董事会一样,提供核心管理。
2.1 服务部分
服务部分共包含3个层次。其一是软件即服务(SaaS),这层的作用是将应用主要以基于Web的方式提供给客户。其二是平台即服务(PaaS),这层的作用是将一个应用的开发和部署平台作为服务提供给用户。其三是基础设施即服务(IaaS),这层的作用是将各种底层的计算和存储等资源作为服务提供给用户。从用户角度而言,这3层服务是独立,但从技术角度而言,这三层则有一定依赖关系。比如一个SaaS层的产品和服务不仅需要用到SaaS层本身的技术,而且还依赖PaaS层所提供的开发和部署平台或者直接部署于IaaS层所提供的计算资源上,而PaaS层的产品和服务也很有可能构建于IaaS层服务之上。可以通过图1窥其一斑:
2.2 管理部分
虽然和前面云服务的三层相比,熟悉云管理层的人非常少,但是它确实是云最核心的部分,犹如人的首脑一般。与过去的数据中心相比,云最大的优势在于云管理的优越性。云管理分成3层9个模块,分别是用户层:用户管理模块、客户支持模块、服务管理模块、计费管理模块;机制层:运维管理模块、资源管理模块、安全管理模块、容灾管理模块;检测层:监控系统。
3 云计算关键技术
云计算孕育在近年半导体、存储技术、网络技术快速发展基础上,而摩尔定律促使硬件价格以指数级速度下降,加速了大规模部署硬件基础设施。云计算的关键技术,如虚拟技术、数据存储技术、并行计算、分布式计算等也经过长期发展与完善,逐步具备规模化商用条件。并行计算夯实了云计算松、紧耦合相结合的技术基础;分布式计算通过软件的方式来实现可用性、可靠性和可扩展能力,降低了硬件需求;虚拟化技术则从软件发展到软、硬件配合,效率更高。上述技术的逐步成熟驱动云计算快速发展。
3.1 虚拟技术
虚拟技术即服务器虚拟化,是云计算底层架构的重要基石。在服务器虚拟化中,虚拟化软件需要实现对硬件的抽象,资源的分配、调度和管理,虚拟机与宿主操作系统及多个虚拟机间的隔离等功能,目前典型的实现(基本成为事实标准)有Citrix Xen、VMware ESX Server 和Microsoft Hype—V等。
3.2 数据存储技术
云计算系统需要同时满足大量用户的需求,并行地为大量用户提供服务。因此,云计算的数据存储技术必须具有分布式、高吞吐率和高传输率的特点。目前数据存储技术主要有Google的GFS(Google File System,非开源)以及HDFS(Hadoop Distributed File System,开源),目前这两种技术已经成为事实标准。
3.3 数据管理技术
云计算的特点是对海量的数据存储、读取后进行大量的分析,如何提高数据的更新速率以及进一步提高随机读速率是未来的数据管理技术必须解决的问题。云计算的数据管理技术最著名的是谷歌的BigTable数据管理技术,同时Hadoop开发团队正在开发类似BigTable的开源数据管理模块。
3.4 分布式编程与计算
为了使用户能更轻松的享受云计算带来的服务,让用户能利用该编程模型编写简单的程序来实现特定的目的,云计算上的编程模型必须十分简单。必须保证后台复杂的并行执行和任务调度向用户和编程人员透明。当前各IT厂商提出的“云”计划的编程工具均基于Map—Reduce的编程模型。
4 云计算商业模式
对于电信运营商而言,宽带用户不断增长的内容访问需求对电信网络的出口和传输的压力迅速增加,构建内容中心已经成为业内的普遍共识。相较于传统内容中心服务器,云服务器可以降低硬件维护和整体的运维成本;可根据不同服务器应用的不同,分配不同配置的云服务器指标。做到物理资源合理分配,提高利用率;物理服务器与现网络中的各个区域实现物理连接,可以在宿主机内分配不同区域的云服务器;可方便对云服务器文件进行备份,云服务器出现故障时迁移也很方便,故障几分钟即快速恢复;低能耗,绿色环保,单物理服务器上运行多个云服务器,降低了物理服务器的使用数量,服务器能耗降低、制冷能耗降低,既绿色环保,又符合当前提倡的低碳经济。
基于上述的优势,构建基于云计算的内容中心将成为云计算的重要应用模式。关于云计算,虽然人们谈论最多的莫过于以Amazon EC2和Google App Engine为代表的公有云,但是对许多大中型企业而言,因为很多限制和条款,它们在短时间内很难大规模地采用公有云技术,可是它们也期盼云所带来的便利,所以引出了私有云这一云计算模式。私有云主要为企业内部提供云服务,不对公众开放,在企业的防火墙内工作,并且企业IT人员能对其数据、安全性和服务质量进行有效地控制。与传统的企业数据中心相比,私有云可以支持动态灵活的基础设施,降低IT架构的复杂度,使各种IT资源得以整合和标准化。在私有云领域,主要有两大联盟:其一是IBM与其合作伙伴,主要推广的解决方案有IBM Blue Cloud和IBM CloudBurst;其二是由VMware、Cisco和EMC组成的VCE联盟,它们主推的是Cisco UCS和vBlock。
电信运营商在构建云计算内容中心时,从其企业管理、安全等方面出发,私有云是必然选择。可以通过购买商业解决方案,如购买Cisco的UCS和IBM的Blue Cloud等方案来一步到位。通过云计算、云存储等技术构建集约化的运营商级综合内容服务平台,通过虚拟机技术建立统一的服务接口,通过业务管理平台实现业务的运营管理,借此大幅缓解电信运营商的互联网出口成本压力,短期内以低成本极大丰富网内内容资源,改善用户服务质量,提高客户满意度。
综合内容服务平台根据用户需求与资源情况,对互联网主要内容应用进行缓存,减少重复内容(流量)对网络出口的占用,平台对外网资源的复制由单一服务节点一次完成,服务节点间的复制时机与数量,要根据内容请求频率、文件大小、存储空间与带宽条件进行综合权衡。缓存内容通过平台对用户进行就近服务,在网络带宽、机房环境等资源条件满足要求的情况下,尽量靠近最终用户,可以采用省公司核心机房作为云虚拟机的节点机房就近部署,提高用户的网络服务体验。在发展基于云计算的内容中心时,还应关注建立健全完整的业务模式,整合存储、计算、网络、用户、渠道、计费、收费资源。通过开放的API,为内容服务商提供统一、标准、便捷的增值业务开发接口,使其可以容易的使用整合后的资源开发业务,其只需考虑内容服务的创意,其他资源由运营商提供的标准API提供,进而提升电信网络的价值和主导地位。
关键词:高校图书馆;云计算;模式架构;云服务平台;图书馆建设
中图分类号:G252 文献标识码:A 文章编号:1009-3044(2017)04-0145-03
The University Library Construction Based on Cloud Computing
XIANG Rong
(Huainan Vocational Technical College, Huainan 232001, China)
Abstract: With the development of big data, the amount of data in University Libraries increase rapidly, there is a serious data redundancy and overload. Thus, the data storage service, management service and data security service of the university library platform are higher. The use of cloud computing technology and data processing capabilities to integrate information resources to build university libraries, will greatly improve the plight of university libraries.
Key words: university library; cloud technology; schema architecture; cloud service platform; library construction
1 引言
在全球信息化和网络化的迅猛发展之下,许多领域都开始拓展新的方向,高校图书馆也不例外,对于高校图书馆基础设施的建设以及工作模式的转换都在发生着巨大的变化,服务理念以及技术手段也在不断更新。但目前我国各大高校图书馆科学数据共享平台却还是自行管理以及独立运行的模式,对于用户而言,每个平台的功能和信息量太过孤立,有时为了寻找所需的信息则需要访问多个资源共享平台,因此传统模式下的高校图书馆科学数据共享模式还有很多需要改进的地方 [1]。尤其在高校图书馆平台的数据存储服务、管理服务以及数据安全方面的要求严重制约着高校图书馆的发展与建设。随着互联网技术的发展――云计算技术的出现,为高校图书馆的建设提供了诸多的便利,基于云计算的云技术具有强大的计算能力与数据处理能力,利用云计算可以很好地解决大数据环境下资源共享平台的各种技术难题,因此建立基于云计算的高校图书馆尤为重要[2]。
2 云计算的概念
云计算最早由IBM公司与2007年的“云计算计划”报告中提出的,此后,许多软件公司都紧随着IBM的脚步投入到云计算这一商业领域,提供商业服务,如微软、Google、雅虎等。云计算技术是应多媒体技术、互联网技术等技术的发展要求而产生的,云计算是分布式处理、并行处理以及网格计算的新发展,或者说是这些计算机科学概念的商业实现[3]。云计算主要是服务的提供方和使用方的形式,用户可以通过“云”按照某种方式得到自己所需要的服务。该技术的核心是把所有连接到网络的各种资源统一运用和处理,形成一个资源管理库,对每个用户提供个性化的服务。
云计算由广义和狭义两种定义。狭义的云是针对基础设施而言,主要指通过网络采取分布式计算和虚拟化技术搭建数据中心模式使用所需的基础设施资源,即基础设施的使用模式。提供资源的网络被称为云。云中的资源规模庞大,“云”能赋予用户前所未有的计算能力,并且可以按使用量付费、任意获取、高通用性、随时扩展。广义的云则是指通过建立网络服务器群,向各种类型的客户提供在线软件服务、硬件租借、数据存储、计算分析等服务,这种服务是和互联网技术、软件技术相关的,也可以是任意其他的服务[4]。
3 云计算的特点
3.1快捷高效性
在云计算的环境下,可以实现互联网资源的互联,用户不需要对终端的各种系统和软件资源进行配置,降低了用户IT专业知识的依赖,其只需要通过客户端发送服务请求,继而访问云端的各种资源,实现资源的方便、快捷、高效地利用,从而可以更好地为用户对各种资源的需求服务。
3.2强大的运算能力
云计算是将分布在各个服务器的资源进行统一调度,这些服务器数量庞大,分布在全球各个地区,为云计算提供了强大的运算处理能力,同时也为云存储提供了强大的后备存储能力。
3.3海量的数据存储
在云计算中,数据存储在云中,用户不必为数据存储空间而烦恼,只需要在使用时发送请求服务即可。同时云计算服务商也提供了安全的存储中心,有着专业人员对用户的数据进行管理。
3.4 高可靠性
云计算由处于各个节点上的分布式服务器通过网络提供服务,每一台服务器可视为一个数据中心,云计算使用的多副本容错、计算节点同构互换等措施可以自动检测并排除失效节点,保证用户的需求得到及时快速地响应。
3.5 按需付费
在云计算环境下,用户只需要通过云端庞大的资源库搜索所需要的服务,按照使用量支付一定的费用,不必花费大量的资金购买软硬件,就像水、电以及煤气一样的方式计费。
4 高校图书馆云服务的可行性
随着互联网技术的发展以及图书馆学科研究的不断深入的情况下,新技术在高校D书馆服务平台中的应用也逐渐加强,从技术、安全以及管理等三方面来看,高校图书馆的云服务是具有可行性的。
4.1技术方面
三类云服务提供商为高校图书馆实现云服务提供了技术方面的可行性,这三类云服务提供商分别为数据库生产商、技术开发商以及系统开发商。数据库生产商在组建云服务器时,可以同步上传各类数字资源,并且在云端进行数据的维护、更新等操作,省去了高校图书馆购买存储设备以及建设数据库的费用。技术开发商提供的服务系统,能够对高校图书馆的各类资源进行计算、存储与处理,并上传至云服务器,这样客户端不用存储任何信息,降低了对用户所持终端设备的要求。系统开发商可以根据高校图书馆云服务的需求,结合图书馆的业务流程,开发与高校图书馆各项功能需求相匹配的软件,并将这些软件上传至云端,以供高校图书馆下载使用[5]。
4.2 安全方面
云计算数据存储方面提供了身份认证、访问控制、加密、安全删除、完整性检测以及数据屏蔽等技术,基于以上方面的安全性技术控制,可以保证用户在使用云计算获取“云”中的各类资源不受到安全方面的威胁。
4.3管理可行性
近年来,高学历高层次的技术人才逐渐加入高校图书馆工作中,他们有着专业的知识和技术,各大高校图书馆陆续设立服务部、技术部、网络部等职能部门来管理有关技术的实施,同时更有国内外先进的管理经验可以借鉴引用。
5 高校图书馆云服务平台架构
基于云计算技术的高校图书馆云服务模式的架构,以图书馆资源和软硬件为基础,充分利用分布式技术、集群技术以及虚拟化技术等技术作为技术支撑,对数据和信息资源的统一调度和分配。高校图书馆的建设包括信息资源、存储空间、计算资源、应用系统以及操作界面等[6]。根据云技术的特点结合当前构建高校图书馆的需求情况,可以将高校图书馆的体系结构自下而上划分为基础设施层、数据层、管理平台层以及应用层等4个层次,如图1所示。
5.1 基础设施层(Iaas)
基础设施层是整个云服务平台体系的基础层,即基础设施即服务(Infrastructure as a service, Iaas),它决定了高校图书馆的服务水平与服务范围。基础设施层对分布节点的硬件资源进行虚拟化(如虚拟主机、存储设备、数据库管理以及网络等资源),使其成为一个配置有安全管理模块的逻辑资源,这类服务可以由第三方服务商提供,也可以由自己的云服务平台提供。基础设施层通过嵌入式云端技术及虚拟化技术,将分布在各个节点上的资源接入到网络中,进行统一调度管理及集中处理,实现各类节点资源的全面互联,从而实现各类资源的共享服务及优化配置,以满足不同用户的各类需求服务。
5.2 数据层(Daas)
数据层利用数据即服务(Data as a service, Daas)来构建和整合文献资源数据,其主要功能是对分布于各节点的图书馆数据资源进行统一调度管理与分配、压缩数据、删除重复数据、及数据的加密与备份等。数据层利用数据库的虚拟化技术及中间件技术等将分布于不同节点的云图书馆元数据进行采集,并定期检测更新表单数据信息,从而保证用户所取的数据的准确性及新颖性。用户首先通过客户端的Web页面发送服务请求,云服务平台接收到用户的服务请求后对用户的请求进行分析、处理,并在高校图书馆平台的节点上检索用户所需的信息,将检索到的信息再进行合理地组织排列,最后应答用户的请求,将满足用户需求的信息反馈给用户。
5.3 管理平台层(Paas)
管理平台层利用平台即服务(Platform as a service, Paas)来构建高校图书馆的云服务平台的应用环境。该平台层是高校图书馆云服务平台的核心部分,其主要负责节点图书馆资源的访问、认证、远程管理、监控管理、并发控制以及服务质量管理等,对云服务中各节点资源负载进行动态平衡,并监控各节点运行情况,当某个节点出现故障,将立即被恢复或暂时过滤。管理平台层也提供开发环境、结构化数据的分布式存储管理系统以及应用云计算的其他系统工具,如高校图书馆云服务平台中资源的部署和分配等。
5.4 应用层(Saas)
应用层利用云计算技术的软件即服务(Software as a service, Saas)来构建高校云图书馆的关系系统、信息检索平台以及其他应用软件。应用层是整个平台的最高层,该层直接面向用户,向用户提供操作简单、美观的应用界面,用户可以根据自己的喜好设置个性化的应用服务软件的外观,用户在这里可以进行注册、登陆与登出等操作。高校图书馆云服务平台以Web形式向用户提供服务界面,并可以应用云计算技术向不同用户提供与服务相对应的链接接口、数字化管理、权限管理、安全性验证等管理服务[6-7]。
6 高校图书馆云服务平台运行流程与管理机制
6.1高校图书馆云服务平台运行流程
高校图书馆云服务平台用户使用该服务平台获得需求的信息资源的过程可以简单概括为以下几个步骤,如图2所示:(1)信息资源描述,高校图书馆云服务平台根据用户的请求指令,准确地进行翻译,使用规范化的描述语言对用户需求信息进行描述;(2)信息资源发现,用户将所需求的信息发送给云服务平台,云服务平台则根据用户的需求进行搜索发现相关信息;(3)信息资源匹配,高校图书馆云服务平台对用户发送的资源请求服务分析处理后,调取各节点资源进行信息的搜索、采集,根据节点平台数据所提供的信息资源寻找与用户需求向相匹配的信息资源;(4)信息资源调度,为了确保用户所需要的信息资源的有效存取和并行存取,高校图书馆平台提供了信息资源调度机制;(5)信息资源,运行在“云”中的节点将所匹配到的信息进行合理地安排调度,及时响应用户的请求服务,将用户所需的信息及时准确地出去。
6.2高校图书馆云服务平台运行管理机制
高校图书馆信息Y源共享体系十分复杂,组织协调困难,必须建立完善的运行管理机制确保其正常运行。(1)科学决策机制,高校图书馆在开展云计算资源信息共享建设前,应对本馆经费来源、业务能力、用户群体及技术力量进行全面分析和评估,广泛开展市场调研,科学确定建设模式、共享资源规模、建设步骤及实现目标等,形成较为完整的方案;(2)利益平衡机制,利益平衡机制是通过调整各信息资源共享体系下的高校图书馆的利益关系,使各馆间的利益分配趋于平衡,并充分发挥和调动各馆参与建设的积极性和源动力;(3)分工协调机制,由于每个高校图书馆所擅长的业务范围不一致,并且各图书馆的技术力量、人才配置、管理经验、服务水平以及基础设施建设也不在同一起点上,要在共享体系下发挥每一个图书馆成员的作用和优势,必须建立科学的分工协调机制;(4)服务评价机制,用户对信息资源服务的评价是高校图书馆信息资源共享建设的唯一标准,因此,在信息资源共享建设的时候必须完善服务评价机制,及时了解用户对云服务平台的意见和建议,以促进云服务平台朝着更好地为用户服务的方向发展[8]。
7 云计算环境下高校图书馆的未来展望
近年来,随着数字技术和网络技术的迅猛发展,图书馆保存的资源不再局限于手写和印刷版本的纸质文献,以数字化形式存在的其他各种载体形式的资源也成为图书馆的重要保存对象。在这种情况下,存储空间、访问速度以及检索结果质量都成为图书馆发展的重要难题,而云计算的出现使得这些难题得以解决。但是云计算的出现虽然解决了当前的难题,随之而来的图书馆云服务平台的信息安全问题也日渐凸显[9]。
针对云服务平台的云端信息存储的信息安全问题,IT工作者们也提出了相应的云数据访问安全策略。云计算访问安全策略主要是指分级访问权限控制,这种权限控制策略依据业务系统分类和人员职责设立,尽量保证用户权限的最小化,做到管理员、用户以及业务等角色相互分离,并尽可能避免将多角色权限分配给同一用户,形成分级访问权限控制列表[7]。
虽然云计算环境的高校图书馆发展中还存在着诸多的问题,但是我们也应看到云计算给高校图书馆平台建设带来的方便、快捷、高效与共享等优势。随着云计算的发展,势必会将高校图书馆的建设带来巨大的变革,推动着高校图书馆向前发展。
参考文献:
[1] 陈明.数据密集型科研第四范式[J].计算机教育,2013(9):103-106.
[2] 孙仙阁.云环境下高校图书馆科学数据集成与共享服务平台研究[J].图书馆学刊,2016(5):133-135.
[3]郭金婷.云计算环境下图书馆云服务模式构建[D].辽宁师范大学,2012.
[4]李兰.基于云计算的图书馆数字参考咨询服务模式研究[D].华中师范大学,2013.
[5]李梅珍.数字图书馆“云服务”模式的构建[J].图书馆学刊,2016(1):91-93.
[6]王佳.云计算技术在数字图书馆的应用及云服务平台的构建策略[J].岭南师范学院学报,2015,3(3):163-166.
[7]崇阳.基于云计算技术的数字图书馆云服务模式架构[J].电脑知识与技术,2015,11(12):3-7.
关键字:云计算;物联网;数据挖掘模式;研究
物联网其实就是指物和物之间相互联系的互联网,随着社会科学技术的不断发展和进步,促进了互联网的快速发展,也让社会经济得到了很好的发展。云计算主要就是指对相关的信息进行虚拟化的计算和存储,对各种信息在互联网上进行规范和整理,这样就能够有效的形成很多个计算中心和数据。
一、基于云计算的物联网
物联网其实就是一个比较大而且分布也非常广泛的物和物的互联网,主要作用就是对生活中的各种事物进行监控,随着物联网的不断发展,现在也接入了很多的应用终端,其中就包括了湖泊、建筑物以及交通设施等。一般来说,云计算物联网数据挖掘就是指通过对云计算来解决物联网数据挖掘存在的问题。首先建立一个能够全面捕捉物联网数据的分布式时空数据库,然后在云计算的平台上,全面的对物联网系统的数据进行挖掘。云计算中的数据挖掘主要就是通过对相关的数据进行分析研究,从而知道通过这种方式进行数据挖掘,物联网进行数据挖掘的相关工作将能够被完美的执行与完成。
二、基于云计算的数据挖掘平台
在工作中,能够提供高可用性和更多的动态资源池的计算机平台,将能够很好的实现云计算的数据挖掘。在对那些可用性比较高的应用程序进行开发的时候就可以选择使用基于云计算的数据挖掘平台,在利用云计算对数据进行挖掘的时候也可以采用基于云计算的数据挖掘平台。一般情况下,可以通过软件分层的理念,对物联网的基于云计算的数据挖掘平台系统进行一定的分层处理。云计算的数据挖掘系统从下而上可以分为算法层、任务层和用户层三层。各层系统的相关工作,都需要相互配合才能够完成。软件中的下层可以向它的上层提供相关的服务内容,而上层在对下层的服务进行调用的时候主要就是通过上层层间的开发接口来完成的,这样就能够有效的保证基于云计算的数据挖掘平台系统当中的各个层之间的功能能够比较的独立。采用这样的一种设计模式主要就是为了在对系统进行二次开发的时候能够比较的方便。
在构建基于云计算数据挖掘模式的时候主要就是通过积极的应用云计算的服务模式,那么在这样的一种情况下建立起来的基于云计算数据挖掘平台它们当中的每一个部分在实际提供服务的过程当中都能够比较独立的去完成。操作人员在使用基于云计算数据挖掘平台的时候主要就是经过互联网来连接数据挖掘平台,在监控使用账户的管理系统时,主要就是在SaaS、PaaS以及DaaS这三个系统当中来完成的。在数据挖掘平台当中的任何环节都是在云计算服务的模式中。在数据挖掘平台当中的账户管理系统主要就是指管理使用者的实际服务情况的一个系统,它对使用者的账户信息有一个比较全面的记录,它主要就是把用户在平台当中使用设备的情况以及服务的情况比较详细的记录下来形成一个账目,这样就能够为使用者提供一个比较全面的数据使用的资源。在数据挖掘平台当中的数据管理子系统主要是指管理用户的数据资源。这个数据管理子系统主要就是在云计算中的DaaS服务模式下进行工作的,用户在购买数据等相关活动的时候就是通过这个系统来完成的。数据管理子系统能够对使用者的隐私起到很好的保护作用,而且使用者在处理了数据之后还能够进行再次的出售。在数据挖掘平台当中的子挖掘系统主要的作用就是发现用户数据当中的知识,让数据挖掘目标能够有效的实现,在在数据挖掘平台中子挖掘系统是最主要的部分,它的专业性比较的强。
三、基于云计算的物联网数据挖掘模式
物联网的整个环境决定了物联网数据挖掘的模式,因为物联网当中的数据类型比较复杂,而且物和物之间的关联以及相关的特性也不一样,那么这些情况可能就会使得在构建物联网数据挖掘模式的时候就会和传统的数据挖掘模式不相同。
在使用物联网的过程中,常常会出现一些问题,如在发送与接收数据的时候可能出现部分或者是全部信息出错甚至是丢失。出现这些现象的原因,可能是物联网系统的原因,也可能是其他什么原因。那么基于云计算物联网数据挖掘模式就应该要考虑到这种情况,在构建物联网数据挖掘应用模型的时候,必须考虑对物与物之间的关系的表达,这样才能有效的解决数据的错误与丢失。如果物与物存在间接的关系的时候,可以采用SVD模型或者是拉普拉斯变换模型进行推导。如果物与物之间存在非常重要的直接关系时,物联网数据挖掘模式应该要具有表达出物和物之间直接关系的能力,这样在对物和物的间接关系进行推导的时候才会比较的方便。物联网数据挖掘模型当中的一种就是基于超图的物联网数据模型,在超图当中的每一个变都能够和很多的点进行联接,对于物联网当中数据之间比较复杂的关系可以通过超边来进行标示。物联网数据挖掘模型当中的另外一种就是基于马尔科夫链的数据挖掘模型。在基于马尔科夫链的数据挖掘模型中,对于进行预测未来可能会出现的现象的概率时,不需要根据以前的信息或知识,只需要根据现在的信息或知识就能够完成。在物联网的数据实际应用当中,这一类问题最常见的。
稳定的可外推参数模型是物联网数据挖掘模型中的另外一种数据挖掘模型。在物联网数据的实际应用当中,在进行物理建模的时候应该要先要了解到物和物之间的关系,然后建立起数据模型来描述数量上面的相互关系,但是因为物联网数据的类型比较复杂,有可能会出现错误或者丢失的情况,所以采用传统的方法进行物理建模会有很多的困难。
参考文献
[1]刘茂华,史文崇. 物联网数据处理之浅论[J]. 计算机与信息技术,2011,06:52-53.
[2]丁静,杨善林,罗贺,丁帅. 云计算环境下的数据挖掘服务模式[J]. 计算机科学,2012,S1:217-219+237.
作者简介:
关键词:云计算;数据安全;关键技术;应用
中图分类号:TP393.08 文献标识码:A 文章编号:1007-9599 (2012) 21-0000-02
大量的事实证明,云计算作为软件发展的一个重要表征和趋势,其应用范围极其广泛、应用前景非常明朗,无论是国际社会还是在我国国内,都对此表现出了极大的兴趣和普遍的关注[1]。这是因为,在网络时代,用户在进行数据存储、数据处理和网络传输时,都不可避免的要与云计算系统保持某种关联。若想在数据存储和应用方面获得更为积极的功效,更是要将云计算纳入到自身的发展规划之中,否则,极有可能在竞争对手的挤压下,失去既定的优势。但是,不可否认的是,任何技术都不是万能的,尤其是在开放性的环境中,维护数据的安全和信息的真实是十分困难的,需要通过行之有效的途径对此加以保护[2]。可见,在社会需求不断增长的情况下,云计算的应用领域越来越广泛,其特性更是影响着社会发展的多个不同的层面。在这一过程中用户通过网络获得数据,而网络的开放性是其作为重要的特征之一,这就使得数据的使用、备份等与安全有关的问题变得非常敏感和重要。从这个角度讲,最大限度的保障云中的数据安全,保护用户的利益将会成为云计算发展中的非常关键的环节。本文以此为基础,对云计算模式下数据安全的关键技术与应用问题进行了全面的研究,首先对云计算的应用领域与数据安全现状进行了阐述,然后以此为基础,讨论了云计算中数据安全的关键技术,最后,从多个不同的侧面探讨了云计算环境下的数据安全技术的应用,从中得出了一些有价值的结论,希望能够以此指导实践。
1 云计算的应用领域与数据安全现状
1.1 云计算的应用领域
(1)在现代市场环境中,企业的生存和发展需要依靠越来越紧缺、越来越高质量的资源。为了实现对各类、各级别资源的管理和使用,企业的信息化已经成为大势所趋。一方面,企业的信息化能够促进企业的生产率,提升其管理水平[3];但是,同时,也能够为企业带来新的成本,使企业的总成本随之上升,比如,当企业的信息化水平获得提高时,企业信息系统的建设和维护成本会不同程度的增长。在这种情况下,以传统IT制造为主的企业在原有的IT架构上,对其进行了虚拟化的改造,使原本分立、专用的系统经整合后,成为弹性可以调度的IT“资源池”[4],以此来实现各应用系统间的资源共享和充分利用。
(2)在互联网领域,随着社会行为的复杂程度逐渐加深,来自于互联网和指向互联网的数据量呈现出前所未有的增长趋势,一些大型的互联网公司每日需要处理的数据量更是达到了男难以负载的程度。在这种情况下,互联网公司不但要对大量的数据进行存储、检索和传递,只有这样才能最大限度的满足用户的需求;同时,庞大的数据量也是一个重要资源或者机会,在其中往往蕴藏着意想不到的商业机会,如果对其进行深入的挖掘,将会得到一定的利益回报,而云计算为此提供了能够实现的前提条件。
(3)在当今社会,无论是中小企业、小微企业还是个人用户,能够通过互联网使用“公共云计算”服务商提供的廉价IT服务都被看作是一种明智的选择[5]。同时,通过对公共云服务的利用,中小企业、小微企业和个人用户能够在很大程度上使专有设备和软件的束缚降至最低。并且在云计算模式下,能够实现对资源或应用的按需使用,成本会明显降低。
1.2 云计算模式下数据安全的现状
(1)在通常情况下,用户除了要关注数据的数量和质量外,还会对数据的提供者或者保存者予以关注。因为云计算服务的提供商并不是唯一的,不同的提供商在性质上和规模上往往是不一致的,更为重要的是,不同的提供商抵御风险的能力不同,部分提供商会在内外部因素的影响下逐渐的或者突然的退出市场,这样一来,用户存放在服务商那里的数据将会面临极为复杂的处理问题。
(2)用户在使用云服务时,更为看重的是其服务的安全性,也就是说,用户要求云服务的提供商应该在其内部拥有一套足够强大的安全防范体系,无论在技术层面,还是在监管制度层面,都应该具有较高的保障系数[6]。但是,到目前为止,市场上依然缺乏具有公信力的对云计算提供商进行安全方面的监管的第三方,相应的法律、法规也并不健全,至于云计算服务提供商要通过什么样的手段,在多大程度上,利用什么样的人员,也就无标准可言了。
(3)在云计算领域,云端的环境是不受地域限制的,因此,数据的存储就不会有特定的位置或者环节,在世界各地的任何地方、任何角落,都有可能成为数据存储的中心。这种状况的存在实际上是存在较大的风险的,其安全性问题不容忽视。首先,在法律层面上,数据安全的管辖权并不明确,如果数据被存放在了其他国家,那么这些数据就极有可能被他人或者机构占据。其次,当用户的重要数据被占有、取消或者丢失时,难以通过法律工具进行诉讼或者获得相应的赔偿,如果被盗取的是重要的商业机密,情况会更加糟糕。
2 云计算中数据安全的关键技术
2.1 数据传输安全
在云计算模式下,用户在将数据通过网络传递到云计算服务商,要求其对数据进行处理时,数据传输的安全问题是十分重要的。为此,云计算中需要对以下问题继续拧处理:确保用户的数据在网络传输的过程中,能够被严格的加密,而不被窃取;使云计算服务商在获得了用户发送的数据后,能够按照行业的规范妥善的保存数据,而不是将其有意或者无意的泄露出去[7];云计算服务商在存储数据时,应该保证用户在权限认证之后获得合法的数据访问,并且访问的对象应该直接指向自身的数据。
2.2 数据存储安全
在云计算模式下,数据存储依据的是资源共享的模式,为此,云计算服务商要通过必要的方式,使不同的数据之间能够进行有限的隔离;此外,即便用户对数据存放的服务器的位置十分的了解,云计算的服务商也要为此作出承诺,保证对所托管的数据进行了及时有效的备份,保证重大事故不会出现,最大限度的避免用户的数据无法恢复到初始状态[8]。当然,在云计算环境中,数据残留是最容易泄露敏感信息的,所以,云服务提供商同样需要在这方面为用户提供数据的安全保证。
2.3 数据审计安全
在云计算环境下,云计算服务商需要确保在对用户提供必要的信息支持的同时,不对其他用户的数据计算产生潜在的风险。此外,云计算提供商还要协助第三方机构,确保数据审计安全,即对数据进行安全性、准确性的审计,以此保证用户的数据安全,也能够在一定程度上,促进云计算服务商的可持续性发展。
3 云计算环境下的数据安全技术的应用
在云计算环境下,用户的数据安全问题一直被人关注,如何应用其关键技术保护数据的安全就成为当务之急。一般而言,数据安全技术主要在以下方面得到应用:
3.1 在数据加密中的应用
在数据加密的过程中,要通过一个对称加密算法密钥生成器完成,其原理是首先随机生成一个包含校验信息的密钥,然后,将该密钥通过非对称加密算法进行加密。最后,要对加密算法处理后的数据信息和对称加密算法的密钥的密文进行处理——将其作为一个数据包保存到云端。然后,一直重复上述过程,直到加密并发送完所有的数据包为止。当然,在对上述数据进行加密的过程中,需要对数据量巨大的用户的数据通过对称算法进行,而对数据量相对较小的要进行非对称算法加密,这两种(加密钥和密文数据)要同时存储到云端,对用户来说,只需保存非对称加密算法和解密密钥即可。
3.2 在数据解密中的应用
在对数据进行解密时,解密的一方首先要对对称加密算法的密钥进行解密,使用的工具是非对称加密算法的解密钥,然后,要依据密钥利用对称加密算法对数据包进行解密,以此来还原原文。这样,就完成了一次对数据包的解密。最后,再重复以上过程,直到所有数据包的解密工作都完成为止,这样一来,加密前的原始数据就被全部还原了。通过这一过程,对称加密算法密钥管理问题就得到了完好的解决,即使非对称加密算法的运算量较大,也不影响这一工作的进行。
3.3 在数据认证中的应用
从现实的情况看,认证技术在数据的访问控制方面经常被使用,它一般采用基于身份认证权限控制的方式,对身份、权限认证和证书检查进行实时的监控,以此来阻止用户间的非法越权访问问题出现。目前,常见的认证技术包括PIK技术、动态口令技术、矩阵卡技术以及一次性密码技术等。
4 结束语
作为一种新的计算模式,云计算正在改变着IT产业的发展模式,也在改变着学术界对相关领域的已经形成的看法。同时,作为效能工具,云计算能够将软件作为服务的模式,在为用户提供高性能计算服务的同时,还能够实现低成本运作、快速反应和灵活调整以及规模经济,这对当前竞争激烈的各个产业来说,选择云计算是一个明智的选择。本文从这一视角出发,对云计算模式下的数据安全问题、数据安全的关键技术与应用问题进行了系统的分析。但是,本文的研究毕竟是初步的,因为,云计算技术的发展前景不但极为广阔,其发展速度也是信息产业的发展历史中前所未有的。
参考文献:
[1]胡光永.基于云计算的数据安全存储策略研究[J].计算机测量与控制,2011,10:2539-2541.
[2]张启云.云计算中数据安全问题的研究[J].计算机光盘软件与应用,2012,6:25-26.
[3]刘新华,胡纯蓉.云计算中数据安全关键技术和解决方案[J].计算机科学,2011,7:103-104.
[4]WANG Li-zhe,TAO Jie,KUNZE M.Scientific cloud computing:early definition and experience [C].Pro of the 10th IEEE International Confere- nce on High Performance Computing and Communications,2008: 825-830.
[5]张建勋,古志民,郑超.云计算研究进展综述[J].计算机应用研究,2010,2:430-433.
[6]郭春梅,毕学尧,杨帆.云计算安全技术研究与趋势[J].信息网络安全,2010,4:16-17.
关键词:云计算;分布存储;关键技术
中图分类号:TP333 文献标识码:A 文章编号:1007-9416(2017)04-0104-01
云计算本身具备着数据处理效率较高、数据存储量较大的特点,但由于其本身的数据缺乏实时性,这就使得云计算的实际效用发挥受到了一定影响,而云计算在分布存储技术中的应用就能够较好化解这一影响,这样云计算就能够更好实现自身在各领域的广泛应用。
1 云计算环境下的分布存储关键技术的基本结构
为了较好完成本文就云计算环境下分布存储关键技术展开的研究,我们首先需要明晰这一关键技术的基本结构,而结合相关文献资料与自身实际认知,本文将这一基本结构划分为以服务器为中心的结构、以交换机为中心的结构、服务器与交换机相结合的结构三类。
1.1 以服务器为中心的结构
对于以服务器为中心的结构来说,这一结构通过网络线路实现服务器网卡的相连,服务器就能够由此实现同一网络体系下的互联,Cam Cube数据中心网络结构就属于这一结构的代表。在云计算环境下分布存储关键技术的基本结构中,以服务器为中心的结构本身的结构较为简单,这就使得树型结构中单点瓶颈问题往往较难出现,不过以服务器为中心结构常常出现的线路运行补偿影响设备的安全稳定运行问题,却必须引起我们重视[1]。
1.2 以交换机为中心的结构
对于以交换机为中心的结构来说,这一结构本身属于传统型分布存储技术,不过虽然该结构具备着结构简单、连接便捷的优点,但随着我国信息化水平的不断提升,以交换机为中心的结构已经不能较好满足使用者需要,这就使得近年来云计算环境下分布存储关键技术基本结构中以交换机为中心的结构数量不断下降[2]。
1.3 服务器与交换机相结合的结构
除了上述两方面外,服务器与交换机相结合的结构同样属于典型的云计算环境下的分布存储关键技术基本结构,而结合上文中对以服务器为中心的结构、以交换机为中心的结构的论述我们不难发现,两种结构都存在着各自的问题,而为了保证云计算环境下的分布存储关键技术效用得以实现更好发挥,两种结构开始了结合的尝试。对于服务器与交换机相结合的结构来说,该结构在可扩展性、路由费用、网络结构等方面都存在着较强的优势,这些优势就使得该结构能够较好实现工作流程的简化、存储工作效率与质量提升、系统运行效益的提高[3]。
2 云计算环境下的分布存储关键技术的应用
2.1 数据容错技术
数据容错技术本身属于云计算环境下分布存储的关键技术之一,该技术能够实现系统设备可用性、海量信息数据访问率的大幅提升,这就使得云技术分布存储将在数据容错技术的支持下始终为用户提供优质信息服务,由此可见该技术的重要性。对于数据容错技术来说,其本身可以细分为纠删码容错技术与复制容错技术,其中纠删码容错技术本身属于借助信道实现传输的编码技术,这一技术通过实现对信息数据块丢失的容忍实现数据容错,不过该技术很容易引起数据失真问题,这点需要引起我们重视;而对于复制容错技术来说,该技术主要通过相同模块的创建实现数据容错,这一技术本身具备着简单易用的特点,但这种技术本身对于存储空间提出的较高要求需要引起我们重视[4]。
2.2 节能技术
节能技术同样属于云计算环境下分布存储的关键技术之一,该技术的应用主要是为了降低存储系统能耗,其本身可以细分为软件节能技术与硬件节能技术两类,其中软件节能技术主要通过云计算环境下的闲置计算机自动化关闭状态进入实现,这自然就使得各方面的能耗率由此实现较好降低;而对于硬件节能技术来说,这一技术主要运用高性能设备取代低性能设备的方式实现云计算环境下的分布存储节能,而全面替换高能耗结构并应用新型体系结构,就能够极大程度上实现云计算环境下分布存储的节能目标。
3 结语
在本文基于云计算环境下的分布存储关键技术展开的研究中,笔者详细论述了云计算环境下的分布存储关键技术的基本结构与具体应用,而将结合这一系列论述内容我们能够发现,“经济、社会、生态”效益的取得是云计算环境下分布存关键技术具体发展目标,而相关技术人员也将由此认识到降低系统设备的故障发生率、运营成本,提高运营效益的重要性。
参考文献
[1]赵鑫.基于云计算环境下的分布存储关键技术分析[J].电子技术与软件工程,2015,05:211.
[2]查杨.分析云计算环境下的分布存储关键技术[J].电子技术与软件工程,2016,02:190.
关键词:高校;信息化建设;云计算;关键技术;应用
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)23-0005-02
随着计算机技术的不断发展,人们的学习、工作和生活变得越来越便利。而云计算作为一种新型的网络架构模式,已成为如今网络发展的主流趋向。对高校而言,云计算为高校推进信息化建设提供有利条件,也极大地提高了高校信息化建设水平,推动了高校事业的发展。研究云计算技术在高校信息化建设中应用策略已成为当下高校信息化建设领域的重要课题。
1 云计算技术的概述
1.1云计算的定义
关于云计算定义,一般可从广义和狭义两个角度来理解。其中,从广义上讲云计算是指服务的交付和使用方式,这里所指的服务包含与IT相关,与软件相关的各种服务;而狭义的云计算主要是指通过网络以按照需要、已扩展的方式来获取所需要的软件、硬件、平台等资源。其中,提供这些资源的网络称之为“云”。随着云计算技术的不断发展和日趋成熟,已被广泛应用于政府、企业、高校等企业事业单位,发挥着重要的作用。
1.2云计算的特征
云计算的特征主要体现为:超大规模、可靠性、虚拟化、通用性、成本低。具体如下:
1)超大规模。云计算为满足用户的各种需求,需要为用户提供大量资源。而为保证资源充足和访问速度快,必须依赖于数以千计、万计的服务器组成。这些服务器共同构成计算机群。正是依赖超大规模服务器,赋予了用户无尽的计算能力。
2)可靠性。可靠性是云计算技术的显著特点。云计算通过多节点,多副本的为用户提供服务,且用户的数据被存储在服务器之中,服务器可以依据不同的服务类型为不同的用户提供服务。同时,由于数据被多节点、多副本的存储,更加确保了数据的安全性和服务的稳定性,如果某一个节点出现问题,其他节点将会代替他进行服务。对用户而言,通过安全的云备份可以不用担心电脑硬件损毁或数据丢失等问题。
3)虚拟化。虚拟化主要体现在用户对基础设置的管理与应用上。用户可以不受地点限制的使用计算机资源、存储资源和软件资源等。
4)通用性。云计算环境下,可以构造出不同的应用,且不同的应用可以均可以在“云”中运行。正是这种通用性,保证了其正常运行,一些新的计算不断加入资源池,而一些故障节点排出后重新投入使用。
5)成本低。云计算的经济性主要体现在其管理成本上,由于云具有较高的自动化和较强的通用性,其在使用过程中无需进行过多管理便可在短时间内完成多项工作,利用效率极大提升,具有成本低的优势。
2 云计算对高校信息化建设的重要意义
对高校信息化建设而言,运用云计算技术的重要意义集中体现在如下几个方面:
2.1 充分保证高校数据安全,实现高校数据的集中管理
随着高校信息化建设进程的推进,越来越多的高校核心数据资源需要进行存储。而依靠云计算技术的我可靠性、安全性特点,无疑是存储高校核心数据资源的最好方式。同时,云技术服务实现了高校网络服务资源的虚拟化,用户无需担心云的内部实现问题,只需要将数据存储到云端。而其他的服务资源会由专人进行维护、管理和调度。高校核心数据在云端是通过快速加密方式进行存储的,也正是因为在云端存储可以避免硬件伤害,且数据加密可以极大地提高数据的安全性,用户无需担心数据的安全性、病毒以及黑客入侵等问题。
2.2 基础架构建设成本较低,无需多次投入维护和升级
云计算的基础架构耗费成本较低,不需要用户购置昂贵设备,只需有可上网的接入设备、浏览器以便可以实现访问云端。而云端通过基础架构对外提供服务。云端用户不需要购置昂贵硬件,也不需要进行相应的维护升级。高校在信息化建设中,只需要高校来进行软硬件设备的投入,而用户采用普通的电脑便可以接入云端,这为极大地降低了高校的软硬件投入成本。
2.3 为高校教学提供灵活接入方式,方便教学活动开展
云计算技术为高校教学提供了灵活的接入方式,师生可以通过手机、PC端电脑、Ipad等各种终端接入云服务,且可以通过云服务观看教学视频、在线提交作业、与师生进行在线交流、参加网上考试等。学生通过各种终端都可以访问云端,方便利用。而教师可以通过电子教案,在线答疑以及评阅学生作业等。
2.4 基础架构及应用模式规范,方便实现教育资源共享
云计算技术的基础架构及应用模式较为规范,通过基础架构提供对外公共服务,通过云应用平台为客户提供私有云服务。通过云平台实现了多种信息资源的整合和挖掘,同时依赖于云计算技术强大的协同能力,实现教育信息资源的共享和共建。这不仅有效地提高了高校信息化建设的效率,更提升了资源的利用率,减少了资源的重复性建设,保证了数据的一致性。
3 高校信息化建设中云计算技术运用的关键问题
高校积极运用云计算技术解决信息化发展中的问题,并分步骤,有条不紊的建设高校信息化云支撑平台,逐步制定起PaaS,IaaS 和SaaS的演进路线,最终实现在高校范围内各种教育、图书等信息资源的快速配给、共享以及集中维护。这是高校信息化建设的发展趋势。目前,高校在信息化建设过程中取得了很多丰硕的成果,也遇到了一些不适应的问题。这些问题必须充分借助云计算技术来解决。在高校信息化建设中运用云计算技术时,应注意如下几个关键问题:
3.1 高校信息化建设中存在的问题分析
目前,高校信息化建设方面的问题主要体现在如下两个方面:
一是,在基础设施建设方面缺乏对软件和硬件的合理规划
高校在推动信息化建设过程中,普遍存在重视硬件,忽视软件的问题,最终导致高校虽然投入了巨大的彩礼,但取得的效果甚微。云计算平台不同是以穿件为基础的,而高校在这方面先对缺失,最终造成高校硬件投入成本增加与硬件闲置之间的矛盾发生,耗费了自己,却没有实现基础设施的合理规划。
二是,在管理信息系统集成缺乏统一规划,重复性建设严重
在建设高校信息化建设中,由于各部门对信息服务的需求存在差异,且他们过多的从自身的需求出发,影响高校信息化建设的整体性。这需要高校必须对各部门的需求进行汇总,通过协调统一,实现各部门之间信息的集合,减少各部门之间的分离,避免资源建设方面出现重复性。
目前高等学校信息化建设取得了很大的成果,但还存在一些与需求不相适应的问题,这就需要借助云计算技术加以解决,从而提高高校信息化建设的应用水平和效率。通过分析高校信息化建设中存在的问题,有利于更好的促进云计算技术在高校信息化建设中的应用。
3.2 高校数字化建设中运用云计算的关键技术
目前,在高校信息化建设中,应从如下几方面入手:
一是,高校信息化基础设施建设。从基础设施层面建设,应对校园网络进行统一规划和建设,保证基础设置的安全性和可靠性,减少资源的重复建设,从而最大程度提升基础设施的利用效率。在校园网中,通过软件和硬件架设起GFS体系结构。GFS体系结构由master和众多chunk服务器否出,GFS的文件块大小为64MB。GFS结构下数据均按1+2的冗余方式进行备份。在校园信息系统中应用云平台的好处在于可以避免服务器单点故障,支持海量数据、具有整体高性能等。
二是,高校信息化业务的整合。伴随高校信息化系统的增多,重复性数据出现的频率也越来越多,这在一定程度上造成了人力、物力、财力的浪费。因此,有必要对高校信息化业务进行整合,构建完善的业务模型。可以以信息化系统硬件及数据库、应用服务中间件等作为基础,然后按照SOA体系架构和实施理念来搭建一个应用信息系统开发、运行、管理、监控的应用支撑平台。同时也可以通过一定的技术将即时通讯、目录服务、数据交换、权限服务、报表服务、内容管理等支撑组建加入应用支撑平台之中,为高校信息化业务的开展提供完整二开发的支撑管理平台。
3.3 充分运用云计算平台,实现高校间资源的共享
高校信息化建设应尽可能的朝向混合云的方向发展。一般而言,我们可以将云分为专有云、公用云和混合云。这里仅对混合云进行阐述。混合云是专用云与公有云的有机结合。在推动高校信息化建设过程中,应强调采用混合云模式,通过将不同高校的专用云加入到公共云中,通过统一的标准来进行管理,这样可以有效弥补一些高校的在资源上存在的不足,充分利用公共云实现高校之间资源的共享和互补,不可以极大的降低高校的建设成本,且可以为高校用户提供更高质量的信息化服务。这些都是依赖于云计算平台才能完成的。
4 结束语
云计算技术的优势是显而易见的,其对高校信息化建设带来的巨大变化也是有目共睹的。因此,我们必须充分的运用云计算技术,发挥云计算技术在高校管理领域、教育领域以及图书馆建设等领域的重要作用,实现高校信息化建设需求与云计算技术的融合,使高校信息服务的作用得到最大程度的发挥,切实解决高校用户的实际问题,满足高校师生的各种需求,促进高校教育事业的更好更快发展。
参考文献:
[1] 曹泰峰,李端明.云计算在高校信息化建设中的应用研究[J]. 现代情报, 2010(8):167-170.
[2] 杨克戎,韩兴顺.云计算与高校信息化建设中问题的解决方案[J]. 电脑知识与技术, 2009(20):5571-5573.
[3] 张磊.浅谈基于云计算的高校信息化建设[J]. 电子制作, 2014(22).
关键词:云计算;关键问题;图书馆;应用
中图分类号:G250.7
在互联网信息和各种数据高速增长的今天,商业计算和科学工程需要更加强大的数据处理和存储技术。因此,需要对当前计算程序进行扩展,使其达到容易学习、方便使用、满足要求的目的。在这种情况下,云计算概念被提了出来,云计算技术在一定程度上也达到了节约成本和实现可扩放性的目的。因为云计算技术强大的服务能力,使其迅速成为当前产业界和科学学术界关注研究的焦点和热点。
1 云计算技术的相关概述
1.1 云计算的定义
当前学术界并没有关于云计算的统一定义,总结现有的说法,可以认为云计算系统是以收费使用的形式向用户提供各种服务的分布式计算系统。云计算系统实现信息永久存储,在使用时也可进行缓存的计算技术。云计算技术对应的客户端可以是笔记本、界面器、手持设备等,很大程度上满足了动态迁移的要求。
1.2 云计算系统的特点
云计算系统的特点可以概括为四个方面:支持虚拟化、提供服务质量保证、高可靠性实用性和可扩放性、自治性。
(1)支持虚拟化。云计算系统最基本的特点就是虚拟化,虚拟化的存储器,虚拟机的服务器等,也由此大大提高了资源的利用率。
(2)提供服务质量保证。云计算系统能够根据用户的要求对系统做出适当调整,保证服务质量。
(3)高可靠性、实用性和可扩放性。对用户而言,云计算系统必须是可靠的,同时还能随时随地地提供用户所需要的服务,从而保证其可靠性、实用性和可扩放性。
(4)自治性。所谓自治性是指云计算系统的管理对用户来讲是透明课件,系统的不同部分可以进行自动优化配置,从而实现按需提供服务。
2 云计算技术的关键问题
云计算的思想可以追溯到20世纪60年代,经过几十年的发展,云计算技术已经有了很大的进步,在云计算技术的发展过程,所遇到的关键问题可以归结为如下几个方面。
2.1 虚拟化技术
虚拟化技术是云计算技术发展中的首要关键问题。云计算是虚拟的存储服务器,同时也是通过虚拟化的存储服务技术,支持多个虚拟机运行多个操作系统,从而大大提高了服务器的利用率,同时也由于虚拟特性,实现了灵活可变、可扩展性的平台服务。随着虚拟化技术的发展和应用,如何对虚拟资源进行管理逐渐成为当前研究的热点之一。当前采用广泛的方法是采用两级调度的方法将VM的管理集成到批调度器中,从而向用户提供最大限度的调度服务,缺点是不支持虚拟资源的预定服务,同时完成严格的预定资源服务租赁也是非常困难的。
当前的云系统如Scientific Cloud、Amazon EC2等都是采用虚拟样机的形式来满足用户对计算资源和计算能力的要求,但是用户如何根据自己的要求整合这些虚拟机使其成为一个工作群还是一个有待改进的问题。一般采用的方法是通过对虚拟机的IP地址、安全信息等上下文环境的分析,提出一种可以在多种虚拟机之间快速自动地部署上下文环境的机制,从而满足用户的特定要求。
2.2 网络和安全
在计算机发展历程中,曾经发生过的几起信息泄露问题,无不对用户造成了严重的损失。安全性永远是用户最关注的问题。用户在使用云计算系统服务时,需要上传数据并对数据进行存储,云计算系统的安全至关重要。目前,云计算技术还处于初级发展阶段,由于云计算是分布式的体系结构,不仅要进行数据的存储,还要进行消息的传递、交互和共享,这就使得云计算体系的安全性问题变得更加复杂。目前有两种较好的解决方法,一是通过减少敏感数据的传输,降低云计算使用的风险,要保证在不同的环境下都要减少敏感数据的传输与存储;二是从网络拓扑结构和传输数据堵塞控制的角度进行考虑,提出了语义控制策略语言,来描述不同客户的存取策略,不同的客户对于云计算需要提供的服务是不一样的,因此需要灵活的存取机制,这也为安全提供一个途径,通过不同的存取机制,来增强操作的灵活性和数据的安全性。
2.3 云计算系统仿真
云计算系统提供的必须是安全可靠、可扩展性的服务,因此必须对不同的基础设施和服务进行度量和评估,以保证满足相关协议的要求。在云计算系统的相关基础设施搭建之前,为了确保其可行性,同时减少成本,有必要对其复杂的管理系统和运行机制进行仿真。如何开发出科学合理的仿真软件,使其能对前期的运行机制和管理系统进行仿真,还能实现后期的追踪和分析,这是一件极具挑战性的问题。当前的研究中提出了不同的解决方案,例如云计算仿真软件CloudSim、SPECI仿真工具等,都达到了很好的效果,但是还存在一定的缺陷,这是我们需要继续坚持解决的问题。
2.4 云计算系统的成本
作为一种拥有超强数据处理能力和存储能力的计算系统,云计算系统的经济成本也是非常高的,这在一定程度上也阻碍了云计算系统的普及使用,因此如何制定出精确的成本模型变得尤为重要。影响成本模型的因素有很多,比如服务器、软件、网络元素和人为因素等不同的因素对模型的影响是不一样。如何完整地考虑各个方面的因素,确定其不同的影响权重系数,从而制成精确的成本计算模型,对于降低云计算系统的成本是不可或缺的。
3 云计算系统在高职院校图书馆中的应用
云计算技术的超级计算和海量存储能力,使得其成为当今数字图书馆研究的热点问题,同时也为读者提供了安全、高效的云个性化阅读服务。云计算系统在高职院校图书馆中的应用主要可以从两个方面来介绍:国外和国内的图书馆中的应用。
3.1 云计算系统在国外高职院校图书馆中的应用
国外第一个开放的图书馆自动化系统产生于1999年,它的目标客户是小型的学校图书馆或者专业图书馆,它的出现也为后续大型的应用奠定了基础。随后在2006年,Amazon推出了弹性云计算EC2服务,主要的目标客户是各种组织机构,服务内容为存储服务和计算资源服务。目前,亚马逊云计算服务已经得到了广泛的应用,很多大型的图书馆都在使用,如哥伦比亚区公共图书馆。
被誉为业界最有影响的莫过于OCLC将“基于云”的概念服务引入了图书馆的系统中,这是图书馆界的第一个专业云计算服务,将会有广泛的发展前景。
3.2 云计算系统在国内高职院校图书馆中的应用
在国内,云计算系统在高职院校图书馆中的应用还处于理论研究的阶段。国内有关于“云计算和图书馆”的定期研讨会表明国内的图书馆界已经开始充分重视云计算的发展,也预示着云计算系统将在图书馆界中产生重大影响
目前,已经基本建成了CALIS云服务平台的框架,同时也在全国的多数高校中构建了分布式的数字图书馆服务平台。借助云计算平台,图书馆可以即时地为用户提供最新信息,同时也简化和压缩了咨询信息的服务过程,提高了图书馆的管理效率,减轻了图书管理员的管理任务。用户只需拥有一个可以和云计算端链接的终端设备,就可以轻松地获取自己所需要的信息,大大降低了用户获取信息的难度和成本,因此,云计算系统在图书馆界的应用,不仅最大限度地实现了资源共享,还大大简化了日常的信息获取过程。
4 结束语
云计算系统具有超强计算和海量存储的能力,同时还有方便使用、按需支付的特点,使其具有非常广阔的应用前景,对于图书馆来说,云计算系统的能力和特点正是其所需要的,即使当前云计算在图书馆中的应用还处于理论研究阶段,但是随着相关工具和技术的不断改善,相信云计算图书馆不久就可以更好地服务于各高职院校的学子们,服务于每个需要云计算系统的人们。
参考文献:
[1]高婷.云计算给图书馆带来的发展机遇[J].计算机光盘软件与应用,2011(19):104-105.
[2]胡英俊.云计算技术在图书馆中的应用探讨[J].前沿,2013(14).
[3]符啸威.浅析云计算模式下的安全问题[J].计算机光盘软件与应用,2012(5).
关键词:数据抽取;Hadoop;舆情
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)15-0023-03
Abstract:The public opinion information data with massive, show data sources of unpredictability, article on the HTML page for noise reduction, sub tree construction, and then through the similarity calculation, combined with public opinion simple ontology library, the realization of the data block identification and record the data extract, finally to Hadoop platform for experimental environment and pumping out the algorithm experiment. Experimental results show that the algorithm in the public opinion data mining, automatic extraction of extraction rules has a certain reference value.
Key words:Data extraction; Hadoop; public opinions
1 概述
网络舆情是某些社会事件发生后,在互联网的平台上,民众针对其发展和变化过程的不同阶段逐渐产生和发酵的社会态度,并借助于诸如论坛、博客、微博、微信、新闻跟帖等此类便捷的网络媒体进行关注、表达或宣泄。由于网络媒体的自由性和实时性,互联网的便捷性和随意性,网民针对社会过程中的各种问题,越来越多的倾向于借助网络媒体跟帖、转发、投票等方式畅所欲言,淋漓尽致地发表观点,在极短时间造成内凝聚共识,并诱发行动,直接影响社会。[1]同时由于阅历和思想认识水平的局限性,网民们往往会在短时间内难以认识事情背后复杂的社会,并认清其心理动因,从而造成非理性和过于主观的声音占据上风。从目前各领域内的一系列突发事件来分析,人们通过网络媒体进行传播爆发出的舆论能量不容小觑。各级行政机关、企事业部门都越来越重视互联网舆情的监测,各专家学者也从不同方面对舆情进行分析研究,如从政策机制、评估体系策略[2]、用户行为特征、网络舆情传播模式的研究和引导;技术上主要集中在网页抓取、内容分析、语义识别、数据挖掘、主题识别与跟踪等算法的研究等。在这在互联网技术飞速发展,影响力日益巨大的时下,网络已化身为思想文化的集散地和社会舆论的增强器,我们应充分认识以其为载体的新媒体的社会影响力。因此,对于如何快速、准确的发现互联网上潜在舆情信息并对其进行有效监测、监控及正确引导势在必行,本文通过对已有技术和知识进行分析总结的基础上,引入了云计算技术,对以面对与高校相关的网络舆情信息的数据抽取的关键技术进行了研究。
2 研究现状
随着互联网技术的飞速发展,特别是互联网的普及应用,我国的网民数量、网站数量以及网络信息资源的容量以爆炸性的趋势增长。据中国互联网络信息中心2016年1月的《第37次中国互联网络发展状况统计报告》[3]显示:网民通过各类移动设备进行网络行为的用户占全体网民总量的90.8%,规模达到了6.06亿,其中手机占移动类网民的91%。同时,以互联网为工具进行新闻获取阅读的用户规模为5.55亿,手机网络新闻用户规模为4.60亿,相较于去年年底将近增长11%。如作为网络环境下对新闻快速传播形成热点话题的微博、微信、来往等App应用借助于手机等无线设备,极大促进了网民对网络舆情的接触度和传播速度,从而使Web成为一个以大数据为基本特征的全球化信息中心。这些在许多领域具有重要价值的海量数据具有多样性、异构性且动态变化等特征,单纯地依赖人工的方法难以及时、迅速地完成海量web信息的收集、 web舆情的发现及进一步的跟踪。
针对网络舆情监测迫切需要分析挖掘的这些海量数据,按其信息蕴藏的深度,可分为SurFace Web和Deep Web两大类[4][5]。Surface Web是将各个独立的HTML静态网页通过超链接进行连接,其内容能够为当前的通用搜索引擎直接索引和检索而无需与网络数据库进行交互;而Deep Web面向的是网络服务器中的网络数据库,Deep Web的内容页面在被查询时才由Web服务器主动与数据库服务器进行交互而动态按照某一特定的HTML布局生成后返回给提交查询请求的访问者。随着信息化的不断跨跃推进和互联网技术的持续快速发展,以网络数据库形式存储的资源成指数级增长,如今人们也已访问网络数据库成为信息获取的主要方式和方法。[6] Deep Web形式的数据内容分布于商业、经济、计算机、教育、新闻媒体、娱乐等不同的领域;网络媒体以BBS论坛、微博、微信、来往、博客、播客、新闻、跟帖等各种形式载体和展现,此类海量存储在Deep Web背后的网络数据库数据已成为了供政府及企事业单位进行辅助决策的来源。但由于网络数据库隐藏在Web服务后端的隐蔽性,及各个Deep Web站点在网页展现形式和表述质量的差异性,使得当前存储DeepWeb数据的网络数据库搜索引擎只能实现大约33%左右覆盖搜索,因此如何有效的、快速的且准确地在浩瀚的网络数据库中抽取信息资源成为当前舆情研究中首当解决的问题。
3 基于大数据的数据抽取的相关技术
3.1 数据抽取
数据抽取,也称之为网页信息提取,主要是从HTML源码中去除一些如广告、标语等噪声信息,提取出标题、作者、正文等有用的信息。及时准确的信息提取为舆情系统提供可靠的数据源,数据抽取在web 舆情发现中至关重要,,它为舆情系统准确地发现相关信息提供基础。信息的抽取过程按自动化程度一般可分为人工、半自动化及全自动化三种方式。网页信息抽取是一种针对网络数据库中的数据通过分析、加工网页的结构实现信息数据的提取的过程。由于网页的复杂性、多样性以及程序员构建过程的随意性和习惯性,使得信息展现的模版不确定性和多样性,针对不同的网页模版抽取规则也不尽相同,信息抽取的方法也越来越多,按其实现原理大致可分为基于HTML结构、基于自然语言处理和基于本体几类方式[7]。
3.2 Hadoop
Hadoop是由Apache基金会开发的一个开源的分布式系统基础架构,其核心为实现为海量数据提供了存储的分布式文件系统 (Hadoop Distributed File System,HDFS)和为海量数据提供了计算能力的分布式计算MapReduce。Hadoop为程序开发者提供了简单易用的接口,用户只需编写 Map函数和Reduce函数即可实现分布式计算,而无需考虑诸如由Hadoop负责处理的任务调度,负载平衡和通信等问题[8]。
HDFS是能部署在廉价的机器上的分布式文件系统,用户不需知道文件的实际存储位置就能够访问分布在不同机器上的文件,具有高容错性、高吞吐量、能自动处理失效节点的特点。HDFS包含三种类型的角色:用以实现系统命名空间的管理和客户端文件访问管理的Name Node,用以实现管理节点文件存储的Data Node 和用于需要操作分布式文件系统文件应用程序的Client。MapReduce是包含一个主服务器Job Tracker和多个从服务器Task Tracker的主从式架构,Job Tracker是一个master服务,负责调度、监控和管理Task Tracker,并给空闲的Task Tracker分配Map任务和Reduce任务。
4 抽取框架
实现上主要对查询结果列表页和内容页进行信息提取,提取过程中使用自建的简单本地体库抽取方法来实现抽取,主要过程为:数据清洗、数据块识别,结果集抽取,抽取规则构建。
4.1 数据清洗
一般情况下,一个查询结果页面可能包含多个数据块,如宣传数据块、数据信息数据块、位置数据块、导航数据块等。其文档中含有一些对抽取没有价值的信息,如样式表标签、图片标签、命名空间标签、内容标签、表单标签、媒体标签、表格标签等,直接对此类有大量无用节点的HTML代码进行解析而生成的网页标签树会十分臃肿,因此首先将列表结果页和内容结果页文件进行“瘦身”解析成标签树,并采用广度优先遍历方法对标签树中所有节点进行降噪处理,其过程如下:从根节点开始出发,直至发现表示正文开始的body标签节点,将当前节点及其子树提取后向下遍历,判断读入节点是否是噪音节点,如果是则将该节点及其子树删除,循环直至到达树末尾。经过上述过程的降噪处理,可以将网页标签树中明显的以上所提及的无用信息标签及其间的内容删除,从而降低了计算量,并极大简化了后续算法的输入。
4.2数据块识别和数据记录集抽取
一般情况下,每个查询结果页面一般只有一块区域是用户所关心并希望可以获取的,这部分即为该页面的数据信息部分,而其他的模块则认为是对用户数据块信息顺利的获取的干扰因素,因此如何准确的识别出数据块在HTML页面的位置的至关重要。在完成对标签树清洗处理之后,我们需要发现并定位标签树中的数据块,此数据块包含查询结果。分析比较多个经过清洗生成的查询结果的标签树后发现:对于标签树中,某一父亲节点T具有越多的结构相似的子树越多,当比重超过一定的阀值,则该节点将越会是我们所关注的数据块,针对这一思想实现如何快递自动识别出的兴趣数据块,算法描述如下:
输入:节点T下的两颗子树T1、T2
输出:子树T1、T2的相似度Sim(T1,T2)
算法:
1)初始化SumT1、SumT2、DisumT12;
2) 循环T节点直至遍历所有的子节点{
3) 如果两个节点的标签相同{
4) Sum T1++; Sum T2++;
5) }
6) 如果两个节点的有节点但标签相同{
7) Sum T1++; Sum T2++; Disum T12++;
8) }
9) 如果T1节点树有节点而 T2节点树无节点{
10) Sum T1++; Sum T2++;Disum T12++;
11) }
12) 否则{
13) Sum T2++; Disum T12++;
14) }
15) Sim(T1,T2)=(SumT1+ SumT2- DisumT12)/( SumT1+ SumT2)
16) }