发布时间:2023-06-29 16:31:33
序言:写作是分享个人见解和探索未知领域的桥梁,我们为您精选了8篇的大数据开发的过程样本,期待这些样本能够为您提供丰富的参考和启发,请尽情阅读。
关键词:大数据;信息资源管理;网络信息资源
DOIDOI:10.11907/rjdk.161946
中图分类号:TP319
文献标识码:A文章编号文章编号:16727800(2016)009013202
作者简介作者简介:杨洋(1995-),女,湖北武汉人,华中师范大学信息管理学院学生,研究方向为信息管理与信息系统。
0引言
随着互联网时代的来临,越来越多的数据都来源于网络,网络数据呈爆炸式增长,如何对这些网络信息资源进行有效的采集、组织、分析和利用成为急需解决的问题。运用先进的技术和管理经验来对网络信息资源进行开发是大数据时代急待解决的问题。
1大数据概述
2011年,位于美国的全球知名咨询公司麦肯锡最早提出了“大数据时代”概念,随即在全球掀起了轩然大波,似乎所有学科都被冠以大数据的头衔。随着网络时代的发展,数据以惊人的速度增长――每秒钟有60张照片上传到网络;每分钟有60个小时的视频上传到YouTube;每天,全球互联网中产生的数据可以刻满1.68亿张DVD,发出的论坛帖子达到200万个,相当于美国《时代》杂志770年的文字量。
到目前为止,大数据还没有一个完全准确且被公认的定义。麦肯锡全球研究所给出的定义是:大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。现在被广泛认可的是大数据的4V特征:海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)、价值密度低(Value)。
随着科技时代的发展,大数据的处理要求与日俱增,特别是面对海量的网络信息资源,亟需大数据技术的特殊处理,才能够得到充分的组织利用,才会为社会创造更大的价值。
2大数据时代网络信息资源开发利用现状
2.1网络信息资源概念
广义上讲,信息资源是指一个贯穿于人类社会信息活动中从事生产、分配、交换、流通、消费全过程的多要素集合,包括信息劳动的对象、信息劳动设备、信息劳动技术、信息劳动者等[1]。而网络信息资源作为知识经济时代的产物,即虚拟的信息资源,是指借助于网络环境可以利用的各种信息资源总和。网络信息资源可以指以数字化形式记录的、通过计算机网络通信方式进行传递的信息内容集合,也可以是为满足人类需求,借助计算机等设备开发、生产和传递的、通过网络获取的信息集合。
2.2大数据时代网络信息资源开发利用机遇
过去,很多行业对网络数据只是进行传统挖掘,比如点击率、网络流量以及其它仅局限于网络数据的指标。因为技术、人才的缺乏,导致很多详细的网络行为数据没有被充分挖掘。但是现在,在基于大数据的有关技术以及在全行业大数据的浪潮中,来自于网页浏览器、移动应用终端、自助服务终端、社交媒体等地方的网络数据被挖掘整理为有价值的网络信息资源,为科研、商业、教育等领域提供源源不断的可用情报,从而促进各大行业蓬勃发展。在大数据时代,网络信息资源中可挖掘的有用信息更加丰富。
早在大数据概念提出不久的2012年,美国就已经将大数据研究和发展计划提升为国家发展战略。美国作为一个科技与经济强国,其对大数据的重视程度可见一斑。虽然我国互联网起步较晚,但政府在实行大数据战略时也给予了充分的经济与政策支持。2016年中国大数据产业峰会暨中国电子商务创新发展峰会的主题便是大数据开启智能时代,国务院总理出席开幕式并发表致辞。信息处理技术作为四项关键技术创新工程之一,涵盖了海量数据存储、图像视频智能分析、数据挖掘等信息处理技术,是大数据技术的重要组成部分。
2.3大数据时代网络信息资源开发利用的挑战
大数据时代,网络信息资源开发利用有着良好的发展条件,机遇和挑战并存。首先,我国现阶段在数据挖掘、数据仓库、搜索引擎、元数据等技术上与科技发达国家还存在着差距[2],如何使用先进的大数据技术来处理庞大的网络数据,增强信息的采集、组织、分析和运用能力成为亟待解决的难题;其次,如何有效管理庞杂的信息资源也是急需解决的问题[3]。在互联网时代甚至是移动互联网时代,网民产生的海量数据杂乱无序,需要合理管理才能组织利用好这些数据,为生产生活创造价值。
大数据时代,网络信息资源利用发展迅速,但人们的从众心理会导致盲目投资,很多人往往在没有彻底弄清大数据的发展形势前就跟风操作,这会加重网络信息资源管理的负担,不良的大数据产业还会带来行业风险,信息的真实性和可靠性得不到保障。
3大数据时代网络信息资源开发利用策略
3.1提升大数据技术水平
我国的大数据技术水平与美国等科技发达国家还存在差异,要利用好网络信息资源,进行有效合理的开发,就一定要掌握核心技术。
大数据核心技术有:①Hadoop,是一个能对大量数据进行分布式处理的软件框架,Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的;②Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠地处理庞大的数据流,用于处理Hadoop的批量数据;③RapidMiner是世界领先的数据挖掘解决方案,其数据挖掘任务涉及范围广泛,包括各种数据技术,能简化数据挖掘过程的设计和评价。
3.2加强网络信息资源的引导和管理
大数据时代的社会舆论环境非常复杂,互联网时代,每个网民都是大数据的生产者和接受者[4]。首先,有关部门要疏通网络舆论环境渠道,善于利用大数据技术分析解剖舆情问题,提取采集有价值的网络信息,整理网民关注的焦点和热点问题;其次,对于网络信息资源反映的问题提出有效的解决方案,甚至可以预测问题、提出预警。对于网络行为进行数据挖掘,从而得到经济、政治、社会层面有价值的信息资源。比如在淘宝网上,通过用户的购买数据和浏览数据得出用户偏好,在后台处理这类信息,形成商品推荐呈现给用户,以此增加用户购买行为概率,提高潜在经济效益。
大数据时代应以先进的管理方式来进行网络信息资源的开发利用。基于大数据的4V特征,一般的管理方式是难以驾驭大数据的,所以新型的先进管理经验应运而生。要利用数据挖掘和数据仓库技术对大数据进行管理。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系的信息过程。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。这都需要专业的管理人员进行操作与管理,对大数据时代下的网络信息资源管理提出了更高的要求。
3.3制订相应的政策推动网络信息资源开发利用
在大数据时代,网络信息资源的开发利用可以深入到上至国家下到个人的各个层面,数据的真实可靠性、个人的隐私也都会受到影响。国家不仅要在促进大数据发展上制定相应的政策,还应该加强宏观调控,制定政策和法规,用相应的法律来进行约束管理。
我国相关机构要建立符合实际的技术、人才、财政等政策保障体系[5],为大数据产业发展营造良好环境,生产并提供适合受众的网络信息资源与服务。在经济政治条件允许下,可以建立大数据创业园区,集聚大数据开发运营企业,对相关企业提供便利条件或相关支持,从而促进网络信息资源的开发利用。
4结语
大数据时代的历史潮流势不可挡,大数据与互联网相辅相成,共同发展。大数据时代的网络信息资源开发利用成为连接两者的桥梁。随着科技发达国家对大数据的重视,国家之间的实力对比也逐渐成为信息力量的权衡,网络信息资源在国家领域和日常生活中越来越占据主导地位。我国应紧跟大数据时代的发展潮流,加紧对网络信息资源进行有效地开发和利用,以提升综合国力和核心竞争力。
参考文献参考文献:
[1]张欣.大数据时代的网络信息内容建设管理[J].新技术,2015(5):119.
[2]严颂.大数据时代的网络信息内容建设管理[J].成都行政学院学报,2014(1):1922.
[3]刘倩倩.大数据时代网络信息资源的开发与利用[J].企业技术开发,2015(5):8384.
随着经济全球化以及信息化的发展,计算技术已经走入了人们的生活,并且逐渐成为人们生活中不可缺少的一部分,可以说,计算机技术在各个领域行业中都有着巨大的发展空间,尤其是在各种信息不断的大数据时代计算机技术更体现出了它的优势,因此完善计算机软件技术对各个领域行业有极大作用,同时也是提高企业运营速度、加强经济收益的最根本保障,本文就对计算机软件技术在大数据时代的应用问题进行具体的分析。
【关键词】计算机技术 软件技术 大数据时代 应用分析
1 引言
21世纪是科技的时代,计算机应用技术改变了工作的传统模式,在市场竞争如此激烈的今天,企业要想在市场中取得发展就需要从计算机软件技术方面入手,在节约人力物力的同时实现工作的整体效率,让企业的运营模式更加的专业化、科学化。随着云时代的到来大数据也逐渐被人们所关注,大数据时代给计算机信息处理技术带来了好消息,可以说,大数据是继IT行业在云计算与物联网之后的又一次技术变革,对人们的生活、工作以及学习的影响很大,在企业的运营过程中数据是最为核心的资产,在大数据时代所有的企业都将面临着来自多方面的挑战,但这同时也是一种机遇与资源。就目前形势来看,大数据时代的到来给了计算机处理技术带来了机会,也对提高社会经济效益有很大作用,本文就对计算机软件技术在大数据时代的应用进行具体的分析与研究。
2 计算机软件技术在大数据时代的应用
大数据时代最主要的应用核心就是在大量的数据中找到规律,从而找出与用户的需求相一致的特点来进行设计、生产以及服务,大数据时代的计算机信息处理关键技术主要包括三个部分:
(1)虚拟化技术。该技术是根据虚拟的资源来进行管理,同时也能对这些大数据资源进行优化配置,在提高信息处理效率的同时也能提高灵活程度。
(2)云存储技术。云存储是由多个存储单元组成的,它是一种由多种功能联合在一起的协同工作,大数据时代下出现的云存储技术为更好的解决海量信息提供了方便,同时完成对大量信息数据的计算也是在大数据时代下数据处理必不可少的环节。
(3)信息安全技术。在大数据时代之下,各种数据信息是有一定关联的,这种关系之间的影响对数据的安全有一定的威胁,需要调整整个的数据管理系统,从而提高数据集群的安全水平。在未来的发展中,如果想要保证大数据信息的安全性就需要不断的推进信息安全技术的发展。虽然大数据在我国的应用时间很短但是效果却是很大的,大数据已经成为了一种发展趋势并得到了人们的广泛应用与支持,在未来的发展过程中,我国的计算机软件技术方面还会遇到更多的挑战,因此就需要各行业根据自身的问题制定出最符合自我发展的方案,让数据处理技术能够得到改革与完善,计算机技术应用于大数据时代下让数据有更高的真实性、有效性。
在计算机软件技术发展的过程中应该主要从三个方面入手:
(1)信息通信方面。通过利用IBM SPSS预测分析软件就可以从很大程度上降低客源的流失,还可以从中找到行业运营过程中的问题,从而提供更快捷、更方便的发展平台。例如通讯行业的发展就需要一些通信运营商通过计算机软件技术来对客户的相关资料进行整理,在这些信息中分析出目前的发展趋势,然后将这些资料交给企业促进其经济效益的提升。
(2)企业信息解决问题。利用企业运营管理软件能够有效的解决客户资料获取、风险分析以及雇员流动等问题,根据大数据时代的特征能够为企业提供更好、更新的方法,在数据开发的过程中主要分成五个部分:1.抽样。所谓抽样就是在产品生产的过程中选取比较有代表性的作为样本,样本容量的选择可以进行定位,但必须具有一定的代表性这样更加方便于分析与操作。2.开发。通过开发、探索的方式来对数据进行分析能够加深人们对数据的进一步认识,在开发过程中可能会涉及到对数据的导入、合并、选择等步骤。3.修改。人们可以通过创建与选择来对数据集进行修改,在修改的时候可能会涉及到变量的转换、产品的编码等等,然后再根据对应的数据进行分箱操作。4.模型。利用模型是为了让预测的结果更加准确、可靠,同时这一步骤在企业解决方案的制订中占有重要地位,也可以推动经济效益的提升。5.评定。评定技术是先与模型进行对比然后由人员进行仔细的分析,在数据挖掘的过程中相关技术人员应该开发出新的方式,对数据进行分析与整合才能确保信息的准确性。在可视化的工具中用户可以将数据找出来并以图形的方式进行表示,人员就可以对数据动态有更加深刻直观的了解,此外,SAS/EM还有一些特殊的工具,其中包括可以进行流程图的评分操作的工具以及用于考察执行结果的工具等等。
3 结束语
综上所述,计算技术在我国的发展迅速,我国在数据采集、分析以及存储方面已经取得了很大的成效,随着这些技术的不断推进,使得我国相关部门与企业的整体效率得到明显提高,企业的生产模式基本实现了自动化的运行方式,这是大数据时代带来的优点,大数据的改革与创新让计算机处理大量信息变为可能,这样一来不仅信息处理的效率提高了,同时也能降低一定的成本,目前已经有越多越多的专业人员投入到了计算机软件技术开发的工作中来,相信在众多专业人员的共同努力之下,未来我国计算机软件技术将会得到更大的发展,买上新的历史阶段。
参考文献
[1]吴子红.计算机软件技术在大数据时代的应用[J].中小企业管理与科技,2014(09).
[2]崔宁.计算机软件技术在大型结构实验及现场检测数据处理中的应用[J].产业与科技论坛,2013(21).
[3]刘涛.计算机整编软件技术在地下水监测资料整编中应用[J].地下水,2013(05).
[4]刘孔瑜.浅析计算机软件技术的发展与应用[J].企业导报,2016(08).
作者简介
向羽,男,湖北省潜江市人。现供职于湖北大学知行学院。研究方向为计算机软件工程。
传统的软件工程方法以数理逻辑为中心,采用系统化的、规范化的、可定量的过程化方法去开发、测试、维护软件。在大数据时代,数据与软件密不可分,数据是计算的处理对象,软件虚拟化,具有松耦合、分布广、动态变化等特点,要求能够处理海量数据。传统软件工程方法已经不能适应大数据时代的需要,软件工程教学应当针对大数据处理的需求,研究支持数据处理的软件技术,研究面向大数据的软件工程教育教学方法。此外,我校在课程内容建设、学生实践实训、创新培养、教材建设等方面与青岛软件园驻园软件企业进行了充分沟通与融合,应对大数据环境带来的机遇,使学生在学校中就可以通过校企平台解决学生专业实训、企业实习等问题、了解软件企业部门的职能分工及联系、掌握软件企业的主流开发技术和产业技术应用前沿。
2大数据驱动下的教学模式探索
大数据在为软件行业的发展带来机遇的同时,也带来了挑战。从软件工程教学的视角,我们分析大数据时代对于软件工程教学的影响,提出运用大数据服务软件工程教育、提升学生素质。
(1)理论与实践并重。
软件工程是一门兼顾理论与实践的课程,为了实现培养应用型人才的目标,在实际教学活动中,往往围绕着能力培养开展教学,重视培养学生的工程实践能力,却忽视以知识为中心的教学模式。我们并非提倡以讲授软件开发过程中的理论知识为中心,而是要求不但注重学生实践能力的培养,还要重视强化学生的理论基础。重视软件工程前导课程知识的衔接,例如数据结构、算法设计与分析,还要将软件行业发展的最新研究成果和热点内容,例如大数据下的软件工程思维,及时地安排到课程教学中。通过将工程实践的新技术与新方法融入到软件工程的理论教学中,促使学生在掌握扎实的基础理论知识的同时,引导学生自我构建与现代软件工程发展相适应的知识框架。
(2)协同开发。
当前软件工程面临的主要挑战是合理分工,如何明确软件企业内部的职能分工、各技术岗位的职能范围、权责和工作内容。大数据环境下,软件工程方法由逻辑驱动转变为由数据驱动。由于主要面向分布型应用和程序,软件开发从封闭走向开放,开发人员通过分享和交互进行开发。在此过程中,应重视协同开发。采用团队协同模式开发软件项目过程中,根据学生的知识和能力进行组队,不仅要明确团队成员的职能范围和工作内容,还要明确需求分析、系统设计、代码编写、系统测试人员之间的权责。此外,在参与大型软件的开发实训中,还有细分相同角色人员的具体分工。在协同开发教学过程中,我们要避免学生自由组队造成的“马太效应”。根据教学实训发现,学生自由组队,容易造成强强联合。编程能力强的学生组队,能够较好的完成实训项目,但是弱弱组队却无法顺利的完成实训任务。为了在协同开发中,培养学生的沟通表达能力、团队合作能力,我们在教师的引导下,引进团队制约机制。每个开发团队通过强弱联合组队,每个团队既是软件开发者,同时也是软件需求者。作为软件开发者时,需要和软件需求方讨论需求分析、系统设计;作为软件需求者时,需要提出自己的软件应用要求。开发者和需求者的双重身份,保证团队之间只有经过充分的沟通,才能完成软件的开发。团队制约机制使得学生在较短的时间内,能够扮演多种开发角色,熟悉软件企业的业务流程。
(3)合作创新。
大数据时代,面向服务的软件工程、群体软件工程得到了广泛的应用和发展。在开放环境下,面向分布式应用和分布式的开发模式,需要充分利用网络进行任务分配、创新解决方案。作为实践性较强的学科,在实践中研究以数据为驱动的软件设计模式,有利于增强学生的创新意识。学校重视在软件工程的实训中培养学生的创新能力,积极鼓励学生利用学校软硬件平台,申请学校科技创新课题,或者参加教师的软件设计相关的科研项目。依托校企合建的软件工程创新实验室,通过完成“基于计算机视觉的胡萝卜智能分级系统”、“基于MVC的上机考试与在线练习系统”等科技创新课题,激发学生的合作沟通技巧,提高学生软件工程的创新能力。通过参与教师的“基于计算机视觉的花生品质品种自动检测系统”、“茶树病虫害远程专家系统”等应用项目开发,在实际的项目研发中促进学生解决问题能力、创新能力的提高。通过分析当前的校企合作办学模式存在的问题,以及大数据时代的产业需求,学校与软件企业在教材建设、教师培训、实训平台、企业服务等方面建立合作关系,充分利用企业的技术优势,以培养应用型人才为共同目标的基础上,实现学校、企业各自创新活动。出版了《设计模式(Java版)》等应用型教材,从理论、应用和实例三方面出发,帮助学生了解软件工程的最新模式,提高学生的实际动手能力和创新能力。在软件企业实训基地,通过定制的实训解决方案和软件企业提供的实训服务,学生在企业技术人员的指导下,重新开发“海尔OEC日志管理系统”等大型软件。不但锻炼了学生的团队合作精神、增强了自身的创新意识,而且在工程实训中个人能力和素质也得到锻炼和提升。
3结论
在这一点上,腾讯对大数据的认识是正确的,“在建立大数据系统的时候,我们从来没有想过在做一个大数据项目,我们都是在解决实际的问题。”腾讯云总裁陈磊如是说。
从解决实际问题出发,不论是需要作出重大决策还是改变小小的设计,腾讯在利用大数据的时候有其自身的优势,那就是腾讯拥有海量的数据。业界有一种声音是忽略大数据的“大”,关注数据本身的价值,而在腾讯这里,“大”甚至无法回避。比如,根据腾讯云分析《2014年第二季度移动行业数据报告》的数据,接入腾讯云分析的APP覆盖设备超过15亿。
如果单个数字不足以说明什么,那么还有以下这几个数字:
即时通信QQ活跃帐户数达到8.29亿;QQ智能终端月活跃帐户数5.21亿;即时通信QQ最高同时在线帐户数达到2.06亿;“微信和WeChat”合并月活跃帐户数达到4.38亿;“QQ空间”月活跃帐户数达到6.45亿;QQ空间智能终端月活跃帐户数4.97亿;
(数据来源于网络)
探寻大数据先行者的足迹,腾讯是国内最具代表性的企业之一,而其对“大数据、小场景”的认知,更是在大数据的实际应用中走到了前列。
从一个小小的按钮说起
很多人无法将大数据概念和具体实践联系起来,是由于对大数据这一概念的“仰望”,好像大数据是突然有一天凭空生出来的一样。而事实上,“在大数据这个概念被包装出来之前,互联网公司就已经很认真地在使用相关的方法和技术,”陈磊表示,“这些方法和技术实际上是一直应用在我们日常工作当中的。”
陈磊讲到腾讯在设计产品时的一个场景:“我们界面的设计都是在测试用户行为的基础之上进行的,我们很少凭空去想用户会喜欢什么样的设计。”比如在设计一个按钮时,其摆放的位置、包含的文字,包括颜色、形状这些都会做各种各样的尝试,而最后采用哪一个选择,要看用户在实际使用中对这个按钮的点击率。可以说,除了要在整体的风格上保持一致,很多设计都是以最终用户的行为作为依据的。
互联网是大数据最先改变的产业,这与互联网企业的文化也有关系。陈磊表示,互联网企业不认为通过自己的想法能够很准确地把握用户需求,而让用户去试的时候,用户会用他的行为投票。“所以互联网公司讲究摸着石头过河,最主要的原因是希望在不断尝试的过程当中,发现用户真正的需求而更好地满足它。”他说。
通过大数据的方法来准确地把握用户需求,来指导一个按钮的设计,腾讯就是这样将大数据应用到这些小的场景中。实际上,腾讯对产品的每一个功能都会去做AB测试。
动态运营,将决策权交给用户
腾讯的很多产品版本更新非常快,由于每次新版本下发都需要用户去下载安装才能更新。这需要对每个产品都进行用户管理的研究:从用户开始使用这个产品,到这个产品的使用达到一个高峰,再到最后一些用户选择弃用,腾讯将这些环节叫做拉新、留存和流失。陈磊表示:“我们会分析流失客户的特征是什么。他在使用这个产品的时候,和在流失之前行为发生了哪些改变。通过用户使用产品的数据做了这样的分析之后,我们大致就能够理解某一类用户离开这个产品的主要原因,进而在产品上做一些改造,让这类用户对我们的产品更有黏性。这些都离不开数据和数据分析。”
产品在研发过程当中根据用户的使用习惯不停的调节,这个过程叫作“动态运营”。所谓动态运营的理念,将每一件事情都看作是一个小小的实验,或者将大项目分解为很多小的产品步骤,每一步都很小,这样每一步走对了或走错了,能够快速得到反馈。
陈磊说,过去很多企业运营的方法是先制订战略,然后根据战略去分解执行,半年之后总结执行情况。在今天,这种缓慢的应变机制是行不通的。
动态运营将产品更新的决策权交到用户手中,这就是业务前线化(FOT)中后段决策让位于分布式前端一线决策的例证。大数据为动态运营提供了有力支撑。
让广点通脱胎换骨
大数据对广点通影响可谓脱胎换骨,关键的一件事情就是对数据的实时处理和采用。据陈磊介绍,过去广点通只能将前一天的用户点击行为进行数据分析,在第二天来使用,显然无法满足广告业务的要求。在大数据的支撑下,腾讯逐步将分析方法变成相隔一个小时,15分钟,到最后做成只差几秒,数据就能够回流,并且能够在下一次给用户展示广告的时候去使用。
据悉,广点通不仅对数据的实时性要求非常高,对数据的准确性要求也一样。例如,一些用户填写的数据未必是真实的,在数据的采集和流转的过程中,对海量数据的保真提出了挑战。腾讯在应对数据的海量、精准和实时的挑战过程中研发了大量的产品。
为不同的用户做精准推荐
腾讯与小米曾有过两次合作,第一次是红米手机,在90秒钟订出十万部手机,第二次是红米Note开售,在第一秒的时间有41.9万次点击。从最后的结果上看,这两次活动做得非常成功,其背后除了小米营销策略的功劳之外,腾讯利用大数据找到对红米手机有潜在需求的用户并精准推荐也是原因之一。
另外一个案例是腾讯通过大数据的手段去运营《穿越火线》这款游戏。在这个游戏的热度开始下滑的时候,腾讯利用大数据做了大量的留存活动,这些活动是针对玩家喜欢这个游戏的原因去做的。陈磊介绍说:“比如一些玩家是因为有几个比较好的朋友经常组队去打游戏,那么我们通过好友邀请他,重温一下过去打游戏的好时光,让他再回来使用这个游戏;有一些用户把某一类武器玩得非常好,但是这个武器已经打到极致了,这时候我们就会创造新的武器。通过这样的方式来让用户持续玩这个游戏,要对这个用户的特点有很清楚的认知。”
精准推荐的前提是用户画像,在游戏领域的应用着实超出想象。据悉,腾讯微博建立SocialData体系挖掘社交大数据为用户画像。
腾讯的大数据服务
大数据的实现需要IT基础设施和工具的支撑,这里涉及很多技术方面的问题,腾讯很多的系统都是自主研发,比如数据采集的系统和任务调度的系统。至于其中的技术,并不是我们这次要探寻的重点,但这里还是要介绍腾讯的三类大数据服务,它们是腾讯在自身利用大数据以及用大数据服务客户过程中留下的坚实的足迹。
目前,腾讯通过腾讯云给客户提供三类免费的大数据服务:
TOD Tencent Open Data
Tencent Open Data是基于腾讯的大规模计算集群,提供数据采集、自助加工、任务调度等能力的云端大数据解决方案。其优势在于:不用采购任何物理设备,即开即用;不用担心数据量膨胀的时候无法扩展;只需要开发业务逻辑,其他部署、运行、监控都交给TOD。
例如,你可以用TOD分析apache访问日志,定义一个每天都执行的任务收集访问日志的有用信息,然后定义一个每周运行的任务汇总加工访问信息,最后定义一个数据导出任务将数据导出生成周报。TOD能够处理真实数据加工中各种不确定性因素。只要你设定了运行规则,TOD就可以确保任务流按照设定的规则运行。
信鸽
信鸽,是一款移动APP推送平台,支持亿级的通知/消息,能在Android/iOS平台进行各类高级自定义的推送操作,秒级触达移动终端用户。开发者可以方便地嵌入SDK,通过API调用可或视化操作界面,实现对特定用户发送通知/消息,提升用户活跃度,激活沉睡用户,并实时查看推送效果。
信鸽可为应用用户设置多种标签,包括地理位置、应用版本号、活跃度,更可结合行为的记录自定义为“在深圳喜爱川菜的女白领”,“超过7天未登录游戏的大学生”、“有高消费潜力的土豪”等。根据业务、用户行为等圈定不同用户群体并将其账号保存成号码包文件,通过信鸽前台上传,做特定的运营推广活动,达到精准触达用户的目的。
信鸽pro高级标签,可基于腾讯大数据优势,基于玩家的在线时长,使用频率,付费、登录行为,游戏关卡的失败率、道具使用购买统计等因子,建立流失用户预测模型与付费用户预测模型。模型可精准预测潜在流失与付费用户,预测覆盖率超过85%,准确率超过91%。利用信鸽对潜在流失用户群推送针对性的营销活动,回流率比随机推送提升120%。
MTA腾讯云分析
腾讯云分析是专业的移动应用数据运营平台,支持iOS和Android。开发者可以方便地通过嵌入统计SDK,实现对移动应用的全面监测,实时掌握产品表现,准确洞察用户行为。前面我们已经提到,2014年第二季度报告中,接入腾讯云分析的APP覆盖设备超过15亿。
腾讯云分析的功能及优势包括:
(1)APP数据的收集:比如新增、活跃、留存、用户画像、渠道数据等等;(2)行为分析:用户在使用APP的时候其实是一系列的过程,尤其像支付购买这样的操作,到底是中间那个环节导致用户流失,通过行为分析中的路径分析、页面来源就可以清楚的了解到,其次像用户在页面的停留时长、打开次数也会有统计;(3)自定义事件和漏斗模型:帮助用户自主的去统计小到按钮的点击行为,完全可以自主控制,还可以将用户行为串联起来形成一条自主路径,观察用户的行为;(4)错误管理:帮助开发者管理应用错误,找到错误根源,同时对于应用数据的突变支持通过微信服务号告警;(5)专门的游戏分析:针对游戏应用这个庞大的群体,云分析推出专门的游戏分析,可以细致的分析到玩家在关卡、对战中的行为,充值、购买道具的行为。
腾讯云分析对开发者的作用主要有两方面:一是开发者可以通过自己的数据波动找到产品优化的方向,比如一款游戏,如果发现某个关卡用户流失严重,那是不是要优化关卡,或者推出游戏攻略、关卡奖励等活动;二是开发者可以通过数据知道自己运营效果,比如一款应用,在相关媒体网站上发送文章,引来一部分用户,引流的量是多少,是否和之前的的预期一样,效果会持续多久,这样就可以预估活动的频率和范围。
云分析其实还存在更大的潜力,就是对背后数据的挖掘,以信鸽pro为例,众所周知大部分的挽救留存率的方法都是亡羊补牢,用户已经开始流失了再去做活动,效果已经不明显了,如果可以在用户离开之前预测到他的行为,就可以极大提升留存,这里就涉及到用户行为的预测,而云分析的数据能力就体现在这里,先收集用户的行为数据,然后对用户行为进行分析,最后预测用户未来可能的动态,这样的数据对开发者来说才是具有最大价值的数据。
[关键词]网络大数据;现状;存储;科技;展望
doi:10.3969/j.issn.1673 - 0194.2015.12.138
[中图分类号]TP311.13 [文献标识码]A [文章编号]1673-0194(2015)12-0-03
近年来我科学技术高速发展,互联网科技、云技术、IT通信技术等迅猛发展,给各行业领域带来了重要影响。但与此同时数据的快速发展也成为行业领域应用科学技术过程中的挑战。信息时代高速发展背景下,我国已步入大数据发展阶段,大数据的发展应用给人们带来了较多积极影响,对企业发展运作等也起到了关键作用。网络大数据给社会发展和人们生产生活带来机遇和挑战,因此加强大数据研究至关重要。本文首先论述对网络大数据研究的必要性,其次对网络大数据发展现状展开详细论述,最后展望大数据发展前景,实现大数据时展与科技的有机结合,促进网络大数据规模进一步扩大,以给人们带来更大的便利。
1 网络大数据研究必要性分析
网络大数据应用广泛,无论是经济发展领域还是军事、文化发展领域,网络大数据都发挥着重要作用。加强网络大数据研究对维护国家网络空间数字,保证经济、文化稳定持续发展,提高国民经济竞争力,实现科技突破等都有着至关重要的作用。无论是直接影响还是间接影响,加强网络大数据研究十分必要。
1.1 加强网络大数据研究,实现网络空间数字保护
近年来我国已步入信息化时代,国家综合实力的竞争也包括信息时代下网络大数据的规模及运用能力的竞争。我国大数据规模发展逐渐壮大,且对大数据的运用和管理能力也逐渐提高,这使我国掌握了网络空间数字,即作为一个发展大国重要的博弈空间。若我国网络大数据应用落后,就会直接影响我国占领产业战略制高点,出现网络空间发展不足的情况,影响国家数据使用安全。就2013年3月美国投资启动的“大数据研究和发展计划”来看,美国政府加大对大数据的重视和研究,并强调“大数据的应用关系到美国国家安全,对科学技术发展进程有着直接影响,同时对教育改革等领域都有一定影响”。这说明网络大数据已上升到国家意志领域,对国家信息安全、经济发展、社会稳定等都有着关联影响。
1.2 网络大数据与国民经济核心产业有着直接关联
“人、机、物”三元世界的交互发展产生了大量数据,为充分实现对网络大数据的感知和利用,国民经济发展过程中要有效解决对大规模数据的测量和应用,以促进经济发展中各行业数字化和信息化,解决行业发展过程中出现的网络大数据爆炸阻碍。因此加强网络大数据研究,解决大数据基本共性问题十分重要。例如,针对非结构化数据的统一表示和分析,现阶段尚未采取有效的工具和手段,而通过对大数据问题的研究分析,能够增强企业处理网络大数据的能力,使企业更全面认识大数据处理的成本,促进企业进一步实现数字化。这也是网络大数据研究的重要意义,有助于促进新一代信息技术融合,推动信息产业经济增长值高速发展,是各行业提升综合实力的新动力。
1.3 网络大数据研究与新兴产业发展相关联
信息时代背景下在科学技术上实现网络大数据技术研究突破,能促进数据服务以及数据材料等相关战略性新兴产业的兴起与发展。实现网络大数据的技术研究和科技突破,能使人们更清楚地认识数据交互连接的复杂问题,并准确把握数据冗余与缺失等不确定性特性,以更好地实现对高速增长数据的驾驭。对大数据不确定性和涌现性的把握,能使大数据应用者从数据中挖掘到实际需求信息,实现对网络数据的充分利用。网络大数据并非行业发展过程中的副产品,而是行业发展各环节的关键纽带,其能够通过网络数据信息的分析和把握,提高行业生产效率,实现对成本的有效控制,同时,在大数据驱动下,能促使数据能源、数据制造等战略性新兴产业的崛起与发展。
2 网络大数据现状
2.1 网络大数据特点
网络大数据主要是指“人、机、物”三元世界在网络空间交互过程中产生的大量数据,可通过互联网进行查询使用,即称为网络大数据。据IDC报告,根据近年来大数据增长形势来看,到2020年将实现35 ZB。IBM针对网络大数据特点来看,主要包括大量化、多样化、快速化3个明显特点。
在信息化时代背景下网络空间数据增长迅猛,数据集合规模已实现从GB到PB的飞跃,网络大数据则需要通过ZB表示。在未来网络大数据的发展中还将实现近50倍的增长,服务器数量也将实现近相同数量的增长,以满足大数据存储。网络大数据的类型多样化,例如结构化数据、非结构化数据等。在互联网时代背景下网络大数据越来越呈现非结构化数据增长,据相关调查统计,在2012年底非结构化数据在网络数据总量中占77%左右。这种类型结构数据的产生与社交网络以及传感器技术的发展有着直接联系。另外,网络大数据还具有快速化特点,其突发涌现状态演变使人们对数据的评估和预测难度加大。大数据一般情况下以数据流形式快速产生,且具有动态变化性特征,大数据的时效性要求用户必须准确掌握网络大数据数据流才能更好地利用这些数据。
2.2 网络大数据的感知问题
网络大数据自身具有跨媒体关联特点,且能够实现多主体互动,这给大数据的感知与获取带来一定问题。按照网络空问中数据的蕴藏深度,整个网络空间可划分为Surface Web和Deep Web,或称作Hidden Web。Surface Web是指Web中通过超链接可被传统搜索引擎获取到的静态页面,而Deep Web则由Web中可在线访问的数据库组成。Deep Web的数据隐藏在Web数据库提供的查询接口后面,只有通过向查询接口提交查询才能获得。与Surface Web相比,Deep Web所包含的信息更丰富。同时,Deep Web具有规模大、实时动态变化、异构性、分布性以及访问方式特殊等特点。为充分利用Deep Web中的数据资源,需要充分获取Deep Web中高质量的数据并予以集成,整个集成过程可分为数据获取、数据抽取和数据整合3个环节。
2.3 网络大数据挑战
网络大数据在开发与应用过程中正面临着诸多挑战,这与用户需求的提高有着直接关系。目前就网络大数据发展形势来看,其主要面临的挑战包括大数据的复杂性、不确定性以及涌现性。
网络大数据的复杂性使其诸多环节操作运行难度增加,包括数据存储、数据分析处理以及数据深度挖掘等。大数据的复杂性又包括其类型的复杂,如社交网络与传统文本数据的相互发展,使其类型更加丰富;数据结构复杂,包括移动技术以及社交技术发展下形成的结构数据流以及非结构化数据流,具体形式包括文本、图像等,这给网络大数据管理与分析带来了难度。大数据的不确定性包括自身以及模型的不确定,这给大数据建模带来较大困难,使用户不能充分利用其自身价值,既是对数据资源的浪费,同时也无法全面满足用户需求。另外,网络大数据还面临着涌现性带来的挑战。这主要是指网络大数据与其他数据之间存在的本质上的区别,也是网络大数据的关键性特点。大数据的涌现性直接给用户以及相关研究人员增加数据驾驭难度,使之无法准确实现对大数据的测量和预测,包括大数据的数据结构、功能等。
2.4 网络大数据分布式数据存储问题
就目前网络大数据处理规模以及存储形式来看,已实现从TB级到PB、EB级的转变。在实现等级上升后,为更好地实现对数据存储成本的控制,实现计算资源优化利用,以及提高系统整体的并发吞吐率,要积极探究出更加有效的存储模式,实现目前网络大数据分布式数据存储方式。Google公司提出的GFS、MapReduce、BigTable等技术是分布式数据处理技术的具体实现,是Google搜索引擎系统的3大核心技术。此后,Apache软件基金会推出开放源码的Hadoop和HBase系统,实现了MapReduce编程模型、分布式文件系统和分布式数据库。Hadoop系统在Yahoo、IBM、百度、Facebook等公司得到了大量应用和快速发展,但作为新兴的技术体系,分布式数据处理技术在支持大规模网络信息处理及应用等大数据计算应用能力方面还存在很多不足。
分布式数据存储是网络大数据应用的一个重要环节。但之前的研究工作仍存在一些局限性。针对海量数据存储和处理所面临的数据总量超大规模、处理速度要求高和数据类型异质多样等难题,需要开发支持扩展度高、深度处理的PB级以上分布式数据存储框架,同时需要研究适应数据布局分布的存储结构优化方法,以提高网络大数据存储和处理效率,降低系统建设成本,从而实现高效、高可用的网络大数据分布式存储。
网络大数据对各行业领域发展都有着积极影响,对数据库建设以及知识工程建设等有着推动作用,且被广泛开发和应用。但大数据的海量规模以及复杂性等自身特征,直接给大数据开发和应用带来一定阻碍,使各领域研究很难直接进行应用。因此,加强对网络大数据的研究和开发,形成相对统一的标准进行大数据研究至关重要。
3 网络大数据展望
网络大数据深度研究与开发对多行业领域发展都有着积极影响,针对现阶段大数据面临的机遇和挑战,要加强大数据与科技融合,对大数据复杂性、涌现性以及不确定性等特性实现整合优化,促进网络大数据规模进一步扩大发展。
3.1 网络大数据实现大规模发展趋势
就目前网络大数据时展来看,发展速度快、结构复杂程度加大。原有的Hadoop技术无法满足大数据时代的发展需求。在信息化、数字化发展潮流下,大数据规模将进一步扩大,且数据类型和复杂程度将进一步加大。为适应该发展趋势,要不断加强创新研究,例如对全球著名的分布式数据库Spanner的研究利用。在今后的大数据研究应用中,要以分布式数据库为基础,加强存储模式的开发利用,并结合SQL语法,实现数据高效操作。
3.2 数据资源化
网络大数据包括各类型的数据信息,信息量超大,且蕴含着不可估量的价值。换句话说,准确把握网络大数据,即掌握了丰富的信息资源。网络大数据存在着丰富的价值链,无论从哪个角度出发,网络大数据都发挥着不可替代的资源优势。大数据中的价值链来自数据本身,也包括大数据技术等,但离开技术以及其他因素的数据资源则是其核心价值优势。另外,将不同的大数据信息整合,即实现资源整合,将创造出不同的价值。
3.3 网络大数据推进科技融合
网络大数据时代背景下,IT通信技术、云技术以及物联网等技术飞速发展,在实现技术融合的同时,也实现了学科交叉发展。大数据规模的扩大和发展离不开信息技术,即在进行大数据深度研究和创新发展的过程中要始终以信息技术为基础。同时,大数据的发展利用给各行业领域管理带来积极影响,实现了传统管理决策到大数据时代管理与决策的跨越。同时,在某些特殊领域,网络大数据也将发挥其功能和价值,不断吸引各跨学科人才参与其中,实现科技进一步创新发展。
3.4 融合以人为本理念
在今后的网络大数据发展中,要注重以人为本理念的应用。信息、科技时代的竞争,追根究底是人才的竞争,要根据人的需求和意识实现不断的创新发展。大数据时代以数据分析为前提,进行科学探索,实现科学决策。但数据分析始终无法代替人类的思维活动,要通过人的思维意识,推动大数据发展。随着IT通信技术以及物联网技术的发展,人们在大数据时展进程中扮演着不同的角色,既是大数据的使用者,也是其生产者,更多的是作为参与者,进一步实现人与数据之间的沟通合作。在今后的大数据发展中,要加强以人为本理念的应用,促进社会活动进一步变革创新。
3.5 实现网络大数据形象化
就目前来说,在人机交互环节中,人们侧重需要其可视化,即通过文本或图像编辑器等实现直接操作。在今后网络大数据发展过程中,要满足人们使用需要,进一步实现可视化。由于大数据本身具有复杂性和不确定性等特点,若在未分析前使用会大大削弱大数据的功能作用,只有经过分析才能实现数据的辅助作用。通过对大数据的分析和处理,以良好的形象显示给用户,促进用户高效接收,提高对数据的使用效率。目前大数据的主要显示形式包括曲线、报表等,在今后的发展过程中将实现更多种类的形式创新,满足用户的直观需求。
4 结 语
在“人、机、物”三元世界融合下产生的大规模数据给计算机运行和处理带来了较大挑战,同时也给行业发展带来了重大机遇。网络大数据具有一定的复杂性、不确定性、自身涌现性等特征,结合大数据自身特性进行深度分析和探究,能发挥大数据自身优势,进一步体现其价值功能。就目前网络大数据的现状来看,新时期大数据面临一定的挑战和机遇,加强大数据发展,促进网络大数据规模扩大分必要。进一步加强网络大数据研究,促进大数据高效、有序利用,有助于推进我国经济发展,进一步实现社会稳定,全面提高我国综合竞争实力,捍卫网络空间数字,促进国民经济核心产业发展,促进战略新兴行业崛起。网络大数据的发展与运用,对促进我国科技研发,实现信息深层次开发等都有着积极作用。在今后的网络大数据研究与应用中,要进一步发挥大数据优势,实现其自身功能和价值,使其更全面、广泛、高效地服务于各行业领域用户。
主要参考文献
[1]王元卓,贾岩涛,刘大伟,等.基于开放网络知识的信息检索与数据挖掘[J].计算机研究与发展,2015(2):456-474.
[2]黄恒君,漆威.海量半结构化数据采集、存储及分析――基于实时空气质量数据处理的实践[J].统计研究,2014(5):10-16.
[3]于兆吉,魏闯.大数据下主题数据库的研究现状与展望[J].沈阳工业大学学报:社会科学版,2014(3):263-267.
[4]嵇智源,潘巍.面向大数据的内存数据管理研究现状与展望[J].计算机工程与设计,2014(10).
[5]徐菲菲,雷景生,毕忠勤,等.大数据环境下多决策表的区间值全局近似约简[J].软件学报,2014(9).
[6]陈鹤群.大数据环境下医疗数据隐私保护面临的挑战及相关技术梳理[J].电子技术与软件工程,2014(16):51-53.
[7]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域――大数据的研究现状与科学思考[J].中国科学院院刊,2012(6).
美国加州斯坦福大学助理教授贾斯廷・古力马,正尝试把数学应用到政治学研究中,通过电脑对互联网上的海量博客文章、议会演讲、新闻报道加以统计分析,从而展开趋势判断。在这个29岁的青年政治学者眼中,“政治学已经日益成为一个数据密集型学科”。其实,成为数据密集型学科的远不止政治学,科学、广告、体育、公共卫生等大量学科和领域都正在从大数据技术中获益。
大数据技术的目标,就是从海量数据中挖掘信息、判断趋势、提高效益。在科技发达的英美等国家,一些大型互联网公司最先注意到了大数据技术的无穷魅力,并尝试在经营活动中加以运用。社交网站“脸谱”和视频网站“网飞”便通过搜集、整理用户在网络上留下的“足迹”,分析用户偏好、兴趣和需求,向用户推荐联系人信息或感兴趣的视频内容。
而在国家层面,大数据更是成为继边防、海防、空防之后,第四个大国博弈的空间。目前,以美国、英国为代表的发达国家正在将大数据上升为国家战略,加紧大数据的科学规划和统筹布局,确立大数据顶层设计。
英国
谋求“数据革命”先声夺人
目前,欧洲大多数国家尚处在大数据应用初级甚至启蒙阶段,不过,英国政府较早意识到了数据潜在价值对于政府部门提升工作效率的重要性。2010年年初,英国开通政府数据网站Data.gov.uk,开创了政府数据可再利用的网络先例,这也是英国政府提高政府工作透明度的重要表现。2012年11月,英国政府新的政府数字化战略,旨在使政府服务实现“默认数字化”,承诺2015年前开放有关交通运输、天气和健康方面的核心公共数据库,并投资1000万英镑建立世界上首个“开放数据研究所”(Open Data Institute)。
进入2013年,在经济低迷、财政收紧的背景下,英国政府依然在大数据技术研发上投入大笔资金,视其为支撑英国经济增长的重要科技力量。1月,英国商业、创新和技能部宣布,政府注资6亿英镑支持有关研究机构研发项目,发展八类高新技术。其中,大数据技术拔得头筹,获得1.89亿英镑的资金,政府计划通过在基础数据设施方面投入巨资,加强数据采集和分析能力,尽快促使英国在“数据革命”中占得先机。
从单纯计算能力来看,英国并不具有明显优势,但在数据掌握程度方面,英国在医疗保健、人口统计、农业和环境、数学和计算机科学领域有着世界上较为完整的数据集。尤其在医疗领域,2013年5月初,英国首个综合运用大数据技术的“李嘉诚卫生信息与发现中心”在牛津大学成立。这个研究中心总投资9000万英镑,其中,李嘉诚基金会资助2000万英镑。该中心包括“靶标发现研究所”和“大数据研究所”两个机构,拥有600多名科研人员,旨在通过搜集、存储和分析大量医疗信息,确定新药物的研发方向,减少药物开发成本,为发现新的治疗手段提供线索。英国首相表示,“医学研究新突破离不开信息获取与共享,而这一中心的成立,有望给英国医学研究和医疗服务带来革命性变化,它将促进医疗数据分析方面的新进展。”
美国
积极抢占“未来的新石油”
在数据领域占据领先地位的美国,则视大数据为“未来的新石油”。联邦政府将数据价值提升到了国家战略层面,启动落实两大项目,一是“大数据研究与开发计划”,资助大数据技术研发和应用;二是“开放政府计划”,设置Data.gov平台,推动政府管理向开放、协同、合作迈进。
2012年3月,美国总统奥巴马宣布启动“大数据研究与开发计划”(Big Data Research and Development Initiative),旨在通过推动和改善与大数据相关的收集、组织和分析工具和技术,提升从海量和复杂的数据集中获取知识和洞察分析能力,利用大数据进行科学发现、环境和生物医学研究。同时,高等院校响应政府计划,已经开始创建大数据相关课程,着力培养“大数据科学家”。
美国国家科学基金会、国家卫生研究院、能源部、国防部、国防部高级研究计划局、地质勘探局等六个联邦政府部门启动多个项目投资计划,提高从海量数据中访问、组织、收集发现信息的工具和技术水平,并与工业界、研究院所、非营利性机构共同开创大数据发展新机会。
美国联邦机构大数据资助计划
2009年5月,美国联邦政府实施“开放政府计划”(Open Government Initiative),这项计划提出利用整体、开放的网络平台,公开政府信息、工作程序和决策过程,以鼓励公众交流和评估,增进政府信息的可及性,强化政府责任,提高政府效率。同期,政府数据服务平台Data.gov正式向社会开放,要求只要不涉及隐私和国家安全的政府数据,均需在该平台公开。截至2012年11月,Data.gov共开放388529项原始数据和地理数据,汇集了1264个应用程序和软件工具、103个手机应用插件。为进一步完善Data.gov平台的功能,政府部门组织开发了数据分级评定、用户交流以及和社会交网站互动等功能,构建了OGPL(Open Government Platform )平台,提供开源的政府平台代码,允许美国任何城市、组织或者政府机构创建开放站点。开放数据与开源技术的融合应用,使得Data.gov真正成为汇聚社会智慧、大众创新的聚集地,进一步激发了社会创新力量。
关键词:计算机软件技术;大数据;应用
1大数据时代背景下计算机软件技术的主要类型
1.1云储存技术
在企业运营、管理以及个人办公中,云储存技术应用广泛。云储存技术离不开云储存体系,其中,分布式储存模式、数据保护模式较为常见。分布式储存系统是在不同独立的设备上储存数据,通过可扩展的系统结构分担储存负荷,系统的稳定性、可用性与传统集中式储存系统相比更高。在分布式储存系统中,主要由基础层、接口层、访问层等层级组成。其中,基础层主要是收集相关信息数据,并协调系统分布式文件的处理,在其他技术配合下还可以确保云储存系统的运行效率。接口层可以建立云储存项目,利用文件系统接口提供更高级别的存储系统接口,使系统可以通过接口实现远程管理[1]。云储存系统可以在很大程度上提升信息处理的效率,尤其是在大数据背景下,这一技术的优越性得以充分体现。除此之外,利用云储存技术可以为信息共享等提供更为有力的支持。
1.2虚拟化技术
虚拟化技术在近几年发展迅速,该技术是将计算机的实体资源进行转化,以更好的组态方式呈现出来,新的虚拟部分不受时间与空间的限制,是资源管理技术的一种。虚拟化技术主要包括虚拟机、平台虚拟化、存储虚拟化等类型,平台虚拟化主要指分离硬件平台与操作系统;储存虚拟化是指将硬盘等分成不同的逻辑储存空间。虚拟化技术的出现进一步提高了资源利用率,而且这一技术可以满足企业或个人不同场景的需求,可以进一步减少人力、物力的消耗,对于企业而言,可以提高其经济效益。大数据背景下,企业为了满足自身经营与管理的需求,对虚拟化技术不断研究与创新,使虚拟化技术在大数据时代下不断发展。
1.3信息安全技术
在大数据背景下,网络安全问题较为突出,网络技术的开放性使网络面临的攻击是多方面的,例如对网络通信协议的攻击或是对计算机硬件的漏洞进行攻击;网络的开放性与自由性使网络环境较为复杂,信息系统分布较多,导致网络病毒传播较为容易,病毒的传播渠道也更为复杂。与此同时,企业的财务、人力等重要信息在网络传播、储存过程中可能被非法用户截取,导致企业重要的商业机密可能有泄露的风险;非法用户假冒身份向其他相关人员虚假信息,严重破坏了正常的经营秩序,甚至造成了较大的经济损失。现阶段,较为常见的信息安全技术主要包括网络安全协议、攻击实施技术、网络防御技术、访问控制技术等。在大数据背景下,只有构建系统化的信息安全技术系统,才可以更好地防范网络安全风险,提升储存的安全性。
2大数据时代背景下计算机软件技术的应用
2.1数据开发与管理中的应用
在大数据背景下,企业为了进一步了解市场情况、获得更多的人员信息,不少企业、政府公共管理部门利用大数据技术、云计算等技术应用于数据开发中。数据抽样是数据开发的前提,利用计算机软件基础可以更好、更快地完成抽样调查工作,抽样调查结果为后续的数据开发工作奠定了基础。在数据开发阶段,相关技术人员可以通过计算机软件以及技术对内部信息或搜集到信息进行深入剖析,或者是通过计算机软件技术构建门户网站,成为社会大众了解企业或政府服务部门的一个窗口。一般情况下,内部数据开发主要包括信息数据导入、信息数据选取等内容。在数据开发过程中还包括数据通讯,即数据交换、分享的过程,这可以促进企业内部信息的流动,减少信息不对称情况,对企业的经营与管理发挥着重要的作用。在以上基础上,企业利用计算机软件技术进行数据评定,从不同的层面分析评定对象(信息)的价值[2]。目前,大部分企业已经在数据通信中较为普遍地使用计算机软件技术,主要是利用计算机软件技术与企业客户进行沟通与管理,对潜在市场客户进行预测分析,维持客户关系。在此基础上,对现阶段的数据通信管理中的漏洞进行排查,整改后使系统能够更好地服务于市场分析、客户关系维护等工作中,有利于企业制定更具针对性的服务措施。例如国内部分百货公司为了改善店面经营情况,选择与中国移动、中国电信等运营商合作,利用大数据技术查询目标人群的分布区域选择开店地址;对于周边区域内的目标人群流量、人群特征、人群来访频次进行搜集,基于大数据技术与区域内的商家进行沟通,为不同的商家提供服务与帮助,同时指导商家进行位置营销等;遵循人性化的管理理念,为企业拓展市场、维护客户关系提供有力的支持。
2.2信息查询与储存的应用
在大数据背景下,云储存技术等计算机软件技术被广泛地应用于数据搜索、信息储存方面,进一步改善了信息的储存空间,便于个人或企业进行信息储存。目前,不少企业都配置了虚拟化储存系统,采用分布式储存方式,使信息储存更为便捷与安全[3]。在数据储存中,若需要保存企业私密文件,可以利用云储存技术将文件上传至云端平台,并对文件进行加密处理,提高了重要信息安全防护等级。在紧急情况下,工作人员还可以从云端下载信息,对信息进行远程管理,及时解决部门工作中的突发问题,保证企业各个部门正常运行。对于个人用户而言,国内诸如WPS等办公软件都为用户提供了文件备份服务,用户在使用软件时可以自行选择备份地址与自动上传时间。以往,若用户在软件办公中因为不可抗拒因素突然关闭软件或者关闭电源,文件自然会丢失;而现在,办公软件可以自动将文件上传至云端,即用户个人备份中心,即使突然关闭软件或极计算机电源,个人用户也可以通过云端找回文件,不用担心文件丢失的问题
2.3商业监控的应用
在大数据背景下,借助计算机软件技术通过摄像头等电子设备可以进一步优化企业、公共区域的监控设备,通过接入网链路链接云储存系统,向管理人员提供监控区域的实时视频,了解人员、物品等情况,不受空间、时间的影响。
5月1日,贵阳全域公共免费WiFi项目一期建成并投入试运行。全域公共免费WiFi项目既为广大市民和游客提供了通讯便利,也迈出了发展大数据产业、打造“块数据”平台的重要一步。
日前,随着中信出版集团出版、大数据战略重点实验室撰写的《块数据――大数据时代真正到来的标志》一书出版,“块数据”的概念由此被更多人所熟知。所谓“块数据”,就是一个物理空间或者行政区域内形成的涉及人、事、物的各类数据的总和。大数据战略重点实验室认为,“块数据”理论创新将打破传统的信息不对称和物理区域、行业领域对信息流动的限制,通过对不同类型、来源信息的集成、挖掘、清洗,极大地改变信息的生产、传播、加工和组织方式,进而给创新发展带来新的驱动力,推动产业彻底变革和再造。
为此,本刊记者就“块数据”的建模、应用、规划等问题对话贵阳市副市长徐昊,为大家详细解读块数据。
《中国信息化》:以区域为范围的“块数据”要想充分发挥作用,政府在其中要起到主导作用。请问贵阳市政府在“块数据”分析应用中起到的作用是什么?如何协调数据提供方、建模方、应用方的关系?
徐昊:贵阳市委、市政府在推进“块数据”分析应用中起到的作用主要是:优环境、搭平台、聚资源、促应用。优环境就是积极营造有利于“块数据”发展的政策环境;搭平台就是积极搭建促进“块数据”发展的支撑平台,如大数据交易所、政府数据共享平台等;聚资源就是将各行各业的数据资源千方百计汇集融合,形成区域内的“块数据”;促应用就是促进数据资源的开发应用,实现数据资源到数据价值的转化。
在协调数据提供方、建模方和应用方关系的时候,主要是按照互联网思维,运用市场经济的手段,充分发挥各方的主观能动性,优势互补,互利共赢,让各方都有“利”可图,有钱可赚,有事可做,实现“羊毛出在猪身上,让狗来买单”。
《中国信息化》:除全城范围的免费无线网络外,贵阳市民何时能感受到“块数据”带来的便利?
徐昊:随着大数据时代的到来,贵阳市民也无时不在感受到数据带来的便利,除在尽情享受全城范围免费无线网络外,贵阳市民还在创新创业、民生服务等方面得到了众多的实惠和便利。如贵医附院引入的智能化门诊管理系统,对门诊挂号、门诊诊疗、门诊缴费及医嘱服药等过程进行设计,实现了从挂号到服药的联网管理,减少中间环节人为纠纷,更大程度地为患者提供了更加便捷的服务。随着即将开放的政府数据共享平台,市民必将会在更多领域得到更多的便利。
《中国信息化》:目前,贵阳市的“块数据”积累是否已经足够?陈旧的数据与新数据之间如何清洗、对接?
徐昊:数据无时不有,无处不在。近年来,各行各业都积累了大量的数据,但目前这些数据都还没有较好地汇集融合在一起。当前,为推动“块数据”的发展,贵阳正在全力推动无线全覆盖城市项目,即全域公共免费WiFi城市与贵阳城市云计算中心和大数据总线项目,建立一张统一完整的城市全域互联网络。在此基础上,形成城市的互联网主入口,聚集访客量和浏览量,不断拓展规模,推动“块”上数据的快速积累,再通过政府数据开放和企业数据有偿共享,收集形成贵阳的大数据汇聚平台,通过分析用户行为和数据,挖掘提炼数据价值,最终形成可用于交易的大数据产品。对数据之间的清洗、对接,主要还是要依靠市场经济的手段来实现,即通过大力培育数据清洗公司来发掘、开发利用数据价值。
《中国信息化》:请问贵阳市是如何引导“块数据”建模、应用的?
徐昊:目前,贵阳市在推进“块数据”的建模应用方面,重点是在创新创业、服务民生、倒逼政府改革等方面进行了探索应用。比如,在2015年初,贵阳市率先在住建局、交管局启动规范制约权力实施的“数据铁笼”行动计划,主要是以全行业业务办理过程管控、云计算的大数据应用、构建诚信体系等3条主线,搭建大数据(共享交换)和业务信息平台,依托大数据产业优势,加快网上政务建设,通过大数据运用,实现网络办公、审批、执法,确保权力运行全程电子化、处处留“痕迹”,让权力在“阳光”下运行,接受社会公众的监督,更好地方便群众、服务群众。
《中国信息化》:在传统行业纷纷拥抱互联网,走向互联网+的时候,“块数据”与条数据分别如何帮助传统行业转型升级?
徐昊:一般来讲,“块数据”比“条数据”的“4V”即 Volume(大量)、Variety(多样)、Value(价值)、Velocity(高速)的特征更为明显。它如同一个计算机的主板,建立起了一个开放、共享、连接的数据基地;各个行业和部门的“条数据”就如同一个个可插拔的板卡,它们只有融合并集成到主板上,才能发挥数据资产真正的功效。而在这种融合与集成的过程中,“块数据”表现出与“条数据”不同的特征和优势。对帮助传统行业转型升级来说,“块数据”比条数据更具有优势和活力。“块数据”将对一、二、三产业产生变革性的影响。农业方面,通过地理信息数据、土壤培育数据、市场信息数据等的高度整合,精准农业将会得到大力发展,农业的产、供、销体系将实现一体化;工业方面,强化工业物联网建设、3D打印技术运用等渠道,使工业生产走向智能化和定制化;服务业方面,中介机构日趋消弭,“互联网+”的模式正在将传统的商贸、金融、娱乐等行业解构重整,经济活动的网络化、精细化、可预测性特征将更加明显。
《中国信息化》:“块数据”有一定的应用范围,是否会涉及异地数据处理?
徐昊:“块数据”的核心是对海量数据的聚合分析,虽然它具有一定的应有范围,但它维度众多,可开发利用价值巨大。关于“块数据”的处理,只要拥有数据资源,在哪儿处理都不影响对“块数据”的开发利用。