首页 优秀范文 数据分析分析技术

数据分析分析技术赏析八篇

发布时间:2023-05-30 14:58:32

序言:写作是分享个人见解和探索未知领域的桥梁,我们为您精选了8篇的数据分析分析技术样本,期待这些样本能够为您提供丰富的参考和启发,请尽情阅读。

数据分析分析技术

第1篇

关键词: 税务数据分析;OLAP技术

中图分类号:TP399文献标志码:A 文章编号:1009-3044(2008)26-1622-01

The Application of OLAP Technology For Tax Data Analysis

LV Jia

(School of Computer Science & Technology, Soochow University, Suzhou 215006,China)

Abstract: Introduce the application of OLAP technology for tax data analysis,provide assistance decision function for the tax administration department.

Key words: tax data analysis; OLAP

1 引言

随着税务信息化建设的深入开展,特别是在国税系统内基本上已经以省级集中的模式完成了各个应用系统的数据集中工作,税务机关积累了大量的涉税信息,作为信息化高级阶段的数据分析利用已经渐渐成为税务信息化工作的重点。如何突破传统的统计报表模式,利用OLAP技术和丰富的数据资源进行税收数据深度分析,从而更好的为税收管理和辅助决策服务,是当前税收分析工作必须思考的问题。

2 数据分析

联机分析处理OLAP(On-Line Analytical Processing)是基于数据仓库的一种数据分析技术。它使分析人员、经理及管理人员通过对信息的多种可能的观察角度进行快速、一致和交互的存取获得对信息的深入理解。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。

OLAP技术在税收数据分析中可以应用于同行业税负分析。受市场均衡作用的影响,同一产品在生产技术工艺、原材料能源消耗方面有相近之处,适用税收政策有统一的要求,因此反映生产成本费用方面的指标有相同的规律特征。根据这种规律特征,以此检验个体数据指标的表现,找出差异较大的个体予以预警。

在具体实现时,使用星型架构进行建模。星型架构通过使用一个包含主题的事实表(用来存储数据和维关键字)和多个维度表(存放维的层次、成员类别等维的描述信息)来执行决策支持应用。在星形架构中主体是事实表,而有关维的细节则构作于维表内以达到简化事实表的目的,事实表与维表间有公共属性相连以使它们构成一个整体。

OLAP的基本多维分析操作有钻取、切片和切块、以及旋转等。钻取是改变维的层次,变换分析的粒度。切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。

当在OLAP服务器上建立好分析模型后,可以使用MDX多维查询语句进行查询,获取联机分析得出的多维数据集。MDX查询语句类似关系数据库中的SQL语句,也是通过SELECT语句获得查询结果。SELECT 语句可指定一个结果集,其中包含从多维数据集中返回的多维数据子集。若要指定结果集,MDX 查询必须包含以下信息:

1) 层次结构的轴或集的数目。最多可在 MDX 查询中指定 128 个轴;

2) 要包括在 MDX 查询的各个轴上的每个维度的成员;

3) 用于设置 MDX 查询上下文的多维数据集的名称;

4) 来自切片器轴的成员,将在该轴上对来自查询轴的成员进行数据切片。

3 结束语

如何从大量积累的历史数据中分析出有价值的信息,OLAP技术为此提供了一个有效的工具,通过建模后对数据切片旋转等操作,可以方便地对各项数据进行分析,从而为领导提供辅助决策功能。

参考文献:

第2篇

【关键词】智能交通;大数据;分析云平台;技术探讨;分析研究

随着时代的发展和信息技术水平的提高,大数据的发展已经遍布于各行各业,当然在交通运输方面也是如此。而且交通运输部因为运用了大数据分析云平台,在感知识别、网络传输、智能处理以及数据挖掘面都有了非常好的效果。而且在重大工程的实验中,通过加强对物联网、云计算等新技术的研究,还能提高本行业的信息化技术水平。

一、大数据时代智能交通系统的优劣分析

1、大数据时代改变传统公共交通管理路径。大数据的特点是内容丰富和全面,而且还有自己的传输方式,所以不受任何区域的限制。在传统的交通管理中,很容易因为不同区域的信息不够畅通,导致交通管理的效果不是很好,同时经常出现各种信息丢失的情况。而把大数据分析云平台的技术应用到交通管理中,不但能很好的完成不同信息的传递,而且还能最大限度的利用这些数据,发挥他们的作用,提高交通管理的质量和效率。2、大数据下智能交通的优势分析。首先,通过大数据分析云平台的应用,能在很大程度上降低各种费用,而且它还能很好的选择最为行之有效的车辆配置方案,保证道路交通一直处于比较畅通的状态。其次,当出现各种交通问题的时候,通过大数据的分析能给问题的处理和交通的调度提供良好的基础,提高交通的畅通性。最后,在交通监管的系统中,通过大数据分析,还能很好的完成各种事件的预测,降低失误的发生率。3、大数据下智能交通的弊端。由于大数据的应用能提高传递信息的效率,也就间接的会影响到相关安全隐患问题的发生。例如,在大数据下的智能交通,会因为相关人员的位置以及路线信息造成丢失,就会间接的给人们的生命财产造成威胁。除此之外,每个地方都有交通数据,而这些数据还能被大数据管理和应用,而很多车辆计算交通数据都是以静态方式存储,所以使系统所具备的特点无法被除本人以外的事物进行检索。

二、智能大数据的融合

1、关于成熟度的融合。在新时期下,无论是大数据的应用技术还是现代智能交通的技术都发展的非常速度,而且也越来越成熟。在现代化的社会中,无论是智能卡扣电子警察还是智能监控系统,都已经对处理的技术进行了智能化的应用,而且完整度和深度也在慢慢的加深。所以在这种情况下,大数据时代下智能交通很有可能成为新兴的应用领域中最先推广和运用的领域。2、关于技术的融合分析。就目前的大数据分析云计算平台来说,这项技术的应用结构和智能交通的平台系统结构融合度是非常高的,而且的大数据分析云平台技术在智能交通领域中的应用,给社会带来了很大的好处和效应。所以说,这项技术可以作为整个智能建设中的领导者,带领其他的子模块进行很好发展。3、关于群众基础的分析。对智能交通来说,智能交通面向的服务群里就是人民大众,广大人民群众来说,智能交通直接影响着人们的出行,给人们带来非常方面的出行信息,在很大程度上方便了人们的出行,而且也降低了整城市的运营成本。更重要的是,人民群众的生活也越来越有秩序,也会给交通执法人员降低出勤的频率。

三、云平台技术特点的分析

1、可以有效的整合交通大量的数据信息资源。云平台计算技术最大的额特点就是能很好的整合数据信息,将不同系统的信息资源,交通对象信息资源以及和交通工具信息资源等有效的分类和整理,同时还能利用大数据分析处理技术,解决大量信息的时效性。2、可以提高交通数据信息的利用率,将数据信息发辉出最大的价值。因为云计算最大的特点就是整合数据,所以在智能交通的中运用这项技术,能在很大程度上帮助交通部门提取非常有用的信息资源,而且通过描述交通的情况,还能将数据信息发挥出它最大的价值,充分的将交通数据利用了起来。最后在通过大数据的应用技术,还能更好的优化信息的数据,提高云计算的分析能力。3、可以多维度的实时传输,提供个性化服务。在大数据下时代下,随着时代的发展和信息技术水平的提高,并通过云平台的利用,可以将路况信息通过电脑、电话等多种渠道进行传输,而且保证传输的内容是实时的、真实的和准确的,给人们提高非常好的个性化交通信息服务。最终实现道路交通管理的质量和高效。

第3篇

 

传统信息系统对数据的创建和使用的依据仅建立在业务流程和业务模型的基础上,实现底层业务关系数据的增删查改基础操作,而对海量数据、对不同类型和范畴数据的价值提取却存在不少的缺陷。与之相比,基于数学分析理论的数据分析技术侧重于海量数据处理,跳出传统信息系统的形式约束,可对已收集到的数据进行进_步统计分析和挖掘,从而获取这些数据更深层的意义或规律,更深入发掘数据背后的隐藏价值,能进一步提高信息利用率,提高数据效益。

 

如今,传统信息系统已逐渐无法满足对大数据的处理需求,中国的互联网、政府、金融、通讯等行业和企业都在逐步深入和逐步拓展对大数据和数据分析技术的应用,从结构化数据到半结构化、非结构化数据,以充分挖掘各行业数据的表层及潜在或隐藏的价值。同样,近年来,随着电力行业的信息化不断推广和深入,诸如电力营销管理、营配信息集成、GIS、资产管理等大型、复杂业务系统的建设和广泛投运,使得各层面的电网单位均面临着对诸如电费详单、用户分布、业务峰谷、服务器性能、存储数据等方面的巨大数据量的处理和管理上的难题,加之相对于金融、通讯等行业,电力行业的业务和用户数据的变化性和多样性较低,在价值提取方面更具难度,需要寻求适应企业自身需求的数据分析技术对这些数据进行更有效的统计、挖掘或预测。

 

1电力行业信息系统现状和数据分析需求一般情况下,基于信息系统的各项业务均存在峰谷分布特性,即在某_时段会集中发生大量业务操作,此时用户访问量大、操作数多、服务器资源消耗高、网络带宽占用大、数据库读写频繁;反之,在另一时段则是业务低谷期,此时很少外部用户访问业务系统,可分配服务器的一部分计算资源进行数据整理或备份操作。

 

应用系统层面上,根据电力营销系统的历史业务记录,可以看出,在用户缴费方面,本地供电局每月的用户缴费行为大体上集中出现在当月的第一周之后因此供电局需在用户缴费前完成大量的电费计算、核查和发行操作以确保用户可以顺利完成缴费。

 

服务器运维层面上,服务器计算资源的消耗与应用系统业务使用量成正相关关系,业务繁忙程度越高,服务器出现资源异常的可能性就越大,所以保障服务器正常运转的需求也越高。以电力营销系统为例,其系统架构总体上采用客户机一负载均衡设备一应用服务器一数据库集群一存储设备的结构建设,其中数据库的IO、日志文件同步等指标可在一定程度上反映出当前业务量情况所示为某月各工作日对数据库3个性能指标的执行等待时间统计,可以看出,从该月第二周开始逐步出现一定程度的数值升高,此处反映该时段内集中出现的客户缴费行为,引起数据库读写量和事务量上升,从而增加了事务的等待时间。

 

另外,服务器硬件发生故障的概率虽然大体上随着设备使用时长的增长而提高,但某些情况也会存在一定的偶然性和突发性。当在业务过程中出现硬件故障,尤其是在业务高峰期,会出现较为严重的影响,这也要求运维人员对业务高峰有一定的估测能力以及对设备故障有足够快的响应速度。

 

综上,不论是面向客户的行业主营业务,还是内部的服务器性能消耗和信息系统曰常使用,各项数据都在各方面存在一定的规律性特点或互相关联的因素,这不仅对上述的业务量或服务器性能统计来说如此,对行业内的各类具体数据同样适用。然而,目前对这些数据的利用往往只停留在表层的增删查改操作上,并不能很好地抽象出其中的特征或模式,造成信息利用率的下降。电力行业的数据具有数据量大、类型多、价值高的特点,对控制管理和企业盈利的影响甚多,有专家分析称,数据利用率每提高10°%,电网的利润则可提高20°%~49°%。为了适应大数据的逐步普及、适应企业的改革与转型、满足新阶段对信息技术的要求,亟需寻求合适的技术充分利用这些数据,实现对变化趋势的预测和拓展企业核心能力、提高企业经济效益的目的。2数据分析技术在电力行业的应用常用的数据分析方法包括聚类分析、相关分析、回归分析等涉及统计学和概率论的理论,目前市面常用的数据分析软件有SPSS、Stata、SAS、R、Matlab等系统,分别适用于不同专业程度的应用场景。

 

如今各行业已开始探索和采用这些技术来处理与行业自身相关的各项数据,例如对根据时间和话费等指标分析移动通信客户的消费行为[2]、利用收集的资料分析及发现银行零售业务的潜在客户[3]、利用关联分析等方法评价病人病因、处方及药物副作用[4]等,同样,在电力行业,可以从客户用电量、用电时间、客户分类和分布状况、季节和气候变化、政府法规政策、信息系统使用情况、计算和存储资源消耗状态等各项指标着手进行分析,实现相同或类似的目的。

 

利用数据分析技术处理电力行业数据,优化企业管理模式,提升企业经营水平,其适用场景包括以下方面。

 

2.1客户信息分析

 

类似于通讯行业的客户行为和消费分析,根据电力营销的大量的历史数据,一是可利用聚类分析的方式,在时间、空间和客户性质上分析客户的用电行为和用电规律,采用手动标签类别特征或对数据特征做自动聚类的方法,对客户群进行不同粒度的细分,从而可在不同层面制定不同的更具针对性的营销方案和服务模式,也可避免供电业务的一刀切问题;二是可利用关联分析的方式,统计收集到的可能与客户用电存在影响关系的电价、气候、环境、政策、交通等因素,提取这些因素与客户用电数据的相关性,找出对其存在显著影响性的成分,并据此优化客户的用电需求预测模型,从而通过多维的因素对市场和业务进行分析和预判,也可实现避免客户流失和发掘潜在客户的目的。

 

2.2业务服务质量提升

 

目前,电力业务普遍只为客户提供基础性的供电服务,仅确保客户能够正常用电。而随着企业的改革和转型,更大的需求是以客户为中心,从客户体验出发,提供更为全面和丰富的电力增值服务,可从地区、行业、客户等不同层面的用电明细历史数据提取出各自的用电规律和特殊需求,制定合理、优化的营销方案或业务套餐,或让客户根据自身的用电行为和趋势调整相应的用电方案,提高客户的用电效益。

 

2.3协助优化丨DC资源

 

如前文所述,信息系统的资源使用量往往取决于其业务的使用情况。对于营销系统,可从大量的客户缴费时间、缴费数量和对应的服务器资源使用记录中拟合出服务器资源随时间变化的占用曲线,并根据实际情况进行适当的业务窗口或后台数据处理窗口调整,在确保业务正常进行的前提下降低业务高峰和提高空闲时段的资源利用率,此外,对业务量和数据存储量的综合测算,可对系统的存储资源占用量趋势做出更为准确的短期和中期预测,避免存储资源池的短缺或浪费问题;类似地,对于企业门户、办公自动化、人力资源等内部业务系统,用户访问量分布和各端点间的数据交互数量则是影响其服务器计算和存储资源使用的主要因素,也是形成对服务器的采购、运维和升级的具体需求的来源之一。

 

2.4营销稽查数据的进一步分析

 

本地供电局于2013年建成在线稽查业务精益化管理平台,投运至今成效明显,其中部分重要规则共筛查差错样本2000多个,纠错挽回或减少经济损失约450万元,为营销稽查工作、营销业务单位自我诊断、风险管控提供了强有力的支持。在此基础上,根据对差错数据的数量、区段、等级、来源的分析,结合营销客户信息分析,可推断差错的性质、原因和客户用电行为、营销方案、收费操作之间的联系程度,趋利避害,进一步规避问题数据乃至偷电行为的出现。

 

2.5为电力基础设施建设提供支持

 

电力基础设施的选址往往需要以大量的前期调研为依据,其影响涉及地区性质、行业分布、人员密集程度、交通流量、气候条件等社会环境因素,此外,随着社会发展和城市建设,若干已有的线路规划、高压杆塔、变压器,乃至变电站、发电设施都可能成为发展阻碍成分,进行改建则需进一步花费人力财力。通过对相关数据的分析,可以预测当地的电力使用量和发展趋势为基建选址提供更多的客观的参考依据。

 

数据分析技术对电力行业信息数据的应用并不只局限于上述的若干场景,在未来的信息技术发展过程中,各个信息系统、业务线条、电力运营单位之间的数据界限将逐渐淡化,形成具有更高关联度的大数据整体,而大数据技术也会得到更广泛的应用。

 

3结语

第4篇

关键词:环渤海经济圈;面板数据;技术创新;FDI

1 引言

当前,环渤海经济圈的产业结构还是以劳动密集型和资金密集型为主,缺乏较短时间内能赶上发达国家所需的财力和更先进的技术。所以,发展高新技术产业,走自主创新与引进、消化、吸收并举的道路势在必行。

本文旨在通过环渤海经济圈中各省市技术创新能力的分析,找出差距,为其今后的创新之路提出一些建议。笔者主要通过研究FDI这一关键因素对其技术创新能力的影响来进行面板数据分析。

2 FDI对技术创新能力的影响分析

2.1 数据来源和模型设定

尽管本文考察的是技术创新能力与之间的相关关系,但由于理论模型是在假定其他因素不变的情况下推导得来的。因此在做实证分析时,其他经济变量不满足模型的隐含前提或重要的解释变量被遗漏,估计的结论就会大受影响。因此,笔者把R&D内部支出和人员全时当量作为控制变量引入模型中进行探讨。

笔者选取环渤海经济圈(北京,辽宁,天津,河北,山西,内蒙古,山东)2004-2009年共6年的数据来估计FDI对环渤海经济圈各省市技术创新能力的影响。各地区专利申请受理数,R&D内部支出和人员全时当量,取自2004-2009各年的《中国科技统计年鉴》。模型的核心变量FDI取自《中国统计年鉴》各地年末登记的外商投资企业投资额。

研究FDI对专利申请数量的影响效应要构造一个与生产函数类似的创新产出函数。再将其取对数,构造得出模型的基本形式表述为:

1ny=c+a1nfdi+β1nrdi+γ1nrdp。

其中,因变量Y分别用环渤海经济圈各省市总专利申请受理数,发明专利申请受理数、实用新型专利申请受理数和外观设计专利申请受理数来表示,作为衡量环渤海经济圈各省市技术创新能力的替代指标。RDI用于表示R&D内部支出,RDP用于表示R&D人员全时当量。

2.2 面板数据模型的选择

经过EVIEWS5.0面板数据模型的操作,模型中F2的估计值32大于显著水平1%下的临界值水平3.78模型中F1的估计值3.52小于临界值水平3.86可见这个模型形式设定检验是拒绝H2,接受H1。并且,经过Hausman检验,伴随概率1.00,模型无法拒绝个体影响与解释变量不相关的影响。综上,需要建立技术创新能力的随机影响变截距模型。同理,三种类型专利申请受理的模型也按这种分析方法进行。

环渤海经济圈各省市技术创新能力与FDI的关系模型形式为:

效应随机随机随机随机

2.3 面板数据模型分析

从表1中可以看出,四个模型总体的估计效果较好。对专利申请数影响最大的因素还是FDI,这种影响的回归结果都显著为正。从表中还可看出,这三个变量中,FDI对专利申请受理数的影响最大,弹性系数高达0.399。R&D内部支出的影响次之,弹性系数位0.164。R&D人员全时当量的影响不显著,未通过t检验,说明研发人员数量的增加对环渤海经济圈各省市专利申请数量提高的作用并不明显。综上可得,专利申请数量的提高,更多的是依赖于来自外资企业的溢出效应。

虽然FDI对环渤海经济圈各省市的技术创新能力提升有一定的促发效应,但是FDI的进入并不能带来其核心技术创新能力的实质性提升。从计量分析结果可以看出,FDI对外观设计专利影响有显著的促进作用,FDI每增加1%,外观设计专利数就增加0.817%。外观设计是三种专利中最为简单的创新,体现外商直接投资的技术示范效应和模仿效应,说明环渤海经济圈各省市总体上的技术创新还只处在简单模仿产品的外观设计及包装的程度上。FDI对发明专利和实用新型专利的影响与之差距很大。以上这些说明,环渤海经济圈的各省市往往处于价值链的低端,只是进行加工生产,难以获得核心技术。

另外,R&D内部支出的增加对发明专利的影响最大,每增加1%,发明专利数增加0.351%。其次为对实用新型专利数的影响,每增加1%,实用新型专利数增加0.142%。

而其对外观设计专利数的影响并不显著。R&D人员全时当量对这三种专利申请数的影响都不显著。

模型中,随机影响截距表示的是排除掉FDI对技术创新能力的影响,各省市技术创新能力的状况,可以理解成封闭环境下的基础技术创新能力。可以发现基础技术创新能力最高的是山东,远远高于其他省市;最低的是内蒙古。由此看出,环渤海经济圈各省市创新能力差距很大。

3 关于环渤海经济圈技术创新能力提升的几点建议

第一,通过FDI对专利申请受理的影响模型,二者之间的弹性系数较高。这说明,FDI的进入对各省市技术创新能力提升存在着一定的促发效应。它对本土人才的培养,企业管理水平的提升,知识技术的传播和扩散发挥积极的影响。因此,应进一步发挥FDI的积极作用,通过鼓励企业、科研院所、高校等机构与外资企业进行各种形式的深层次合作,进行产学研合作,进一步发挥其溢出和扩散效应,促进技术创新能力的提升。

第二,从FDI对三种类型专利的影响程度,发现其对外观设计专利数的影响最大。这说明FDI不能带来其核心技术创新能力的实质提升。因此,不要一味地认为FDI引入越多越好,应把重点转向国际研发型产业或高新技术产业。走自主创新,引进消化吸收再创新的道路是大势所趋。

第三,从四个模型看,R&D人员全时当量对技术创新能力的影响都不显著。这说明河北省科研人员的效率不高,对技术创新的作用未达到预期的效果。所以就应加大财力物力的投入,在高新技术开发区内培养一批优秀的科技开发队伍,并要积极完善人员的激励机制和经费的投入机制。

第四,从模型中的随机影响截距可以看出,各省市的技术创新能力差距很大,呈现不平衡发展。一方面,落后城市要向周围的先进城市学习,抓住地理优势,善于吸收先进城市的技术和经验,并善于利用周围城市人力和物力等资源。另一方面,先进城市可以形成扩散效应,加大对落后城市的土地能源的需求。

参考文献

[1]韩忠亮,朱敏.中国区域经济发展战略研究——环渤海经济圈发展研究报告[J].新经济研究,2009,(7):37.

[2]刘星,赵红.外商直接投资对我国自主创新能力影响的实证研究[J].管理世界,2009,(6):70.

第5篇

伴随社会不断的进步和物质需求与精神文明的逐步提高以及日臻成熟和完善的建筑施工技术水平[1],同时,也因日益增多的人口与土地资源的矛盾,高层建筑物越来越多[2]。

为了对建筑的安全性能提供严格保障,产生了针对高层建筑物的变形观测。所谓建筑物的变形观测就是对建筑物本身的水平位移观测、沉降观测、倾斜观测等等。沉降观测的意义是:能够有效的为工程施工质量和地基基础设计质量的评估提供依据,并能及时的反映出建筑体建造过程中随着负荷的增加,和地基附加压力的增大,其竖向压缩变形的沉降从零开始直至沉降稳定的变化情况。因此,工程施工过程中对建筑物进行沉降观测[4],具有非常重要的作用。

1 沉降观测原理与方法

1.1 建筑物沉降的原因

1.1.1 施工误差引起的变形

在建筑物的施工过程中,出现因施工误差而造成建筑物的荷载分布与预计分布不均匀的情况是不可避免的,这种细微的差错就会导致建筑发生形变[5]。

1.1.2 建筑物的合理变形

在建筑物施工和运营阶段,其自身结构形态造成荷载分布不均匀会导致建筑物发生形变。

1.1.3 外部因素

随着建筑物的建设,由于建筑物的荷载不断增加,其地基土在压力的作用下被不断压实,体积缩小,从而引起建筑的沉降变形。

1.2 沉降观测原理

沉降观测(亦称沉陷观测)是变形观测中用得最多的,它是指对所设置的观测点进行持续的垂直位移观测,根据工程特点分阶段地得出沉降观测成果,据此推断或验证工程实施的可靠程度[6]。

变形观测中沉降观测极为重要。沉降观测作业简单但精度要求高,它不仅能提供沉降量,还可以推算建筑物的倾斜以及水平构件的挠度等。工程建筑物从施工开始到竣工,以及建成运营后很长一段时间,沉降是不可避免的。沉降在一定的限度之内属正常现象,但一旦超过某一限度[7],就会危及建筑物的安全。

1.3 沉降观测方法

沉降观测的方法有:水准测量方法、三角高程测量方法、数字摄影测量方法、InSAR方法、GPS方法、地面沉降监测站(基岩标和分层标组)、地下水动态监测等[8]。

2 高层建筑沉降观测实例

2.1 工程概况

该项目占地面积为67854.09m2,建筑结构形式为框架剪力墙结构,地基类型为桩基基础。建筑设计单位为西南设计院,建筑施工单位为成都建工5公司;设计用途为住宅,层数为25。

2.2 观测点的布设和观测

2.2.1 观测点的布设

在建筑物的四角、大转角及建筑物的外墙每10-20m处或每隔2-3根柱基上布设沉降观测点。市场营销同时在高低建筑物、纵横墙交界处、建筑物裂缝或沉降缝两侧、框架结构建筑物部分基柱上设置观测点。间距大约15m,地质复杂以及膨胀土质的建筑物,在承重内隔墙中部设内墙点。片伐基础、箱型基础底板或接近基础的结构部分之四角处及中部位置设置观测点。

根据建筑物结构及基础吃力层特点,拟在建筑物主题布设12个沉降观测点,如图1所示:

2.2.2 沉降观测

采用天宝生产的DINI03电子水准仪及相应的铟瓦水准尺和尺垫按照二级水准观测精度,从基准点开始组成闭合、附合或结合水准路线进行观测。

2.2.3 沉降观测的周期

施工过程中3#楼每3层观测1次,封顶后每2-3个月观测1次,在主体竣工验收(静荷载加载完毕)时如沉降数据达到《建筑变形测量规程》规定的稳定标准,可停止观测,否则应继续进行观测工作,直至达到稳定标准为止。

3 沉降观测数据综合分析

图2详细记录了从第1期到第12期的各个观测点的高程数据,从表中可以看出随着建筑物的逐渐修建过程中,各个观测点的高程数据的值是在成逐渐减小的趋势,说明建筑体在发生沉降变化,也说明整个建筑的变化状态是符合理论实际研究的。

曲线在首次观测后即发生回升现象。产生这种现象的原因,一方面,可能是初测精度不高;另一方面,也可能是施工区内降水变化引起的;如果是施工区内降水变化引起的,则属正常现象。 如果是因为初测精度不高所引起的,曲线回升超过5mm,应将第一次观测成果作废,而采用第二次观测成果作为首测成果,如曲线回升在5mm之内,则可调整初测标高与第二次观测标高一致。

曲线的波浪起伏现象。曲线在后期呈现波浪起伏现象,此现象在沉降观测中最常遇到,常常是测量误差所造成的。曲线在前期波浪起伏所以不突出,是因建筑物下沉量大于测量误差之故,但到后期,由于建筑物下沉极微或已接近稳定,因此在曲线上就出现测量误差比较突出的现象。处理这种现象时,应根据整个情况进行分析,决定自某点起,将波浪形曲线改成水平线。

曲线自某点起渐渐回升。产生此种现象一般是由于水准点下沉所致,水准点是逐渐下沉的,而且沉降较小,但建筑物初期沉降量较大,即当建筑物沉降量大于水准点沉降量时,曲线不发生回升,到了后期,建筑物下沉逐渐稳定,如水准点继续下沉,则曲线就会发生逐渐回升现象。因此在选择或埋设水准点时,特别在建筑物上设置水准点时,应保证其点位的稳定性,如已查明确系水准点下沉的原因,则应测出水准点的下沉量,以便修正观测点的标高。

曲线在中间某点突然回升。发生这种现象的原因,是水准点或观测点被碰动所致,当水准点碰动后低于被碰动前的标高及观测点被碰动后高于被碰动前的标高时,才会出现回升现象的可能。由于水准点或观测点被碰动,其外形必有损伤,比较容易发现对这个问题必须进行合理的处理,其办法是:选择结构、荷重及地质等条件都相同的临近另一沉降观测点,取该点在同一期间内的沉降量,作为被碰动观测点的沉降量。此法虽不能真正反映观测点的沉降量,但如果选择适当,可得到比较接近实际情况的结果。

第6篇

关键词:函数性数据;修匀;函数性主成份分析;资产收益率

中图分类号:F276.1

文献标识码:A

文章编号:1002―2848―2007(01)-0108―06

一、前 言

在经济数据的传统定量分析中,所分析的数据对象具有这样的特征,即数据要么是时间序列数据,要么是横截面数据。而实际中获得的许多经济数据,往往是在时间序列上取多个截面,再在这些截面上同时选取样本观测值所构成的样本数据。计量经济学中称这样的数据为“平行数据”(Panel Da―ta),也被翻译成“面板数据”,或“纵向数据”(longitudinal data)。20多年来,许多学者研究分析了面板数据。事实上,关于面板数据的研究是计量经济学理论方法的重要发展之一,它在解决数据样本容量不足、估计难以度量的因素对经济指标的影响,以及区分经济变量的作用等方面,具有突出优点。但是,研究面板数据的计量模型,以线性结构描述变量之间的因果关系,且模型太过于依赖诸多的假设条件,使得方法的应用具有一定的局限性。为了弥补面板数据的计量模型分析方法及其它统计分析方法的缺陷,本文基于经济数据的函数性特征,介绍一种从函数视角对经济数据进行分析的全新方法一函数性数据分析(Functional Data Analysis,FDA)。

函数性数据分析的概念,始见于加拿大统计学家J.O.Ramsay和C.J.Dalzell于1991年发表的论文《函数性数据分析的一些工具》。6年后,J.O.Ramsay和B.w.Silverman(1997)将对函数性数据进行统计分析的已有理论和方法,总结在《函数性数据分析》一书中。但这本书偏重方法的理论介绍和数学推导,不利于统计基础薄弱者使用。经过5年的努力,J.O.Ramsay和B.w.Silverman研究了一些函数性数据案例,并将其具体的分析过程编入他们于2002年出版的专著中。虽然国外在这方面已经做了许多研究,也取得了许多有价值的结果,但是有关函数性数据的研究依然处于起步阶段,还有很多问题需要研究或进一步完善。另外,从方法应用的具体领域来看,很少涉及对经济函数性数据的分析。就目前研究文献来看,我国在此方面的研究尚是一片空白。

为填补我国在这方面研究的空白,本文从思想、方法等方面,对函数性数据分析进行系统介绍,并通过编写计算机程序,率先利用该方法分析实际的经济函数性数据。本文共分六部分,以下内容的安排为:数据的函数性特征及经济函数性数据实例、从数据的函数性视角研究数据的意义、函数性数据分析的目标和步骤、函数性数据分析方法的经济应用,最后一部分是本文的结论。

二、数据的函数性特征及经济函数性数据实例

一般地说,多元数据分析(Multivariate Data A-nalysis,MDA)处理的对象,是刻画所研究问题的多个统计指标(变量)在多次观察中呈现出的数据,样本数据具有离散且有限的特征。但是,现代的数据收集技术所收集的信息,不但包括传统统计方法所处理的数据,还包括具有函数形式的过程所产生的数据,例如,数据自动收集系统等,称具有这种特征的数据为函数性数据。

函数性数据的表现形式多种多样,但就其本质来说,它们由函数构成。这些函数的几何图形可能是光滑的曲线(如人体在成年前的身体高度变化等),也可能是不光滑的曲线(如股票综合指数等)。许多研究领域的样本资料往往表现为函数形式,如考古学家挖掘的骨块的形状、按时间记录的经济数据、手写时笔尖的运动轨迹、温度的变化等。函数性数据分析(Functional Data Analysis,FDA)的基本原理是把观测到的数据函数看作一个整体,而不仅仅是一串数字。函数指的是数据的内在结构,而不是它们直观的外在表现形式。

实际中,之所以要从函数的视角对数据进行分析,是因为:(1)实际中,获得数据的方式和技术日新月异、多种多样,例如,越来越多的研究者可以通过数据的自动收集系统获得大量的数据信息。更重要的是,原本用于工程技术分析的修匀(smoothing)和插值(interpolation)技术,可以由有限组的观测数据产生出相应的函数表示。(2)尽管只有有限次的观测数据可供利用,但有一些建模问题,将其纳入到函数版本下进行考虑,会使分析更加全面、深刻。(3)在有些情况下,如果想利用有限组的数据估计函数或其导数,则分析从本质上来看就具有函数性的特征。(4)将平滑性引入到一个函数过程所产生的多元数据的处理中,对分析具有重要的意义。

在经济分析中,融合时间序列和横截面两者的数据很常见,例如,多个国家、地区、行业或企业的多年的年度经济总量、多家商业银行历年的资本结构、能源(如电力、煤炭、石油等)多年按月的消耗量、不同时间上多个省市的失业数据等。这些经济数据往往呈现函数性特征,即每个个体对应着一个函数或曲线。在对经济函数性数据进行分析时,将观测到的数据(函数)看作一个整体,而不是个体观测值的顺序排列,这是函数性数据分析不同于传统统计分析之根本所在。例如,表1是工商银行、农业银行、中国银行、建设银行1995年到2004年期间的资产收益率(ROA)数据。

利用基于MATLAB编写的程序,对数据进行平滑处理(smoothing),并绘出四家国有银行的资产收益率(ROA)的修匀曲线(见图1)。由曲线图可以看出,每个个体(银行)对应着一条曲线(其数学表达式为函数),这是将多家银行的历年ROA数据记录看作函数的根本理由,也是函数性数据分析的出发点。

三、从数据的函数性视角研究数据的意义

从函数的视角,对具有函数特征的经济数据进行研究,会挖掘出更多的信息。例如,对函数性数据的平滑曲线展示,不但能够诊断出拟合数据的可能数学模型,还能够通过对光滑曲线求一阶、或更高阶的导数,来进一步探索数据的个体(横截面)差异和动态变化规律。

图2是四家银行资产收益率的速度(一阶导数)曲线,观察发现:在1995年至2004年期间,农业

银行、中国银行及建设银行的资产收益率的变化率,呈现出较强的周期性,其中尤以建设银行的表现最为突出。加速度曲线图显示,四家银行资产收益率的变化率的波动状况不相同,转折变化的时间差异也较大。这些情况一定程度表明,各家银行的内部管理与经营机制,对市场信息的反应快慢程度各不相同。

四、函数性数据分析的目标和步骤

函数性数据分析的目标与传统统计学分析的目标基本一样,具体情况如下:

(一)以对进一步分析有利的方法来描述数据;

(二)为突出不同特征而对数据进行展示;

(三)研究数据类型的重要来源和数据之间的变化;

(四)利用输入(自变量信息)来解释输出(因变量)的变化情况;

(五)对两组或更多的某种类型的变量数据进行比较分析。

典型的FDA主要包括以下步骤:

第一步,原始数据的收集、整理和组织。假设我们考虑的自变量是一维的,记为t,一个的函数仅在离散抽样值 处被观测,而且这些ti可能等间隔分布,也可能不是。在函数性数据分析中,将这些离散的观测值看作一个整体。

第二步,将离散数据转换为函数形式。这是利用各次观察的原始数据定义出一个函数x(t),它在某一区间上所有t处的值都被估算了出来。解决这个问题的基本方法是选定一组基函数 (t),k=O,…,K,并用基函数的线性组合给出函数x(t)的估计

第三步,多种形式的初步展示与概括统计量。概括统计量包括均值和方差函数、协方差与相关函数、交叉协方差(cross―covafiance)与交叉相关(cross―correlation)函数等。

第四步,为了使每一条曲线的显著特征都在大体相同的自变量处(如月份、年份等)显现出来,可能需要对函数进行排齐(regigtration),其目的是能够区别对待垂直方向的振幅变化与水平方向的相变化。

第五步,对排齐后的函数数据进行探索性分析,如函数性主成份分析(FPCA)、函数性典型相关份析(FCCA)等。

第六步,建立模型。建立的模型可能是函数性线性模型,也可能是微分方程。

第七步,模型估计。

五、函数性数据分析方法的经济应用

为了说明函数性数据分析方法的具体应用,同时出于使所绘图形简单明了,本文再次利用四家国有银行的数据,对资产收益率进行更深入的分析。虽然此实例中个体数少,但并不妨碍对方法应用的系统描述与理解。

在对实际问题的经济数据进行分析时,通常需要依照研究的目标编写计算机程序。就目前的研究现状来看,基于MATLAB或SPLUS等编写的程序,如绘图或综合计算函数等,完全可以满足分析的需要。本文首先基于MATLAB编写程序,然后对四家国有银行的资产收益率数据进行分析。

关于四家银行资产收益率数据的函数(曲线)展示与初步分析,本文在前面已进行了描述,具体结果见图1和图2。概括资产收益率特征的统计量(均值函数和标准差函数)的曲线见图3。

为了进一步探讨典型函数所呈现的特征,本文利用函数性主成份分析,对四家银行的资产收益率数据进行分析。一般来说,在函数性数据分析中,与多元统计中的某个主成份的权向量相对应的是主成份权函数(principal component weight function),记为 ,其中t在一个区间 中变化。第i个样品(个体) 的主成份得分值为 ,第一主成份就是在 的约束条件下,寻求使主成份得分 的方差达到最大的权函数 ,即它是下面数学模型的最优解: 类似地,可以求得第j个主成份,其权函数毛(t)是下面数学模型的解:

为了得到光滑的主成份,一种方法是对由上述方法求出的主成份进行修匀,另一种方法是将修匀处理过程,融入到主成份的求解过程中。具体作法是将描述主成份曲线波动程度的粗糙因子纳入到约柬条件中,形成带惩罚的约束条件。利用粗糙惩罚法求第j个主成份的数学模型是其中 称为修匀参数,用它可对粗糙惩罚项进行调整。

利用上述方法和基于MATLAB编写的程序,对四家银行进行函数性主成份分析(FPCA)。具体结果见图4。第一个主成份(PCI)的解释能力为85.5%,第二个主成份(Pc2)的解释能力为13.1%,前两个主成份的综合解释能力为98.6%。

为了清晰地显示主成份,并进行有意义的解释,在同一图中绘出三条曲线,一条是整体均值曲线,另两条是对均值曲线分别加上和减去主成份的一个适当倍数而形成的曲线,具体结果见图5(本文所选的倍数是0.12)。以上所述的三条曲线分别对应着图5中的实心曲线、‘+’曲线和‘*’曲线。第一个主成份反映了资产收益率(ROA)的一般变化,尤其反映了资产收益率的“两头”变化情况(1999年以前和2003年以后)。第二个主成份反映了资产收益率(ROA)的中段变化。

六、结论

在经济实践中,越来越多的领域所得到的样本观察资料是曲线或图像,即函数性数据。因此,对这种类型的经济数据进行统计分析和描述,具有重要的现实意义。因篇幅所限,还有一些函数性数据的分析方法未予以介绍,如函数性方差分析、函数线性模型、函数性典型相关分析以及描述动态性的微分方程等。由于本文的主要目的,是通过对函数性数据分析方法和具体应用的介绍,传述对数据进行分析的新思想,而不只是方法技术本身。因此,缺少的方法并不影响对思想的阐述。

另外,本文对四家银行资产收益率的分析,例证了函数性数据的分析方法,具有传统统计分析方法不可比拟的优越性,具体表现在:(1)通过对函数性数据的修匀,将一阶或多阶导数,如速度和加速度,引入到分析过程中。这一点在计量经济学和多元统计的分析方法中未予以考虑。(2)函数性数据分析,用最少的假设来研究曲线间和曲线内部的结构变化。关于这一点它优于计量经济学中处理“面板数据”的方法。事实上,面板数据只是函数性数据的一种类型,本文介绍的数据分析方法可用来处理许多领域的函数性数据,应用范围相对宽广,而且观测时点也可以不等间隔选取。(3)将数据曲线的振幅变化与相位变化分开处理,是函数性数据分析的一个中心理念,但在以前的分析中却被忽视了。

第7篇

关键词:信息技术;数据管理;数据挖掘;金融业

中图分类号:Z42文献标识码:A 文章编号:1009-3044(2010)01-18-02

Based on Data Mining in Financial Data Analysis

ZHU Jing, LI Shi-jun

(Computer Application academy of Computer Science, Wuhan University, Wuhan 430072,China)

Abstract:Today is the corporate strategy and its market position and is closely related to the era of information technology,it is difficult to imagine a modern enterprise with no proper support for information technology systems will be how it works. However, with the development of information technology, enterprise data generated by large numbers of accumulation and expansion, many of which are very valuable information hidden in them not being found by people. How these massive data management and extract potentially valuable information, as enterprises in the fierce market occupy the dominant position of the key points. Therefore, data mining techniques have emerged, and applied in various industries, has made extensive and significant progress. This paper is on data mining applications in the financial sector were discussed.

Key words: Information technology; Data management; Data Mining; Finance

作为一个新兴的研究领域,数据挖掘已经广泛的应用到了众多的领域,出现了大量大的商品化的数据挖掘系统,金融数据挖掘是信息社会中的一个极具挑战性的研究方向,金融数据的随机特性使得隐藏在数据中的内在规则难以被发现。如何对这些隐藏的数据进行管理,并从中提取潜在的有价值的信息,成为金融业在市场中占据优势地位的关键。

1 数据挖掘概述

数据挖掘DM(Data Mining)是对数据库中的数据进行一定的处理,从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含的、事先未知的、但又是潜在有用的信息和知识的过程[1]。确切地讲,DM是KDD过程中的一个步骤,其处理对象是大量的日常业务数据,它主要基于人工只能、机器学习、统计学等技术,高度自动化地分析原有的海量数据,做出归纳的推理,从中采掘出潜在的模式,预测未知的行为,提高信息的利用,改变“人们被数据淹没,同时却仍感到知识饥渴”的资源浪费的局面。KDD是数据库技术和机器学习两个学科的交叉学科,由于KDD使用的数据来自于实际的数据库,所要处理的数据量可能很大,因此DM中的学习算法的效率和可扩充性就尤为重要;此外,KDD所处理的数据由于来自于现实世界,数据的完整性、一致性和正确性都很难保证,因此数据预处理也是很有必要的。

2 数据挖掘在金融业的应用

金融事务需要搜集和处理大量纷繁复杂的数据,大部分银行和金融机构提供丰富多样的银行服务(如个人存款)、信用服务(如贷款、个人信用卡)和投资服务(如共同基金)。由于交易的频繁性、信息的不对称性加上从海量数据中挖掘信息,金融数据挖掘技术可以从这些信息中查找到有效的信息用来帮助监管部门及投资部门进行有效监督和投资管理,可以帮助银行部门描述客户以往的需求趋势并预测未来;可以分析潜在的信誉较差的客户,及时采取措施减少资产损失等。

金融机构收集到的金融数据通常相对完整、可靠并具有高质量,方便了系统化的数据分析和数据挖掘。对金融数据进行数据挖掘通常包含以下四个部分的应用分析情况。

1)为多维数据分析和数据挖掘设计和构造数据仓库。

首先需要为银行和金融数据构造数据仓库,应当使用多维数据分析方法分析这种数据的一般性质,企业可以通过按月、按地区、按部门以及其他因素,查看债务和税收变化,同时提供最大、最小、总和、平均值趋势和其他统计信息。数据仓库、数据立方体、多特征和发现驱动的数据立方体、特征化和类比较以及离群点分析都会在金融数据分析和挖掘中发挥重要的作用。

2)贷款偿还预测和顾客信用政策分析。

贷款偿付预测和顾客信用政策分析对银行业务是至关重要的。很多因素都会对贷款偿还履行和顾客信用等级评定产生不同程度的影响。数据挖掘方法,如属性选择和属性相关评定,可能有助于识别重要因素,剔除不相关因素。例如与贷款偿还风险相关的因素包括贷款率、贷款期限、负债率、偿还收入比、顾客收入水平、受教育水平、居住地区和信用史。分析顾客偿还史信息可以发现,比如说,偿还收入比是主要因素,而受教育水平和负债率则不是,于是,银行可以根据此调整贷款发放政策,将贷款发放给那些 申请以前曾被拒绝的,其基本信息表明风险相对较低的顾客。

3)针对定向销售的顾客分类与聚类。

分类和聚类的方法可用于顾客群识别和定向销售。可以使用分类识别可能影响顾客关于银行业务决策的最重要因素。使用多维聚类技术,可以识别对贷款偿有类似行为的顾客。这些可以帮助识别顾客群,把新顾客归到一个合适的顾客群,推动定向消费。

4)洗黑钱和其他金融犯罪的侦破。

为了侦破洗黑钱和其他金融犯罪,重要的是把多个数据库(如银行交易数据库,地区犯罪历史数据库)中的信息集成起来,只有这些数据可能与侦破工作有关。然后,使用多种数据分析工具检测异常模式,如在某段时间内分析某些人发生的大量现金流动。使用的工具包括数据可视化工具(用图形的方式按时间和按顾客群显示交易活动)、链接分析工具(识别不同顾客和活动之间的联系)、分类工具(过滤不相关的属性,对高度相关属性分类)、聚类工具(将不同案例分组)、离群点分析工具(检测异常资金转移量或其他行为)、序列模式分析工具(刻画异常访问序列的特征)。这些工具可以识别活动的重要联系和模式,帮助调查人员为进一步详细调查提供可疑线索。

3 结束语

数据挖掘已在我国金融业信息化建设中被广泛应用,帮助企业在激烈的市场竞争中取得优势地位,并显现出巨大的应用前景。我们不要求十全十美,但要尽量做得好一些,特别是我国加入WTO后,金融开放将使我国金融业直接面对外资金融机构的挑战,但同时血给我们提供了机遇和发展的空间。加强对外技术经验交流,继续深化体制改革,充分挖掘自身独特的优势,创新产品服务。加强客户关系管理,这将是我们在激烈的竞争中取得长足发展的关键。

参考文献:

[1] 李学勃.数据挖掘在金融业的应用分析[J].万方数据,2009(10).

[2] 易东云.金融数据挖掘中的非线性相关跟踪技术[J].软件学报,2000(11).

第8篇

[关键词]数据分析;大数据;智慧校园;决策支持

1国内外研究开发现状和发展趋势

1.1现状与趋势

在当今大数据、云计算、物联网和移动互联网等新思路、新技术快速发展的又一历史时期,高等教育面临着前所未有的发展机遇,在经历了网络化、数字化、信息化管理阶段之后,“智慧校园”将是在“互联网+教育”趋势下最重要的发展思路。随着计算机技术的不断发展,各种系统结构化和非结构化数据以前所未有的惊人速度迅猛增长,“大数据”时代已经到来。大数据是指数据结构比较复杂、数据规模大的数据集合。其数据量已经远远超出了一般数据管理工具可以承受的处理时间以及数据处理及存储管理能力。在当今大数据环境下,高校管理系统的数据结构及数据量发生了巨大的变化。在数据存储、数据管理、数据分析及数据挖掘等方面面临着巨大的机遇和挑战。为了有效地利用大数据为高校决策分析提供更好的服务,必须基于大数据建立相应的数据分析系统。

1.2国内外研究与开发综述

随着大数据的发展和教育信息化的不断深入,基于大数据开展的高校校园数据分析与应用逐步受到重视。对大数据的定义始终没有形成统一的意见。维基百科对大数据(Bigdata)的定义是:所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息。麦肯锡全球研究院将大数据定义为:无法在一定时间内使用传统数据库软件工具对其内容进行获取、管理和处理的数据集合。加特纳(Gartner)于2012年修改了对大数据的定义:大数据是大量、高速、多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与优化处理。而在高校学生数据的分析应用方面,国内外高校均有开展相关的研究。纽约州波基普西市玛丽斯特学院(MaristCollege)与商业数据分析公司Pentaho合作发起开源学术分析计划,旨在一门新课程开始的两周内预测哪些学生可能会无法顺利完成课程,它基于商业分析平台开发了一个分析模型,通过收集分析学生的学习习惯,包括线上阅读材料、论坛发言、完成作业时长等数据信息,来预测学生的学业情况,及时干预帮助问题学生,从而提升毕业率。上海财经大学基于校园信息化数据基础,开发了校务决策支持系统,面向人才培养、内部管理、科学研究和师生服务等方面开展决策分析;华东师范大学利用校园信息化基础数据,开展了校车人数与载客分布分析,提升了校车使用率;利用一卡通数据开展了贫困生的特征确定、潜在贫困生分析、后续跟踪验证,有效提升了帮困扶贫的工作效率。

2需求分析

结合西安欧亚学院信息化建设基础与海量的数据积累,建立“智慧校园”数据分析系统,通过此平台的建设和应用,运用数据挖掘和知识发现,从而在大数据中获取数据之间内在的相互联系,以及其中可能存在的某种规律,从而有效提升校园管理的决策效率,提升教学科研与管理服务的综合水平。通过调查走访各部门,了解教师、学生与行政管理人员的相关需求。主要包括四个方面:一是教学数据分析需求。包括各分院、招生办、教务处等部门对于招生、学生学习行为、教学质量、学科建设与学生就业等方面的分析。二是生活服务数据分析需求。包括图书馆、后勤等部门对于学生的消费行为即图书借阅、网络行为、资源利用等项目的分析。三是财务、人事、宣传等部门对于全校的资产、师资力量、宣传效果等项目的分析。四是研究发展部门对于全校科研项目与成果完成情况的分析(见图1)。

3系统方案设计

3.1框架设计

结合需求情况,开展系统的总体框架设计,初步将系统分为三大板块,包括数据监测、决策支持和查询定制(见图2)。

3.2系统方案

系统总体架构包括四个层次,分别是数据引擎、数据挖掘、数据库解决方案和交互平台。数据引擎部分将集成校园WIFI、固网、一卡通、教务系统等各类信息系统的数据,形成数据源,数据挖掘将通过分布式计算架构和数据分析平台对潜在数据进行分析与建模,通过数据库建立本系统的分析数据库,最终通过PC、手机等客户端向用户进行呈现(见图3)。

3.3典型应用研究内容

3.3.1教学质量评估教学质量评估属于高校定期必须完成的任务,教学评估的主要目的是更好地发掘出教学过程中存在的一些问题,从而及时地对教学方法进行调整,最终实现教学质量的提升。将大数据运用到高校教学评估系统之中,不但能够在很大程度上提高高校教学管理的科学性,同时还可以提高信息化教学的实用性。把基于大数据挖掘的算法运用在教学评估工作之中,找出教学效果、信息技术在教学中的应用、师生之间的沟通互动等因素之间的联系,从而给高校的教学部门带来非常科学的决策信息,同时让教师可以更加有效地开展教学工作,提高教学质量。

3.3.2教师教学能力分析以往的教学缺乏大量数据支撑,教学的质量高低主要靠教师自我度的把握。现在,可以通过在线课堂等技术,搜集大量课堂情况信息,比如学生对知识点的理解程度、教师课堂测试的成绩、学生课堂纪律等。通过这些数据的分析,了解教师熟悉教案的程度、课堂氛围等,改善教学水平。也可以通过深度分析学生在教学过程中教师的课堂表现,从而发现课程的闪光点以及不足,从而让教师能够进一步地对课程教学进行改善,提升教学质量。

3.3.3个性化课程分析个性化学习是高校教学改革的目标,过去的班级制教学中无法很好达到这一点,通过把大数据挖掘技术和学习内容结合起来,指导学习者规划学习发展方向,制订学习规划,实现个性化学习功能。通过评估个人情况,根据分析结果推荐可能取得优秀成绩的课程方案。首先获取学生以往的学习表现,然后从已毕业学生的成绩库中找到与之成绩相似的学生信息,分析前期成绩和待选课程结果之间的相关性,结合专业要求和学生能力进行分析,预测学生选择的课程中可能取得的成绩,最后综合权衡预测学生成绩和各门课程的重要性,为学生推荐一份专业课程清单。

3.3.4学习行为分析通过一卡通门禁信息、网络信息、课程信息、在线教育系统等相关数据,可以把学生到课堂时间、上课表现、作业完成情况、自习情况等学习信息记录下来,进行变量分析。当一些与学习行为有关的因素(如旷课、纪律问题、课堂表现)发生变化时,对学生提示并进行分析。通过这种系统分析,可以很好地规划学生的学习时间,提高学习效率。

4技术创新点

4.1大数据环境下提升数据挖掘范围

相比于传统常规环境下的数据获取渠道,大数据环境下,校园数据的获取更为广泛和准确。常规环境下的数据主要以经费收支、课程建设、问卷、访谈、课堂观察等来源,而在大数据环境下,通过对事件数据、舆情数据、一卡通、日志搜索等数据的抓取与分析,更能够准确地反映实际校情。

4.2可视化技术展现数据分析结果

利用大数据分析的数据挖掘与可视化分析,能够直观地呈现大数据特点,同时能够非常容易被使用者所接受,就如同看图说话一样简单明了。智慧校园中,结合学生学习、生活消费的各类数据,通过系统分析与图表展现,让用户只管了解数据分析的结果。

4.3数据质量管理提供重要支持

本项目结合大数据发展趋势,充分利用数据挖掘、建模与可视化展示技术,系统存储数据主要是从校内外各种数据源中获得最原始数据,并对该部分数据进行整合形成数据层,然后将数据层中的数据经过抽取、清洗、转换、装载进入数据仓库从而形成支撑层,在支撑层的基础上,可以根据需求对数据进行挖掘分析,从而构建决策层。