发布时间:2023-06-06 15:56:21
序言:写作是分享个人见解和探索未知领域的桥梁,我们为您精选了8篇的数据分析的方法样本,期待这些样本能够为您提供丰富的参考和启发,请尽情阅读。
关键词:大数据;数据分析;数据挖掘
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2017)03-0104-02
1 综述
1.1 简介
在数字化时代,需要新一代系统架构提升业务创新能力。在新一代系统架构中,大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭建大数据平台时,就着手大数据治理相关建设。
1.2 需求和意义
从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全,提升大数据平台服务能力,让大数据平台变得易使用、易获得、高质量。
但是,目前很多技术解决方案存在诸多安全和效率隐患:业务系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶段的应用角度不同,需要降低系统间的集成复杂度。
2 功能设计
2.1 总体架构
本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个统一的数据处理平台;按数据类别分为线数据、归档数据;按数据格式分为非结构化数据、结构化数据;按数据模型分类为范式化模型数据、维度模型数据;按数据采集频度分为非实时数据、准实时数据处理架构;并提供数据中心平台与安全管理方案,为企业级用户建立一个通用数据处理和分析中心。如图1所示。
2.2 在线数据
在线数据在线通过接口去获得的数据,一般要求为秒级或速度更快。首先应当将数据进行区分:在线数据、或归档数据。本平台中采用:Storm或Spark Streaming框架进行实现。Spark Streaming将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续的数据流称为DStream(离散流),一个DStream是RDD弹性分布式数据集的micro-batch微批次,RDD是分布式集合能够并行地被任何函数操作,也可以通过一个滑动窗口的数据进行变换。
2.3 归档数据
归档数据是在线存储周期超过数据生命周期规划的数据,处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技术生态体系内的框架进行计算,这里不详细阐述。
2.4 非结构化数据
通常非结构化的数据不一定具备字段,即使具备字段其长度也不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。
针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中,需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。
2.5 结构化数据
结构化数据具备特定的数据结构,通常可以转换后最终用二维的结构的数据,并且其字段的含义明确,是挖掘数据价值的主要对象。
本平台中主要使用Hadoop Impala和Spark SQL来进行结构化数据的处理。Impale底层采用C++实现,而非Hadoop的基于Java的Map-Reduce机制,将性能提高了1-2个数量级。而Spark SQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作,为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。
结构化数据根据采集频度可以继续分类为:非实时数据、准实时数据。
2.6 准实时数据
通常准实时数据是指数据存储在平台本身,但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询,但数据的再处理度不高,具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用Spark SQL结合高速缓存Redis的技术来实现。Spark SQL作为大数据的基本查询框架,Redis作为高速缓存去缓存数据热区,减小高并发下的系统负载。
2.7 非实时数据
非实时数据主要应用于支持分析型应用,时效性较低。通常用于数据的深度利用和挖掘,例如:因素分析、信息分类、语义网络、图计算、数值拟合等。
非实时数据根据数据模型可继续分类为:范式化模型数据、维度模型数据。
2.8 范式化模型
范式化模型主要是针对关系型数据库设计范式,通常稻菔遣捎玫谌范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区,建议使用并行MPP数据库集群,既具备关系型数据库的优点,又兼顾了大数据下的处理。
2.9 基于维度模型
维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术,而在大数据和开源框架的时代下,本技术平台采用Hadoop Impala来进行实现。Impala并没有使用MapReduce这种不太适合做SQL查询的范式,而是参考了MPP并行数据库的思想另起炉灶,省掉不必要的shuffle、sort等开销,使运算得到优化。
3 应用效果
本系统在不同的业务领域上都可以应用,以2016年在某银行的应用案例为例:该银行已完成数据仓库建设,但众多数据质量问题严重影响了数据应用的效果,以不同的数据存储方式,以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施,以元数据、数据标准、数据质量平台为支撑,实现了数据管控在50多个分支,60个局,1000余处的全面推广,实现了全行的覆盖;管理了120个系统和数据仓库,显著提升了新系统的快速接入能力;通过14个数据规范和流程明确了数据管控的分工;数据考核机制的实施,使其在数据质量评比中名列前茅。
4 结语
本文介绍了大数据下数据分析方法及实现技术的大体设计和思路,从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。
参考文献
一、以认知冲突,引发学生产生数据收集与整理的强烈愿望
学生每一个学习行为的背后,都是有目的、有价值、有意义的。简言之,学生自己要真正认识到这种学习是有用的,哪怕仅仅是因为有趣、好玩,才能激发学生进行相关学习的愿望和兴趣。对于数据分析观念的培养,教师有必要替学生问一个“为什么”,问题不必明确提出,但一定要把相关信息告诉学生,引发学生强烈的认知冲突,才会产生进行数据收集、整理与分析的欲望,才会使他们认识到学习数据分析的必要性,产生兴趣,从而建立与培养其初步的数据分析观念。
以二年级上册“统计”一课的学习为例,学生首次接触“统计”的相关内容。在学生尚不真正知道与理解该词的确切含义的情况下,教材提供的课例是“统计最喜欢的动物”,以统计图形式呈现出喜欢四种动物(小猫、小狗、小兔、乌龟)的学生的人数,并提供了3道题目,但教材始终没有告诉学生,“为什么我要学习这个知识”、“为什么我要进行数据分析”。此时,对这一问题的提出与引导学生思考,只能由教师在不动声色中完成。所以,教学时,利用学生爱吃零食的特点,我调整了教学思路,首先,我征得学生同意,打算用班上卖废品的钱给学生买糖吃。此举得到学生们的一致欢迎;其次,我要求5个小组长提前去学校门口的超市,了解糖块的种类与价格,并告知其他同学;再次,我要求班委成员负责了解班上每一名同学的需求并进行分类、计算总量。每人限一块,以便于合理安排买糖的数量与花费;再次,将买来的糖带入教室,上课,进行相关的数据整理与分析;最后,完成全部教学任务后,吃糖。
当我将此想法与实际的授课过程讲给其他老师听时,有老师笑谈“孩子们学习的动力就是吃糖”。我不否认这是学生们积极参与教学活动的动力之一,因为事先我有告诉学生全部的活动过程与“完不成就不会有糖吃”的话。但不可否认的是,对于二年级的学生来说,为了达成“每个同学都能吃到自己想吃的糖”这一目标,要在活动的每一个步骤都进行相关数据的收集、整理与分析,才能正确且顺利地完成任务。简言之,等于我们告诉学生,“为什么要进行数据分析”、“只因为我们需要达成一定的目的”,并且,活动的每一步骤的数据分析都有学生亲自进行,并明确知晓这样做的原因——当然不是教师的程式化的要求,这就使得学生的数据分析工作是主动的,各成员之间是相互合作的,既使学生愉快地接受了数据分析的内容与过程,也在增强学生数据分析观念的同时,培养了学生主动学习与合作的精神。
二、挖掘数据中蕴藏的深层信息,体验数据分析的应用价值
统计教学的一个重要目标,是鼓励学生通过分析从统计图表中获取尽可能多的信息,为后续的某项工作或学习做出合理的决策。表现在教材中,数据分析观念的首次引入即是一个简单的“最喜欢的动物”的统计图,接下来的每一个问题的答案无不需要从该统计图进行寻找。这样的例子,在学生生活中也是有接触的。但是,教学过程中,也存在一个常见现象,学生通过统计图表获取的信息,多是一些最基本的、一眼即可看出的直接信息,而很少能够对图表上的数据信息进行更为深入的整理与分析,挖掘出更多有价值和有意义的信息来做出合理的决策。
关键词:Matlab软件;制流与分压电路实验;特性研究
一、分压电路特性研究及参数的变化
首先,用1000Ω滑线变阻作分压器,负载电阻用1000Ω(K=1),测出滑线电阻滑动端的位置参数X和U/Umax分压比,并作出U/Umax的关系曲线。其次,同上,用1000Ω滑线电阻和500Ω的负载电阻(K=0.1),测出X和U/Umax,记录不同的K值。在Matlab软件中编写下列程序实现分压电路实验数据的处理和图像的拟合:
x0=0:0.1:1.0;
y1=[0 0.24 0.48 0.58 0.72 0.92 1.12 1.58 2.18 3.42 4.46];
z1=max(y1);
y2=[0 0.38 0.72 0.98 1.32 1.72 2.02 2.48 3.26 4.18 4.64];
z2=max(y2);
y3=[0 0.40 0.82 1.18 1.58 2.02 2.40 2.98 3.62 4.32 4.52];
z3=max(y3);
y4=[0 0.18 0.28 0.34 0.48 0.58 0.78 1.02 1.66 2.98 4.48];
z4=max(y4);
n=3;
p1=polyfit(x0,y1,n)
p2=polyfit(x0,y2,n)
p3=polyfit(x0,y3,n)
p4=polyfit(x0,y4,n)
xx=0:0.01:1.0;
yy1=polyval(p1,xx);
yy2=polyval(p2,xx);
yy3=polyval(p3,xx);
yy4=polyval(p4,xx);
plot(xx,yy1/z1,'r',x0,y1/z1,'.r')
hold on;
plot(xx,yy2/z2,'k',x0,y2/z2,'.k')
hold on;
plot(xx,yy3/z3,'b',x0,y2/z2,'.b')
hold on;
plot(xx,yy4/z4,'g',x0,y4/z4,'.g')
hold off;
由实验可得不同K值的分压特性曲线,如图1所示。从曲线可以清楚看出分压电路有如下几个特点:第一,不论R0的大小,负载RZ的电压调节范围均可从0■E;第二,K越小电压调节越不均匀,曲线线性程度越差,细调程度较差;第三,K越大电压调节越均匀,因此要电压U在0到Umax整个范围内均匀变化,则取K>1比较合适。
■
图1 不同K值的分压特性曲线
二、制流电路特性研究及参数的变化
首先,用1000Ω滑线变阻作制流器,负载电阻用100Ω(K=0.1),测出滑线电阻滑动端的位置参数X和分压比I/Imax,并作出I/Imax-x的关系曲线。其次,同上,用10000Ω滑线电阻和20Ω的负载电阻(K=0.02),测出X和I/Imax,记录不同的K值,并作出关系曲线,在Matlab软件中编写下列程序实现制流电路实验数据的处理和图像的拟合:
x0=0:0.1:1.0;
y1=[0.04 0.04 0.08 0.12 0.18 0.22 0.30 0.52 1.02 3.58 4.18];
z1=max(y1);
y2=[0.04 0.04 0.08 0.12 0.18 0.24 0.30 0.52 0.92 2.38 4.98];
z2=max(y2);
y3=[0.02 0.02 0.02 0.04 0.12 0.18 0.28 0.40 0.70 2.98 3.52];
z3=max(y3);
y4=[0.01 0.01 0.01 0.01 0.02 0.08 0.20 0.30 0.60 1.20 2.0];
z4=max(y4);
n=3;
p1=polyfit(x0,y1,n)
p2=polyfit(x0,y2,n)
p3=polyfit(x0,y3,n)
p4=polyfit(x0,y4,n)
xx=0:0.01:1.0;
yy1=polyval(p1,xx);
yy2=polyval(p2,xx);
yy3=polyval(p3,xx);
yy4=polyval(p4,xx);
plot(xx,yy1/z1,'r',x0,y1/z1,'.r')
hold on;
plot(xx,yy2/z2,'k',x0,y2/z2,'.k')
hold on;
plot(xx,yy3/z3,'b',x0,y2/z2,'.b')
hold on;
plot(xx,yy4/z4,'g',x0,y4/z4,'.g')
hold off;
(上接第47页)
■
图2 不同值的制流特性曲线
图2表示不同K值的制流特性曲线,从曲线可以清楚地看到制流电路有以下几个特点:第一,K越大电流调节范围越小;电流调节越均匀,曲线线性程度较好;第二,K(K≥1)时调节的线性较好;第三,K较小时(即R0>RZ),电流调节范围大,电流调节越不均匀,曲线线性程度越差,细调程度较差;第四,不论R0大小如何,负载RZ上通过的电流都不可能为零。第五,制流电路适用于负载电阻较小,功耗较大,电压调节范围较小的场合。
综上所述,当负载电阻较大时,要求调节范围较宽时宜采用分压电路。相反,在负载电阻较小,功耗较大且调节范围不太大时,选用制流电路较好。
参考文献:
[1]陈玉林,李传起.大学物理实验[M].北京:科学出版社,2007:186-190.
[2]穆晓东.制流与分压电路实验参数的选择与确定[J].大学物理实验,2004,(01).
从现实着眼,从宏观层面反映城市在全国范围内的竞争力与综合影响力的“国内知名度”对于进行中国区域城市的比较研究具有重大意义:一方面,通过分析中国城市在经历从带有浓厚农业社会传统向快速现代化转型的进程,有利于揭示政治、经济和文化在城市知名度建构机制中的作用关系;另一方面,在中国区域现代化发展进入到攻坚期的背景下,城市国内知名度的研究可以为区域城市竞争力对比分析提供精准切入点。特别是对于处于中国经济和文化中心的苏南地区而言,对区域内城市的国内知名度的变迁轨迹和结构特征进行历史比较分析,并与其他区域的代表性城市进行空间对照观察,能够在一般意义上归纳出在社会转型过程中中国城市的发展机理以及动力构成。
尽管关于城市知名度的研究日益成为城市文化领域的“显学”,但梳理以往的相关研究,我们不难发现:绝大多数研究是以理论探讨为旨趣,并且研究视域较为狭隘,缺乏从全面整体的维度对城市文化影响力进行研究。并且在一些采取量化分析方法的研究中,其操作化指标在可信性、全面性、有效性等方面也备受质疑。究其原因,一方面是由于采用抽样调查的资料收集方法不可避免地要承受成本巨大和样本代表性难以得到可靠保证的风险,而更为关键的则是在现有的技术条件下既难以在空间维度上保证基于全国范围内的系统测量和分析,也无法在时间维度上完成大跨度的历史回溯和描述。Gary King认为,由互联网时代衍生而来的、具备超大规模和海量信息特性的“大数据”很有可能会打破定性与定量研究的方法和技术壁垒,进而为社会科学、人文科学领域开拓崭新的分析思维和研究路径。因此,在互联网时代蓬勃兴起的“大数据”为我们针对大跨度的城市国内知名度历史演化进程进行精准测量提供了新的研究路径。特别是通过大数据的比较和总结性的分析,可以看到城市知名度不仅可以作为城市形象一般性表达的符号和说明,而且也是建构城市核心竞争力和提升城市软实力能级的前提和必要条件,知名度特别是在高美誉度前提下形成的城市知名度,既是一个城市的特色和文化价值的表达,也是城市文化软实力的集中表现,还是“城市文化资本”再生产的前提和文化场域。
(二)以谷歌图书和百度指数为基础的大数据
谷歌图书(Google Books)的创立和互联网搜索引擎的发展,为在社会科学领域内有效克服“大数据”所存在的资料获取难度大、以及学界对其与社会科学研究之间适用性、样本代表性、测量方法的信度和效度等争议提供了有力支持。自2004年年底以来,谷歌公司与哈佛大学、剑桥大学等40多所国际知名大学及相关出版社合作,对馆藏图书及出版社赠书进行了数字化的建设,截止到2013年,谷歌图书最新版语料库中被扫描和识别的图书已经超过3000多万种,目前可供进行全文检索和数据分析的书籍高达8116746种,词汇量为8613亿。其中,汉语(简体)书籍和词汇数量分别为30万种和269亿。表1展示了谷歌图书语料库2012年第2版的主要构成,其数据资源规模的超大体量性和极佳的时空代表性为从事中国社会问题的历史性组群对象和现实社会问题的研究提供了技术可行性支持。
此外,由于近年互联网的迅速崛起已经深刻改变人类社会信息资源聚合方式,加之谷歌图书书籍词频检索时间存在的限制(截至到2008年),并且基于中国大陆网络用户对于搜索引擎使用习惯的考虑,我们认为有必要结合中国国情引入在中文世界中占据核心地位的百度搜索引擎来更加精确、全面地反映处于中国大陆范围内各大城市在本土的受关注度情况,以进一步提高样本的规模性和代表性。我们采用2011-2016年百度指数的“用户关注度’,大数据来分析苏南城市及其他中国主要大城市国内知名度在此期间的变动情况。
这一分析方法的意义还有,对于相关城市地名出现的频率和范围可以从一般意义上佐证知名度的程度和价值,虽然个别大事件,特别是负面意义的大事件,对城市知名度的影响度有较大的影响。但是,在一个较长的时间段内,人们主要关注的是某一城市的整体文化意义,如人们对某城市的历史领域、建筑领域、文化艺术领域等所进行的学术研究和传统文献的表述。因为城市本身的历史与现实的价值而对某城市本身的关注较多,其知名度自然以正面取向和积极意义为主。不言而喻,知名度本身选词的海量意义来说,知名高与经济社会发展的正向、城市优良的环境、城市创新性及向上的积极意义呈正相关。
(三)城市国内知名度的概念操作化及测量
应该明确,本文所研究的城市知名度是指公众对某城市综合意象的正向性认知,并且依托在全社会诸领域内的综合影响力而提升关注度,而非藉由恶意炒作而“吸引眼球”,以及因重大安全事件和集体性事件而增加关注度。因此,如何寻找更具科学性的测量工具以便从海量无结构的数据中提炼出同时具有时空结构性和研究匹配性的数据就显得尤为重要。笔者认为,语言学中的语料库词频分析的方法可以对某一关键词在特定时段内其所蕴含的文化影响力进行有效测量。在社会科学领域应用“词频比例”方法具有充分的逻辑严密性与系统科学性。一方面,从语言学角度来看,社会历史进程中的多数事件和现象都是依靠书籍语言得以记录,其在承载知识、思维和观念等抽象事物上最具有正式性和权威性。而且,书籍语言不仅蕴含了笔者的观点和意图,而且更能反映当时公众思维倾向和社会整体风尚。超过半个世纪的汉语印刷书籍在某种意义上汇聚了建国以来整个中国社会的知识、观念与经验。由于谷歌图书语料库具有充分的规模性、跨度性和代表性,我们可以逻辑性地假定某一词汇出现在其中的相对频次能够近似地反映这个词汇本身及其蕴含的“文化影响力”,即知名度、公众关注度等,甚至折射出某种社会趋势、风尚或思潮。目前,基于谷歌图书的词频统计研究已经在国际语言学和历史学界得到广泛应用。比如Jean-Baptiste Michel等人率先利用谷歌图书语料库展开的文化史定量分析,阿瑟比等人对其中的情感用词变迁和英语地区差异进行的研究,以及宾利等人在书籍词汇与经济发展周期之间进行的关联性分析等[l0],都给我们带来很好的研究经验与证明。
在本研究中,我们利用谷歌图书的所有汉语(简体)书籍(1949-2008年)和百度指数(2011-2016年)的全部搜索记录作为语料库(Corpus ),并将提及有关苏南地区和其他城市的词汇频次,作为衡量城市国内知名度的测度,从而在超越以往相关研究的时空跨度上对区域性城市乃至全国范围的城市国内知名度的历史变迁轨迹进行全景探索和深度分析。在具体算法上,由于谷歌图书内汉语书籍中的词汇在数量上不尽相同,为增强数据的时间可比性,
我们用关键词出现频数除以当年的词汇总量。具体的计算公式为:
其中,F表示在公元Y年城市i的出现次数,F为在公元y年中出版书籍的全部词汇量、为在公元y年城市i的同频比例,即国内知名度。
百度指数中用户关注度的计算公式是根据在所选定时段内百度网页或百度新闻的用户搜索量的周平均值得出,其如下:
关键词:质量管理,统计分析,船舶设计
中图分类号:U673.2 文献标识码:A
Data Analysis Method of Quality Control Applied for Ship Design Project
LI Lanjuan
( Guangzhou Marine Engineering Corporation, Guangzhou 510250 )
Abstract:Statistic and analysis for drawings which are censored by CCS with a new data analysis method of quality control. It can reflect technique level of each profession clearly, then we can adjust to achieve the aim of improve design according to requires.
Key words: Quality control; Data analysis; Ship design
1概述
在船舶设计项目质量管理中,对设计图纸的差错率进行统计分析非常重要,不仅可以总结经验,还可以找出设计环节中的薄弱之处,进而有针对性地采取改进措施,降低图纸差错率和图纸修改率,最终达到提高设计质量的目的。本文将一种全新的质量管理数据分析方法应用到船舶设计项目中,对某船送中国船级社(CCS)广州审图中心的各专业图样文件进行了统计和分析。首先对CCS审图意见类别及其导致修改的原因进行统计,然后对统计结果进行分析,最后针对产生原因采取相应的改进措施。
2专业审图意见类别和原因分析
对各专业分别进行统计和分析,有利于了解各专业本身技术力量的实际情况,以便专业负责人做出适时的调整,对薄弱之处加以改进和提高。根据CCS的审图意见类别,对某船各专业的图样文件进行统计,然后根据CCS提出的意见进行原因分析。
为了方便分析,设置下列不同的代码,表示不同的审图意见类别和原因分析含义。
(1)审图意见类别代码含义:
A-认可无意见;
AC-认可有意见;
N-备查无意见;
NC-备查有意见;
TS-转送现场验船师审核;
RS-不予批准,需修改后重新送审。
(2)原因分析代码含义:
B1-设计方案欠妥;
B2-设计接口不协调;
B3-不符合现行有效的规范、法规要求;
B4-标识不明或有误;
B5-其它。
下面对轮机专业进行举例说明:
该专业的意见类别统计见表1,原因分析统计见表2。
表1轮机专业CCS审图意见类别统计表
表2轮机专业原因分析统计表
由表1可清楚地看出某船轮机专业图样文件的退审意见分布情况。其它专业也分别如此进行归类和统计,便能了解本专业图样文件的退审意见分布情况,并且还可将各专业的退审情况进行比较。
由表2可清楚地看出某船轮机专业图样文件的差错分布较为集中在B3 (不符合现行有效的规范、法规要求),其次是B1(设计方案欠妥),说明轮机专业在这两方面需采取措施加以改进。其它专业也分别如此归类和统计,这样就能清楚地了解各专业自身的薄弱环节在何处,从而可采取相应的措施来改进和提高。
3全船审图意见类别和原因分析
为了使分析具有全局性,对各专业之间进行比较之后,需对全船进行统计和分析,这样有利于找出整体中的薄弱环节在何处。某船全船图样文件的CCS审图意见类别统计见表3;原因分析统计见表4。
表3全船CCS审图意见类别数据统计表
表4全船原因分析统计表
由表3可清楚地看出各个专业退审图样文件的总体情况。由表4可看出各个专业图样文件的退审意见主要集中在B3(不符合现行有效的规范、法规要求),说明在这一环节所有专业均比较薄弱,特别是电气专业,因此需专门针对这一环节制定改进措施。
通过对全船的退审图样文件进行统计和分析后,使项目负责人能清楚地掌握各专业的实际工作情况与整个项目组中的薄弱环节所在,以便采取改进措施,从全局出发对各专业的技术力量进行调整,进而提高产品项目设计质量。
4结论
在船舶设计项目中采用这种全新的质量管理数据分析方法,不仅能清晰地反映出各专业本身的优劣势,还能反映出各个专业之间技术力量的强弱差别。这样不但让专业负责人能了解本专业的问题所在,并采取相应的改进措施,同时也能让项目负责人掌控全局,根据需要对各专业进行协调,从而提高产品项目的质量,降低图样文件的差错率。
作者简介:李兰娟(1979-),女,工程师。从事项目管理与质量管理工作。
收稿日期:2013-07-05
国际动态
日本获得6艘灵便型散货船订单
近日,Sesoda公司表示,通过其子公司及合资公司(JV)订造了2艘34000DWT型及4艘38000DWT型散货船。相关散货船的新造船价分别为“每艘2500万美元以下”及“最高2600万美元”水平。
这些新造船将在日本Namura(名村)造船、Imabari(今治)造船以及匿名的其他日本造船厂进行建造,安排在2016-2018年交付。
南日本造船获4艘甲醇运输船订单
1.1 系统建设必要性
随着世界经济形势和金融环境发生的巨大变化,作为金融市场中的重要组成部分,商业银行在发展中面临的风险很多,而信用风险始终是其面临的最主要风险之一,也是影响一国经济发展的主要因素。与此同时,监管部门也规定商业银行新资本协议的整体规划和实施路径中,信用风险数据集市是新协议实施合规达标的必要条件之一。
在此背景下,结合时下迅速发展起来的“大数据”思想,在商业银行信用风险管理中,构建信用风险数据集市成已为必然的选择。
1.2 银行同业系统建设情况
近年来国内外同业银行期纷纷开展风险数据标准设计与风险数据集市建设项目。通过数据系统的建设加大对各类内外部数据的运用,借此提高风险管理的能力和水平。
国外方面,在不断加大对信用风险管理的关注力度和研究力度的同时,各类数据运用系统的建设已全面展开并在信用风险管理中得到了运用。Mckinsey公司的研究表明:信用风险占银行总体风险敞口的60%,是导致银行破产的最主要因素,也是导致区域性金融危机甚至全球性金融危机的根本原因之一[1]。国外的许多先进银行已实现了内外部数据的高度整合,并已积累了大量历史数据,建立起各自的信用风险违约数据库。
国内方面,我国的商业银行也在紧跟国际发展步伐,近年来也逐步建立起了基于计算机技术的信用风险管理体系。如:平安银行开展了“风险数据集市建设项目”;宁波鄞州银行开展了“全面风险管理系统项目”;徽商银行开展了“徽商银行零售信用风险数据集市项目”;天津农商行开展了“信用风险数据集市管理系统项目”等[2]。但与国外先进银行相比,还存在较大的差距,因此需要加快基于数据的信用风险管理系统。
2 信用风险数据集市构建探索
2.1 信用风险数据集市定位
信用风险数据集市的定位是构建一个适应商业银行数据特点和信用风险管理需求的数据中心系统,为进一步完善商业银行全方位、多层次的信用风险管控体系服务。通过对海量的内外部数据按不同主题进行区分和加工,计算出各类指标等中间数据和衍生数据,将数据中的隐含信息最大程度的加以挖掘、表达和运用,为信用风险管理提供服务。
2.2 信用风险数据集市建设目标
信用风险数据集市的总体建设目标是建立一个以信用风险管理为主、面向全行各业务部门的、支持各类信用风险应用的数据集市环境。数据集市的数据范围需要覆盖银行内部客户方面、交易与投资业务方面、信贷资产业方面的所有细节数据与相关风险应用的派生数据,为各个不同的风险应用系统之间提供数据共享服务,以保证全行一致的风险数据视图根据信用风险数据集市的定位,并结合商业银行信用风险管理的需求和特点,系统的建设目标主要包括以下几方面:
1) 解决各系统数据分散、彼此独立的问题,构建全行性的数据平台,对来自不同系统的数据进行整合后的共享,实现数据的统一管理和利用。
2) 尽可能多的收集并利用与信用风险相关的各类外部数据,如工商、税务、征信等方面的数据,使商业银行内部的信用风险管理从有限的内部资源中延伸到广阔的外部环境中,利用更多有价值的数据信息为信用风险管理服务。
3) 对获取的基础数据进行掘取和加工,提炼出客户、产品、行业、机构等不同维度中的隐含信息,分析并掌握数据背后的潜在规律,为信用风险管理提供依据,完成业务数据向信用风险管理信息的过渡。
4) 面对信用风险管理中不同下游应用系统的数据需求,在集市内部区分不同的数据模型,在集市外部提供统一的数据供应平台,保证各应用系统间数据的统一性。
5) 解决行内各部门间信息不对称的问题,统一内外部监管报表数的据口径,实现集市自动对不同系统、不同报表之间数据的校验,提高报表数据质量,并提供灵活查询工具实现随时、随需提取数据生产报表。
3 系统总体架构
3.1 数据采集方案
信用风险数据集市是对数据进行应用的系统,因此数据采集是保证系统性能和应用效果的前提和基础。在设计数据采集方案时需要重点考虑数据质量、采集效率、ODS数据库建设以及数据处理过程ETL的实现。
为保证数据质量,除了在系统建设初期通过数据分析和业务部门访谈来查找和修正错误数据外,在系统架构的设计中也应该引入数据质量管理和控制机制,在数据采集的源头上做好数据质量管理和控制,避免因数据质量问题造成上层应用的失真。
数据质量管理和控制机制的工作原理如图1所示。采集来的数据被存储在数据存储区中,在数据存储区之后设定一系列的数据质量检查规则对数据质量进行检查。质量检查规则是通过数据质量规则库来完成的,数据质量规则库是事先定义好的检查规则,当然也可以随时对其中的规则进行修改和补充。
ODS数据库对数据的采集应当实现的目标是:将内部各业务系统数据及外部不同来源的数据采集至统一的ODS数据仓库,再经过统一的ETL处理过程后供应给信用风险数据集市,如图2所示。
各业务系统数据先经过ODS汇总后,再统一供应给集市,这样可大大提高数据采集效率,同时减少数据冗余问题,并节省存储空间。
ETL的处理过程是指数据的抽取、转换和装载,主要作用是减少对数据仓库时间窗口的占用,减少数据的转换过程。随着基于信用风险数据集市应用的增多,ODS到ETL的过程应减少依赖性,避免应用的增加造成ETL的重复开发。
上述的数据采集架构,从数据的采集路径与环节看,数据流明确,环节简单,对原业务系统影响很小。而信用风险数据集市的数据统一来源于ODS,也能保证系统的安全性也较高,且有效避免了重复的数据整合与转换工作[3] 。
3.2 系统逻辑结构设计
信用风险数据集市以挖掘数据中的信用风险信息为目的,对于数据的应用应打破关系型数据库理论中标准泛式的约束,将业务系统的数据重新组织和整理,为各类信用风险应用提供数据支持。在对整个系统的逻辑结构进行设计时,应从面向应用的角度出发,采用“自顶向下”的设计方法,对数据分层处理、逐层加工。按照这个思想,将信用风险数据集市的逻辑结构设计如图3所示。
系统逻辑架构自下而上分为三层 :基础层、模型层和应用层。基础层包括从ODS数据仓库以及ETL处理过程;模型层包括数据缓冲层、基础整合层、加工汇总层和应用接口层;应用层指针对信用风险数据的各类应用,如:为相关系统供数、RWA及经济资本计算、固定报表、灵活查询、指标查询等。
3.2.1 基础层的设计
基础层的关键在于ETL过程的设计。ETL过程的作用是将ODS获取的数据,经过一系列加工处理加载进信用风险数据集市的过程。ETL处理流程主要包括以下主要步骤[4]:
数据抽取:数据抽取就是将集市需要的业务数据从ODS数据仓库抽取到ETL的数据转换区的过程;
数据检查和出错处理:在数据转换区中,对源数据质量进行检查,形成检查报告,并进行相应的出错处理,对于严重错误,需要系统维护人员现场做出相应的处理。
数据转换:数据转换包括对源系统数据进行整理、剔除、合并、验证等一系列转换工作,最后形成集市数据结构所需的数据,存放在转换区的数据表中。
数据加载:数据加载将数据转换的结果数据加载到集市,并形成数据加载情况的报告。
经过以上ETL处理流程,能够使数据源稳定的、周期性的导入到信用风险数据集市中。
3.2.2 模型层的设计
模型层是信用风险数据集市的核心,这层的作用是组织信用风险管理所需的数据,形成信用风险类应用的数据基础。基础区按不同风险主题采用模型化结构存储信用风险应用所需的各类明细业务数据。因为各类信用风险采用的计量方法不尽相同,因此基础区按不同风险主题对数据进行整合。又因基础数据来自不同的源系统,结构复杂多样,为将这些数据整合、关联起来,形成完整的信用风险数据信息,同时在结构上保持一定的稳定性和一致性,因此在不同主题下采用模型化结构对带有同样业务特征的数据进行分类存储。
在模型层,经过ETL处理后的数据被存储在数据缓冲层中。数据缓冲层是一个数据临时存储区,其作用是等待数据被进一步调用。
在数据缓冲层之上是基础数据整合层,在这层中,集市将按照不同主题域对数据做初步的区分和整理。主题域的划分是逐层细化的,基础整合层主要有对公信贷、零售信贷、公共主题、投资交易几个主题。其中对公信贷包括参与主题、客户评级、交易活动、业务流程、风险缓释、债项评级、不良资产、财务信息等二级主题;零售信贷包括个贷、个人征信、信用卡、零售分池、中小企业等二级主题。
经过基础整合层的主题域划分,各类业务明细数据和外部数据已被做出初步汇总和区分,不同来源的数据经过主题的划分被有效关联起来,数据间的聚合程度得到了提高,有利于数据的进一步运用。
基础整合层之上是加工汇总层,加工汇总层完全由应用驱动,根据信用风险管理应用需求来存储和加工汇总后的指标数据等。该部分可以根据不同应用系统的指标进行划分二级主题,也可以根据风险的收益、资本、敞口等等进行划分主题对基础整合层的数据加以挖掘和提炼,进一步从基础数据中提取有效信息,产生更多的中间数据、指标数据和衍生数据。
信用风险数据集市中,直接与各类应用对接的是应用接口层。这层定义了集市与具体应用间的数据接口、数据文本、视图和建模款表等,将数据模型中的信息通过具体应用表达出来,使信用风险应用得以实现。
3.2.3 应用层的设计
应用层是信用风险数据集市建设的目的所在,根据商业银行信用风险管理方面的具体需求可通过信用风险数据集市支持内部评级系统、风险预警系统等系统的建设,完成RWA及经济资本和各类指标的计算,提供内外部监管报表的查询等。在下文中将对信用风险数据集市的具体应用展开进一步探讨。
4 信用风险数据集市的应用
信用风险数据集市的应用总体可分为三个方面:数据支持、报表和统计分析和决策支持,如图4所示。
4.1 数据支持类应用
数据支持是指为各类信用风险管理类的系统供数,满足各类信用风险应用系统的数据采集需求,保证这类系统的应用的顺利实现。同时也与这类信用风险应用系统进行交互,即不仅为下游应用系统提供数据支持,也吸收这类系统产生的数据结果,用于更多的信用风险管理当中。因此,信用风险数据集市在数据支持方面是双向的,数据流的进、出两条线是并行的。
4.2 报表和统计分析类应用
报表和统计分析的应用分为定制报表和灵活查询。定制报表指根据信用风险管理的内外部监管报表需求,按确定的报表样式、数据口径、取数规则、勾稽关系和报表频度等制作出直接可用的报表。灵活查询则是不针对具体报表需求的数据提供,只提供足够多的数据字段,由用户自己根据需求选取所需字段并加以组合,形成符合自身需求的报表或查询结果。
4.2.1 风险分析主题的划分
在实现报表和统计分析类的应用中,应重点考虑两方面问题:一是如何最才能大程度的满足各类不同的报表或数据查询需求,二是需要考虑随着业务的发展以及信用风险管理的不断深入,报表和统计分析的需求还将不断增长和扩展。从这两点出发,需要将数据区分成不同的风险分析主题。
风险主题的划分应从报表及统计分析的需求出发,先把集市中已有的数据区分成诸如资产质量、不良资产、预警监控等不同主题,再对每个主题进行挖掘和补充,利用已有数据产生更多隐含数据,丰富每个主题的数据字段。每个主题之间是彼此独立但又相互调用的关系。除了划分风险分析主题外,商业银行还可以针对自身的需求和特点建立专题话的分析主题,如集团客户分析,关联交易分析等。
4.2.2 报表工具的选择
报表和统计分析类应用的另一个难点就是灵活查询的实现问题。提供灵活查询功能的目的在于使用户可根据需要随时提取数据信息或生成报表。因此,灵活查询需要结合专门的报表工具才能得以实现。
综合考虑报表工具的缓存能力、数据提取的灵活程度等方面,选择了ORACLE公司的BIEE报表工具。它不仅在数据缓存和提取上表现良好,还可以完整的连接企业内各个异构数据源,从而使报表制作变的更加智能。用户可以通过不同数据字段、度量维度和分析维度轻松组合出所需的报表,必要时还可以通过图形展示。
4.3 决策支持类应用
决策支持引进不同的决策分析模型,通过大量的数据计算对某个风险专题进行推演,其计算 结果可反映管理决策的可行性或给出可供选择的方案。如RWA及经济资本的计算、压力测试、组合管理等都是信用风险数据集市在决策支持方面的应用。
5 结束语
本文从商业银行信用风险管理发展的需要出发,结合内外部监管要求,探讨了信用风险数据集市的建设方法,并详细阐述了系统在数据质量控制、数据模型设计和具体运用方面的构建思路并给出解决方案。
从商业银行信用风险管理的发展趋势来看,信用风险数据集市必将过渡更为包含更多数据信息的大数据系统,并且还要从独立的系统发展成为与云端数据交互的共享系统。
参考文献:
[1] 王彦龙.企业级数据仓库原理、设计与实践[M].北京:电子工业出版社,2009.
关键词:RFID匹配数据;异常数据;数据有效性析;检验
1 背景
城市化和机动化的迅猛发展,使得城市机动保有量日渐增加,随之而来的是城市范围内的交通拥堵现象,降低了城市交通系统的运行效率,严重影响了城市居民的日常工作和生活。为了应对城市交通拥堵问题,基于先进技术应用的城市智能交通系统建设得到了广泛的关注,发展迅猛。如结合2008年北京奥运会建立了北京奥运智能交通管理与服务综合系统;结合2010年上海世博会建立了上海世博智能交通技术综合集成系统;结合2010年广州亚运会建立了广州亚运智能交通系统及应用,一方面为上述重大体育比赛或文化盛会的顺利完成发挥了保障和支撑作用,另一方面,又形成了一系列的解决我国城市交通拥堵的研究成果和技术解决方案。
和传统的交通系统相比,广泛的交通信息采集和处理是智能交通系统独有的特点。在智能交通系统建设过程中,已经有一系列的交通检测技术得到了应用,如传统的磁感应线圈技术、微波检测技术、视频检测技术等,并在城市智能交通系统的建设领域获得了广泛的应用。随着信息采集和处理技术的进一步发展,当前以RFID(Radio Frequency Identification)技术为典型代表的基于物联网技术的城市交通信息采集技术日益发展,并已经在一些城市得到了应用,如南京已经建成的基于RFID技术的城市交通信息采集平台,可以采集到每一辆车的通行信息和特征信息,形成了海量的交通数据库,奠定了交通分析和信息挖掘的基础。
然而随着信息处理技术的不断发展,城市交通系统领域虽然已经相继建立了大量的信息系统,积累了海量的交通数据,但是很多系统出现了“数据丰富,信息贫乏”现象,数据质量不高是原因之一,主要表现在交通数据库中存在相当数据的错误数据、缺失数据和可疑数据等三类问题[1-2]。为了应对上述数据质量问题,数据有效性检验技术应运而生。本文以目前领先的交通数据采集技术RFID技术为研究对象,分析RFID匹配数据的有效性,并提出基于统计技术的RFID匹配数据有效性检验方法,以为后续的RFID数据挖掘和分析提供数据支撑。
2 交通数据采集和有效性检验综述
2.1 交通数据采集方法
城市交通运行状态的实时采集技术,或城市交通运行状态的实时感知技术是构建有效的城市智能交通系统的基础。常用的道路交通状态采集方法如下所述。
⑴感应线圈。感应线圈是一种常用的道路断面交通数据采集技术,其原理是通过预埋在道路面层下的感应线圈感知通过的车辆,并计算交通状态数据,主要包括断面流量,交通流断面速度,占有率,其优点是技术成熟,成本较低,可以探测到所有经过感应线圈的车辆数据,缺点是须埋入路面,维护困难,受自然和车辆影响较大;并当车辆拥堵严重时,检测精度下降。
⑵微波检测器。微波检测器是一种常用的道路断面交通数据采集技术,其原理是通过车辆的反射回波分析进行车辆检测,优点是在路侧安装,不影响路面,维护方便,在车流较为均匀稳定时准确度较高,缺点是在拥堵路段或者车流不稳定路段检测精度较低,特别是在有大车遮挡时检测效果不理想。
⑶视频检测器。视频检测器是一种常用的道路断面交通数据采集技术,其原理是通过视频摄像机作为传感器采集交通视频,并在视频采集范围内设置虚拟检测区,通过视频背景值的变化来检测车辆,优点是路侧安装,不影响路面,价格便宜,缺点是易受恶劣天气、灯光和阴影等环境的影响。
⑷浮动车。浮动车是一种常用的路段交通数据采集技术,其原理是通过在车辆上配置位置检测器如GPS等,实时检测车辆的行驶轨迹,并计算路段交通状态数据,其优点是交通数据准确,可以直接计算路段交通数据,缺点是交通数据采集样本受到检测车辆的限制,难以构建整体交通状态数据库。
⑸车牌匹配。车牌匹配是一种基于图像处理的路段交通数据采集技术,其原理是通过视频检测等技术,在路段两端进行车辆车牌特征匹配,从而获取路段交通状态数据,其优点是可以获得较多的路段交通状态数据,一旦匹配成功,数据准确度较高,同样,其缺点是车牌匹配受到车牌检测技术限制很大,在复杂交通环境下难以实现有效的车牌识别及匹配。
上述传统的交通数据采集技术侧重于对交通流信息的采集,对单个车辆信息的关注整体上来说不高;虽然个别方法如车牌匹配技术考虑到了车辆的识别信息,但上述识别信息受到图像处理技术和复杂交通环境的限制,仍需采用更加先进的技术加以完善和提高。物联网技术,特别是以RFID技术为代表的车辆网技术发展,为单一车辆特征数据的采集奠定了技术基础,使得车辆信息和车流信息的综合采集成为了可能,为实现道路交通系统的综合感知提供了前提。
2.2 交通数据有效性检验
数据检验技术最早出现在美国,初期主要是针对全美社会保险号,取得了良好的效果。在交通数据有效性检验领域,由于交通数据采集方法的限制,主要是针对基于线圈的交通数据,常用的检验方法主要包括逻辑检验方法,阈值检验方法,基于交通流理论的检验方法,综合检验方法等[3-6]。逻辑检验方法是检测交通数据中的一些明显的逻辑性错误,如数据采集时间漂移、重复记录等,可以通过人工观测的方法实施。阈值检验方法是常用的一种数据有效性检验方法,其主要的原理是根据历史交通数据资料、经验公式或者交通流的基本理论,确定交通流参数的可能的取值范围,如流量、占有率或者速度等,并根据上述确定的范围的采集到的相应交通流参数进行检验,认为落在预定范围的交通流数据是可疑的。这个方法简单易行,但是阈值的确定往往受到多种因素的影响,在不同的情况下需要进行特定的研究。基于交通流理论的检验方法的基本原理是交通参数之间应当满通流理论的规定性,如交通流量、密度和速度的三参数模型等,在出现不满足上述交通流模型的情况时,所采集到的交通流数据是可疑的。综合检测方法是将阈值检测和交通流理论检测等方法综合应用,以寻找交通流数据样本中的更加隐蔽的可疑数据,常用的如最大密度法和平均有效车长法等。
在RFID数据有效性检验方面,当前的主要研究内容是针对RFID的原始数据流进行有效性检验,主要方法有滑动窗口方法[7]、时序关系法[8]、自适应时间阈值法[9]等,然而在基于RFID技术的交通数据有效性检验方面还处在初级的阶段,研究成果并不多见。
3 RFID技术与RFID匹配数据
3.1 RFID技术
无线射频识别技术(简称RFID)是一种非接触式自动识别技术,其基本原理是利用射频信号或空间耦合(电感或电磁耦合)的传输特性,实现对物体或商品的自动识别,被广泛应用于物流、供应链、动物和车辆识别、门禁系统、图书管理、自动收费和生产制造等领域。RFID射频自动识别技术由电子标签(Tag)、阅读器(Reader)和数据交换与管理系统(Processor)三大部分组成。当携带电子标签的物体在距离0~10米的范围内接近阅读器时,阅读器内部控制系统控制阅读器发出微波查询信号;安装在物体表面的电子标签收到阅读器的查询信号后,将此信号与标签中的数据信息合成一体反射回电子标签读出装置,反射回的微波合成信号已携带有电子标签数据信息,阅读器接收到电子标签反射回的微波合成信号后,经阅读器内部微处理器处理后即可将电子标签贮存的识别代码等信息分离读取出,进一步传输到数据交换和管理系统存储,也可以通过相应接口导出至数据库进行第二层面的处理。
RFID技术最大的优点在于非接触,在完成识别工作时无需人工干预,适用于自动化系统,概括起来,RFID技术具有以下特点:1)识别精度高,可快速准确的识别物体,2)采用无线电射频,可以绕开障碍物,并透过外部材料读取数据,可工作于恶劣的环境中,3)可以同时对多个物体进行识读,4)储存的信息量大且信息可加密保存,是一般条形码存贮信息量的几十倍,甚至上百倍。
3.2 RFID匹配数据
RFID原始数据包括每辆装有RFID标签的车辆通过各RFID基站的过车数据,包括通过该基站的时间和RFID标签中存储的准确的车辆信息,如车牌等。利用传输系统将读写器采集到的车辆信息传回到交通信息中心后,基于RFID基站采集到过车车牌号和车辆通过时刻,针对任意一组和路网相匹配的RFID基站对,可以匹配得到每一辆车通过该RFID基站对的平均行程车速,此类由相邻基站匹配而得到的数据称为匹配数据。值得说明的是,在RFID匹配数据的计算过程中,RFID基站对的构建是基础,必须考虑到路网的几何拓扑结构,在进行车流方向分析的基础上,形成以RFID基站对为基础的完备的RFID基站网络。
可以看出,上述RFID匹配数据的计算是基于RFID技术的交通数据采集系统中的关键环节之一,其匹配数据直接体现了每一车辆的行驶状态信息,为进行进一步的数据处理、获得其他交通数据参数奠定了基础。在上述过程中,由于交通路网和交通驾驶行为的复杂性,RFID匹配数据往往也存在和传统交通数据采集方法相类的数据质量问题,需要加以分析和检验,提高RFID匹配数据的有效性和质量。
4 RFID匹配数据有效性分析和检验
如上所述,高质量的交通流数据是智能运输系统得以实现预期功能的基础。RFID技术作为在智能交通数据采集技术的最新发展,具有快速获得大量车辆信息的特点,其中RFID匹配数据是其中最为基础和重要的数据。为了提高RFID匹配数据的质量,有必要对RFID匹配数据进行有效性分析和检验,以提高数据集质量,奠定后续数据挖掘和分析的基础。以下以南京市建设的基于RFID技术的交通系统采集平台为对象进行RFID匹配数据的有效性分析和检验。
4.1 RFID匹配数据分析
⑴数据选择。RFID匹配数据的选择包括RFID基站对的选择和分析时段的选择,如下所述。
1)选取基站对:根据基站所在道路的不同类型和交通状况,选取RFID样本基站对。路段类型主要选取主干道、次干道和支路3类,交通情况选取拥堵、交通量较大、自由流3种情况,则共选取3*3=9种情况下的基站对,各选取5个基站对,共45个基站对。在选取时要注意选取有视频的基站对,以对比查看道路交通状况。
2)选取时间段:选取高峰、平峰、夜间三种情况的时间段共2小时,如7:30-8:00,14:00-14:30,1:00-1:30。
⑵实例分析。在选定数据的基础上,采用如下步骤进行数据的分析,即调取每个RFID基站对在某一时间段内各匹配数据经过起终点基站的时刻数据,逐个查看其时间差t,若t
1)绕路导致行程车速为负值。分析发现在RFID基站对(6117,6115)在2012/10/23日14:00-14:20内的过车数据中,“苏0001”的行程车速为负值,明显是错误数据(为保护驾驶人隐私,本文对车辆牌照信息加以隐藏处理,下同)。追踪该车在当日17:30-17:50的过车路径情况如下图1所示,可以看出,该车辆依次经过RFID基站6117和6115后,因两次调头,又经过了RFID基站6116,并再次经过了RFID基站6117,在数据匹配时,由于RFID基站检测技术在路段上基站检测范围外的检测和跟踪盲点,将通过RFID基站6115的时间和第二次经过RFID基站6117的时间进行了匹配,导致了行程车速为负的情况。
2)绕路导致行程车速过小。基站对(6024,6026)在2012/10/23日17:30-17:50的过车数据中的速度分布如图2。通过视频跟踪发现当时该基站对间路段的交通状况为轻微拥堵,大部分数据是与交通状况相符的,但有3个小于10km/h的速度值与其他的数据相比偏小,需进一步分析。
选取最小值,即牌号为“苏0002”的车辆的行程车速5.76km/h进行分析,追踪该车牌在当日17:30-17:50的过车路径情况如下图3,可以发现该车辆在经过起点基站6024后,又经过了另外两个站点后才经过终点基站6026,存在绕路的情况,导致其经过基站对(6024,6026)的行程车速偏小,不能很好的代表该路段的交通状况,需要检验处理。
⑶总结。在进行大量实证数据分析的基础上,总结形成RFID匹配数据异常数据分析总结表如表1。
4.2 基于统计的匹配数据检测
在大量RFID匹配数据分析的基础上,提出基于统计分析的匹配数据有效性检验方法,实现对RFID匹配数据的有效性检验。
⑴算法原理。由于交通流的渐变特性,在固定时间段内道路上的车辆车速分布相对连续,这也就说明匹配车速的分布不可能在短时间内出现大幅度的偏差,针对这种状况可以采用统计的方法对匹配车速进行有效性检验。根据RFID匹配数据的连续性特征,提出利用统计分布模型对匹配车速进行有效性检验,针对RFID基站对在固定时间段内采集到的车辆车速计算其均值μ和方差σ,并假设上诉车辆车速符合正态分布,所以根据正态分布的性质,构建(μ-2σ,μ+2σ)区间作为有效的RFID匹配数据范围,其中95%的RFID匹配数据将落在该区间内,而将落在该区间之外的RFID匹配数据作为可疑的数据加以处理。除此之外,考虑到城市交通速度的可能范围,选取120km/h作为城市交通流速度的上限。综上所述,基于统计技术的RFID匹配数据有效性检验步骤如下:
1)获取RFID原始数据。2)选定某一时间段和RFID基站对,获取RFID匹配数据,计算车辆的行程车速。3)计算RFID匹配数据的行程车速的均值μ和方差σ。4)根据均值μ和方差σ确定阈值。5)根据阈值,检验该时间段内该RFID匹配数据的有效性:若v1120km/h,则v1属于错误数据;若μ-2σ< v1
⑵算例。以基站对(6095,6096)的17:59:00-18:00:00时间段内RFID匹配车速作为样本进行检验实例分析。在选定的基站对和时间范围内,共有9个速度样本如表2。
根据表2数据计算出匹配车速的均值μ=34.64km/h,方差σ=13.91km/h,从而得到该时段匹配车速的阈值范围为(6.82km/h,62.46km/h),并根据该范围筛选出车牌苏0010的匹配车速为异常数据。通过对该路段在该时间段内的视频观察,可以发现该路段交通流在高峰时段17:30:00至18:30:00间缓慢前进,车速稳定在较低水平,不可能出现大幅度的跳跃,确认苏0010的匹配车速为异常数据,验证了算法的有效性。
5 结论
以RFID技术为典型代表的物联网技术将提高智能交通系统的数据采集效率,构建海量的交通数据库。然而,上述数据库的有效分析和信息挖掘要求RFID数据具有较高的质量。本文在阐述相关的交通数据采集和有效性分析方法的基础上,针对RFID匹配数据,结合南京市建成的RFID交通数据采集平台数据,系统进行了RFID匹配数据的有效性分析,发现各类RFID匹配数据异常现象,并结合现场视频深入分析了异常的原因;同时,在进行RFID匹配数据有效性分析的基础上,利用统计技术提供了一种RFID匹配数据有效性判别方法,并给出了实际的算例,结果表明,所提出的有效性算法可以检测异常的RFID匹配数据。
交通数据的有效性分析和检验是提高智能交通系统应用效率的重要基础之一。在RFID交通数据采集技术领域,由于RFID交通采集技术的应用尚不广泛,在该方向的研究还处在起始阶段,本文的研究成果将推动该领域的研究发展。
致谢
本研究受到国家科技支撑计划课题No.2011BAK21B01《南京城市综合智能交通系统关键技术研究及应用示范》资助。
[参考文献]
[1]耿彦斌,于雷,赵慧.ITS 数据质量控制技术及应用研究[J].中国安全科学学报,2005,15(1): 82-87.
[2]王晓原,张敬磊,吴芳.交通流数据清洗规则研究[J].计算机工程,2011,37(20):191-193.
[3]秦玲,郭艳梅.吴鹏.断面交通检测数据检验及预处理关键技术研究[J].公路交通科技,2006(11):39-41.
[4]Turochy R.E and Smith B.L.New procedure for detector data screening in traffic management systems[J].Transportation Research Record,2000,No.1727:127-131.
[5]Jacobson L.N.,Nihan N .L.and Bender J.D.Detecting erroneous loop detector data in a freeway traffic management system[J].Transportation Research Record,1990,1287:151-166.
[6]Chen C.,Kwon J.,Rice J.,et al.Detecting errors and imputing missing data for single-loop surveillance systems [J].Transportation Research Record,2003,No.1855:160-167.
[7]周兴强.RFID数据流清洗技术及其系统实现[D].大连海事大学,2011,5:1-8.
关键词:数据质量;可用性;评估方法
随着大数据时代的来临,数据集合中劣质数据也随之大量产生,导致信息数据整体质量下降,数据的有效使用受到了极大限制。为了更加有效发挥各行各业大数据的作用,开展数据可用性研究具有较大的战略意义。
1 数据可用性定义
研究者们普遍认为,数据的可用性可以从数据的一致性、准确性、完整性、时效性及实体同一性五个方面进行考察,其具体定义如下:
①数据的一致性:指数据信息系统中各相关数据信息之间相容、不产生矛盾。
②数据的准确性:指数据信息系统中每个数据表示现实物体的精准程度。人们对数据进行操作的各个环节都可能影响数据准确性。
③数据的完整性:指数据集合包含的数据完全满足对数据进行各项操作的要求。
④数据的时效性:是指在不同需求场景下数据的及时性和有效性。对应用系统而言,往往对数据时效性要求较高,过时的数据即使分析出来了也不会对实际应用产生有价值的影响。
⑤实体的同一性:指同一实体在各种数据源中的描述统一。
一个数据集合,满足以上五个性质的程度称为该数据集合的可用性。
2 评估方法分析
对于数据可用性评估,国内外研究人员也进行了许多工作。以下从数据的一致性、精确性、完整性、时效性、实体同一性五个方面进行介绍和分析。
2.1 基于一致性的方法
文献[1]针对异地备份系统中数据持续变化的情况,设计并实现了一种基于累积摘要值的一致性检测方法。该方法解决了传统一致性检测需要中断备份任务的问题,保证了备份任务的连续性,并且能够迅速检测本地服务器和远程备份中心数据的一致性,提高了一致性检测的效率。
文献[2]从已有的一致性维护方法出发,针对海量数据多副本之间一致性维护,从一致性维护过程中所涉及的更新、更新传播方式、更新传播内容、更新冲突解决等几个方面进行了分析,提出了相应的解决办法。
文献[3]针对p2p分布存储系统中大型数据对象面临的数据一致性问题,提出了数据一致性维护方法plcp。该方法从提高更新传播速度和减少日志空间开销的角度进行了数据优化。同时针对数据更新的问题和关键属性更新的问题,提出数据一致性维护方法dacp和kacp。
文献[5]从无线传感网络数据安全的角度,结合一些廉价的保护技术,提出了利用跨层一致性评估信息整体质量的方法。
基于数据一致性的方法,主要体现在集中存储方面,对于分布式和非关系数据方面研究还较少,适用于海量数据的一致性评估方法有待进一步探索。
2.2 基于精确性的方法
数据精确性方面的研究结果比较少见,文献[6]从精确度低的角度,提出了对应的精确性评估算法。该算法考虑了一种基于可能世界语义的描述方法。目前的研究结果显示,数据精确性的评估方法还有待研究者们深入探究。
2.3 基于完整性的方法
针对海量关系数据中普遍存在的数据不完整现象,刘永楠等研究了关系数据完整性度量问题。针对数据的完整性计算问题,提出了数据完整性计算模型,以及精确算法和基于均匀抽样的近似算法。理论分析证明了近似算法可以达到任意的精度要求,可以高效地对数据完整性进行计算,通过在dblp数据上的实验验证了算法的有效性和高效性。
在具体应用领域,张少敏等利用iec61970对智能电网进行信息集成,然后根据完整性定义,对智能电网数据进行自动机建模,给出了一种无需对数据进行直接操作的数据完整性定量评估模型。
barcelo p等将传统的完整性理论扩展到xml数据上,讨论了不完整xml数据的表示问题。
另外,针对云存储服务中数据的完整性问题,一些研究者提出了pdp 和por。这两种方案都采用了概率性证明思路,即存储服务提供商向数据拥有者证明其完整的持有数据拥有者存储的数据。
基于数据完整性评估方面的结论还较少,特别是具有普遍适用价值的方法,还有待进一步研究。
2.4 基于时效性的方法
文献[7]针对历史评价数据时效性会影响评价计算准确性的问题,引入了评价数据的时间属性,构造了评价数据衰减因子,减小了时效性对于评价计算准确性的影响。
文献[8]研究了包含冗余记录的集合在给定时效约束下的时效性判定问题,并首次提出了时效性判定问题的求解算法.
在建筑能耗领域,文献[9]通过对几类典型公共建筑能耗数据的统计分析对比,提出了采用近1年的能耗数据作为统计样本的建议。
基于时效性方面的研究非常匮乏,已有的少量研究结论都主要针对一些特殊应用,还需深入系统的研究。
2.5 基于实体同一性的方法
实体同一性是数据可用性研究较多的一个方面,实体同一性研究主要涉及两类方法:第一类是从语义规则的角度进行同一性研究,这类方法主要通过经验知识来描述实体的同一性问题;第二类是从相似性的角度进行同一性研究,该类方法主要采用相似度函数来对实体同一性进行判定。