发布时间:2022-09-22 13:52:52
序言:写作是分享个人见解和探索未知领域的桥梁,我们为您精选了8篇的数据挖掘技术分析论文样本,期待这些样本能够为您提供丰富的参考和启发,请尽情阅读。
关键词:Web数据挖掘,边防情报,应用模式
随着科学技术的突飞猛进,社会信息化的快速发展, 以信息技术为主要标志的高新技术革命已经引起了社会各个领域的深刻变革,网络已经成为社会生活不可分割的一部分。每天有数以亿计的网民在互联网上浏览、信息,互联网已经成为信息时代最为重要的信息集散地。对于边防情报部门而言,研究如何通过互联网和公安网快速高效地进行情报收集,使各项工作都围绕收集、运用情报而展开,已经成为当务之急。Web数据挖掘技术的兴起,为边防情报部门开展工作提供了高效的工具与手段。
一、Web数据挖掘技术
Web数据挖掘技术是由传统数据库领域的数据挖掘技术演变而来。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、事先未知的、但又潜在有用的信息的过程;它是从数据仓库中提取出可信的、新颖的、有效的,并能被人理解的模式的高级处理过程。数据挖掘出现于20世纪80年代,它不仅面向特定数据库的简单检索查询调用,而且要对这些数据进行深入的统计、分析和推理,发掘数据间的相互关系,完成从业务数据到决策信息的转换。数据挖掘技术把人们对数据的应用,从低层次的末端查询提高到为决策者提供决策支持。随着互联网的蓬勃发展,数据挖掘技术被运用到网络上,并根据网络信息的特点发展出了新的理论与方法,演变成为Web数据挖掘技术。Web数据挖掘是指从与WWW有关的资源和行为中抽取人们感兴趣的、有用的模式和隐含信息,所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。Web数据挖掘已经成为对互联网信息进行深度分析、开发与利用的重要手段。
二、Web数据挖掘的分类
(一)Web内容挖掘
Web内容挖掘是指从互联网上检索资源,从相关文件内容及描述信息中获取有价值的潜在信息。根据处理对象的不同,Web内容挖掘分为文本挖掘和多媒体挖掘。网上信息形式多以文本信息的形式存在。文本可以被看作是一种顺序数据,目前有许多适合于顺序数据的挖掘方法。Web文本信息挖掘的主要任务一般限定在文本特征的表示、文本的总结,以及文本的分类和聚类等方面。互联网现有大量多媒体信息。对该类信息进行分析挖掘,找出合适的描述模式,阐述并理解其中的意义,可提高该类信息的识别度及检索效率,也是Web多媒体挖掘的目标。论文大全。目前此方面应用的技术手段主要是语音信息的理解及识别、图形图像信息的理解及识别,以及信息检索等。
(二) Web结构挖掘
Web结构挖掘的目标是Web文档的链接结构,目的在于揭示蕴涵于文档结构中的信息,主要方法是通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。对Web页的链接结构进行分类,可以识别判断页面与文档间的各种属性关系。由于Web页的内外部存在具有各种属性关系的结构信息,通过研究Web结构信息,可得到相关主题、相关分类的页面集合,生成关于某个Web站点的结构和页面结构的概括信息。因此,结构挖掘的重点在于链接信息。
(三) Web日志挖掘
Web日志挖掘是从服务器访问日志、用户策略、用户对话和事物处理信息中得到用户的访问模式和感兴趣的信息,并尽可能预测用户的行为。通过对用户所访问页面、文档等的技术分析,Web日志挖掘可以找出相关主题间、相关内容间的联系规律。访问分析又称使用分析,主要使用用户基本信息如IP、ID、URL、日期、时间等进行处理。由于Web服务器的Log日志存在完整的结构,当用户访问Web站点时,相关的页面、文档、链接等信息在日志中都做了相应的记录。Web日志挖掘不仅要找出用户经常访问的URL路径,而且也要找出用户有可能要访问的相关站点的链接。利用这种方法,可以获知互联网使用者的行为偏好。
三、Web数据挖掘的主要方法
(一)统计分析方法
统计分析(statistical)方法是通过对总体中的样本数据进行分析,从而描述和推断能够揭示总体中的内部规律的信息和知识的方法。为了适应复杂信息的挖掘需求,往往依赖有明确目标和任务的概率模型。数据挖掘的统计模型要适合于所要提取的对象。利用统计分析技术可以对我们感兴趣的内容进行蕴含信息的挖掘。如对互联网日志进行统计可以获得有关站点使用的基本信息,包括页面访问次数、日平均访问人数、最受用户欢迎的页面等。除此以外,还可以进行错误分析,如非法用户登录等。这些统计数据都是基于用户浏览页面的时间、用户的浏览路径和路径长度等信息。这些统计数据对于提高系统的性能、安全性以及优化站点结构大有帮助。目前已有许多互联网流量分析工具实现了这些基本的统计功能。
(二)关联分析方法
关联分析(associationanalysis)用于发现关联规则,所谓关联规则是指在大量的数据中所隐含的项集之间的关系以及项集的频繁模式。用户在浏览网页时,经常会在同一次访问中浏览一些无顺序关系的页面集合,挖掘发现的这些页面之间内在的联系,就是就表现为它们之间存在一定的关联。如果关联规则中的页面之间没有超链接,则应该引起我们的特别关注。通常使用可信度、支持度、期望可信度和作用度这四个参数来描述关联规则。
(三)分类方法
分类(classification)是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类不同于聚类,聚类无须事先制定标准,而能从信息本身出发,利用算法自动分类;而分类的准则是事先定好的。在Web数据挖掘中,分类主要是将用户配置文件归属到既定的用户类别,网页根据内容的属性分类等。分类技术要求抽取关键属性描述已知的信息,可以通过指导性归纳学习算法进行分类,主要包括决策树分类法、贝叶斯分类法、最近邻分类法等。
(四)聚类分析方法
聚类(clustering)就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类分析能够将一批数据按照它们在性质上的亲密程度,在没有先验知识的情况下自动进行分类,每一类都是大量具有相似性个体的集合,不同类之间具有明显的区别。聚类分析是一种探索性分析,在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从信息本身出发,自动进行分类。例如在Web日志挖掘中,聚类分析主要集中于用户聚类和页面聚类。用户聚类将具有相似浏览行为的用户归类;页面聚类则是将内容相关的页面归类,搜索引擎可以利用这些信息为某个查询提供用户感兴趣的相关超链接。
四、Web数据挖掘在边防情报工作中的应用模式
(一)Web数据挖掘在建立公安网搜索引擎中的应用
目前,边防情报部门所需的公开信息大部分来源于互联网和公安网,情报人员通过使用搜索引擎来快速查询需要的信息,然而公安网的搜索引擎存在较大局限性,搜索出来的结果存在大量冗余信息,不能满足情报人员的需求。因此,在搜索引擎中通过借鉴Web数据挖掘技术可以有效地提高查准率和查全率,从而给情报人员提供较有准确的信息。具体应用方法如下:
1.根据公安网的页面内容,自动形成摘要
目前,使用公安网搜索引擎进行检索,检索的结果文档是以简单摘要形式出现的,它表现为机械地提取网页内容取前几句为摘要,这种仅通过位置进行自动摘要是很难真正反映出网页中的信息内容。论文大全。在文本挖掘中的文本抽取技术是指从文档中抽取出关键信息,然后以简洁的形式对文档的信息进行摘要或描述,即文本抽取技术是根据Web文档本身的内容,从Web页中提炼出重要信息形成文档摘要,而不是根据位置来进行文本内容的概括,因此它更能够反映出Web文档中的真正信息。论文大全。这样,情报人员通过浏览关键词就可以了解网页的大致内容,从而决定是否使用该信息。
2.根据检索结果,自动进行文档聚类
文本聚类是文本分类的逆向过程,是指将文档集中的文档分为更小的簇,要求同一簇内文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。情报人员在使用搜索引擎时,会得到大量的返回信息组成的线性表,而其中很大一部分是与其查询请求不相关的,于是通过对检索结果的文档集合进行聚类,可以使得与用户检索结果相关的文档集中在一起,并远离那些不相关的文档。再将处理以后的信息以超链接结构组织的层次方式可视化地提供给情报人员,从而大大减短浏览时间。
(二)Web数据挖掘在建立公安网站中的应用
公安网网站是公安网信息的容纳处,我们可以利用Web数据挖掘技术有效地组织网站信息,建立一个资源优化的网站,也就是说通过对网站内容的数据挖掘,主要是对文本内容的挖掘,如采用自动归类技术实现网站信息的层次性组织;以及结合对用户访问日志记录信息的挖掘,把握用户的兴趣,开展网站信息推送服务。
1.采用自动归类技术,实现公安网网站信息层次化
一般而言,网站提供给访问者的信息和服务应该是按优先次序进行排列,网站维护人员应该把重要的信息放在醒目的位置,因此在网站维护时,通过对网站内容挖掘和Web日志挖掘,可以有效地组织网站信息。例如:采用自动归类技术实现网站信息层次化;分析访问者的访问行为,可为用户提供智能化、个性化服务。还可根据访问者的访问兴趣、访问频度、访问时间,动态地调整页面结构。
2.采用日志挖掘技术,实现公安网网站信息推送服务
网站可以根据访问者的浏览情况,发现访问者的兴趣,定期为注册用户提供相关信息,并且调整网站中网页的链接结构和内容,为访问者提供个人定制服务。具体步骤为:首先将日志文件中的数据经过预处理,形成原始数据库;然后获取用户的访问模式,放入用户访问模式数据库;再通过数据挖掘和模式分析形成知识数据库,Web服务器自动更新知识数据库,采用动态主页设计方法,根据用户的知识信息,提供相应的个性化主页。在数据预处理过程中会话识别是重要的一步,它取决于用户访问模式的有效性和准确性。为提高准确性,可采用Cookie法进行会话识别。在呈现个性化主页时,利用用户的IP地址和Cookie值查询知识数据库,发现用户频繁访问的路径,并自动形成相应链接,根据相似用户群和相关Web页推荐给用户。由于是经过挖掘和分析后所产生的动态主页,相对于一般的主页,其针对性更强,更受用户的欢迎。
参考文献:
[1]叶鹰.情报学基础教程[M].科学出版社,2006
[2]栗湘等.Web挖掘应用研究[J]情报理论与实践,2005,(6)
[3]曼丽春等.Web数据挖掘研究与探讨[J].现在电子技术,2006,(8)
[4]徐险峰.基于Web的网络数据挖掘技术[J].情报杂志,2005,(3)
文献标识码:A
计算机领域新技术应用使各行业生成、收集和存储了大量数据。大量信息数据给社会带来方便也带来大堆问题:信息过量,难以消化;信息真假难以辨识;信息安全难以保证;信息形式不一致而难以统一处理。一般数据库系统可高效实现数据录入、查询与统计等功能,却无法发现数据存在的关系和规则。如何辨析信息和如何不被信息淹没已经成为现实问题。一、数据挖掘直面数据丰富而知识匮乏的挑战
面对信息社会带来的“数据丰富而知识匮乏”的现实挑战,数据挖掘(Data Mining,DM)和知识发现(Knowledge Discovery,KD)技术应运而生,伴随计算机新技术和新理论的出现而发展,在电信与银行,生物及大型超市等领域运用效果显著。数据挖掘有时又称作数据库知识发现(KDD),此术语出现于1989年,从数据集识别有效与新颖的,潜在有用的,最终可理解的模式过程。KDD过程常指多阶段处理,包括数据准备与模式搜索,知识评价及反复修改求精;该过程要有智能性和自动性。有效性指发现新数据仍保持可信度,新颖性要求模式应是新的,潜在有用性指发现的知识将来有效用,最终可理解性要求发现模式能被用户所理解,几项综合在一起称为数据的科学性豍。
数据挖掘的界定。数据挖掘是从存放在数据库与数据仓库或其它存储信息库中的海量数据挖掘有趣知识过程。一般的定义是:数据挖掘是从大量、不完全、有噪声、模糊、随机的数据中抽取隐含其中,事先不为人所知、潜在、有效、新颖、有用和最终可理解知识的过程。研究人工智能学术人员和计算机技术专家通常所说数据挖掘名称各异但实质一样。自然世界数据以多种多样形式存放,除最常见数字与字符等类型,还有许多复杂数据。复杂类型数据挖掘包括:空间数据挖掘和多媒体数据挖掘,时序数据挖掘和文本数据挖掘,Web数据挖掘与流数据挖掘等。数据挖掘与传统数学统计分析有区别,数据挖掘在没有明确假设前提下自动建立方程,可采用不同类型如文本、声音、图片等的数据挖掘兴趣模式;统计数据分析工具侧重被动分析,需建立方程或模型来与假设吻合,最终面对数字化数据;数据挖掘是主动发现型与预测型数据分析工具,分析重点在于预测未来未知潜在情况并解释原因。二、软件工程的产生与数据实用性
软件工程概念源自软件危机,20世纪60年代末的“软件危机”这个词语频繁出现计算机软件领域,泛指计算机软件开发和维护所遇到的系列严重问题。在软件开发和维护过程中的软件危机表现为软件需求的增长得不到满足,软件开发成本和进度无法控制,软件质量难保证,软件维护程度非常低,软件成本不断提高,软件开发生产率赶不上计算机硬件发展和各种应用需求增长等。软件危机产生的宏观原因是软件日益深入社会生活,软件需求增长速度超过软件生产率提高,具体软件工程任务的许多困难来源于软件工程所面临任务和其他工程之间各种差异以及软件和其他工业产品的差异,即特殊性。软件开发和维护过程存在的问题,与计算机软件本身特点有关,软件开发过程进度很难衡量,软件质量难以评价,管理和控制软件开发过程困难等。计算机软件专家认真研究解决软件危机方法,逐步形成软件工程概念,开辟工程学新领域即软件工程学。软件工程用工程、科学和数学原理与方法研制与维护计算机软件有关技术及管理的方法。
软件工程针对数据的处理具有系统的规范的系列办法。1993年IEEE(电气和电子工程师学会)给软件工程综合定义为:将系统化、规范和可度量的方法应用于软件开发、测试、运行和维护全过程,即将工程化应用于软件数据等设计中。软件工程包括方法、工具和过程三个要素,方法是完成软件工程项目技术手段;工具支持软件开发、管理与文档生成;过程支持软件开发各个环节控制与管理。软件工程的发展伴随计算机与数据等相关技术的发展而进步。三、软件工程的知识库应用数据挖掘技术
蕴含数据的特殊软件的生命周期也是一个极其复杂演变过程,各个阶段都会产生大量软件数据。在设计文档与程序源代码,交流历史与Bug报告,软件运行日志等方面产生的大量数据,必然存在着对软件开发和维护具有重要价值的信息。如能充分利用数据挖掘技术发现这些数据隐藏的知识,可提高开发效率并避免错误,增强软件系统运行稳定性和可信性。利用数据挖掘技术处理软件产生大量数据想法在上世纪70年代就出现,但直到最近软件数据挖掘领域才受到越来越多学者关注豏。软件工程国际会议出现关于软件数据挖掘研究工作组,许多数据挖掘会议与期刊陆续出现多篇高质量与软件工程相关学术论文,软件数据挖掘已成为越来越关注热点的研究领域。
[关键词]数据挖掘 风险评估 集装箱
一、引言
随着我国对外贸易的快速发展,进境箱量显著增长。“十一五”期间,检出携带疫情及有毒有害物质箱数呈持续增长趋势。仅2010年度,共受理进境集装箱申报3699.06万箱,同比增长14.04%,检出携带疫情或有毒有害物质的43.66万箱,比去年同期提高了28.20%。进境检出疫情箱数占查验箱数的比例(即查验检出率)为3.26%,同比提高0.43个百分点。这反映出进境集装箱携带疫情及有毒有害物质情况十分普遍,进境集装箱检疫面临形势十分严峻。
目前,在进境集装箱检疫工作中主要采用以人工判断为主的经验式方法,效率比较低,工作量繁重,经验知识传承性差。但是在多年来的实践过程中,我们已经积累了大量的经验和数据。通过数据挖掘技术在已有的数据中发现未知的模式和知识可以为入境集装箱风险进行评估,并为检疫业务决策提供辅助支持。
二、数据挖掘技术
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。简而言之,数据挖掘其实是一类深层次的数据分析方法。数据挖掘已广泛应用于生物医学、金融、零售业、电信业、海关监管等领域,并产生了巨大的效益。数据挖掘技术同样能够将大量的检疫数据提炼、转化为可以理解和应用的模式和知识来指导检疫业务。
数据分类(DataClassification)是数据挖掘技术的一个重要分支。从根本上说,数据分类就是通过对源数据的特点进行归纳和描述。要进行数据分类,必须使用特定的分类工具,方法主要包括:ID3算法、C4.5算法、SPRINT算法、SLIQ算法、EM算法、AQ算法、CN2算法等。数据分类是数据挖掘的基本功能、重要功能,目前在商业、工业、军事、生活、海关监管上应用最多,具有非常高的使用价值。
三、数据概念模型
根据从进境集装箱中检出疫情及有毒有害物质情况的不同,将检出问题分为7类,分别是:①人类传染病和动物传染病病原体;②植物危性病、虫、杂草以及其它有害生物;③啮齿动物、蚊、蝇、蟑螂等病媒生物;④土壤、动物尸体等禁止进境物;⑤动植物残留物;⑥生活垃圾及其他有毒有害物质;⑦其他问题——7类问题,对应每一类问题需要建立一个可用于数据挖掘的数据概念模型,其主要包括:
(1)7大类问题集装箱同诸如:①来源地;②箱主公司;③承运人;④货运方式等特征数据存在哪些未知的、潜在有用的模式和知识,明确对每类问题集装箱产生影响的特征数据,建立一套对应各类问题集装箱的风险数据字典;
(2)CIQ数据库中并不包含所有的特征数据,一些重要的特征数据需要通过与场站、货运公司的比对才能获得。同时,要对数据进行采集、清洗、转换等步骤,建立可以用于数据挖掘的数据概念模型。
四、风险评估模型
对进境集装箱进行风险评估主要用到数据挖掘中的重要分支——分类技术,建立和完善风险评估模型关系到风险评估系统研究的成败,主要研究内容如下:
(1)分类技术有ID3算法、C4.5算法、SPRINT算法、SLIQ算法等,结合检疫工作实际选择合适的算法进行数据挖掘,并在实践中对模型进行修正和完善;
(2)选择和使用SAS公司提供的SAS/BASE、SAS/STAT、SAS/LAB等模块化分析工具对7类问题集装箱进行逐类数据挖掘、建模。
五、典型系统应用开发
基于上述的研究成果,设计实现一个基于数据挖掘技术的进境集装箱风险评估管理系统,重点关注下面系统,如图1所示:
(1)面向检疫查验人员设计并实现一个基于Web技术的软件系统,通过此软件,检疫管理人员可以将已有风险评估模型软件化,系统接收进境集装箱特征数据,自动对风险进行预评估。同时,将用于风险评估的数据独立于CIQ数据库存在,为以后进一步完善风险评估模型提供数据库支持。
(2)面向检疫查验人员设计并实现一个软件终端,考虑到检疫查验一线人员工作环境分散、移动的特点,重点面向主流嵌入式系统(Apple、Angel、Symban、Windows-Mobile等)和移动终端(如手机、PDA、iPOD等)展开研发。
图 基于数据挖掘技术的风险评估系统
六、结论
针对出入境检验检疫部门在对进境集装箱检疫查验中盲目性大、工作效率低等客观实际,研究一个基于数据挖掘技术的进境集装箱风险评估模型,并将其软件化、实用化,通过软件自动对进境集装箱进行风险等级评估,指导日常检疫查验工作,降低检验查验的盲目性,提升检疫查验人员的工作效率,提高把关成效。
参考文献:
[1]舒军生.数据挖掘技术在企业信用分类管理系统中的应用.安徽:安徽大学硕士论文.2010
[2]高燕. 基于数据挖掘技术的海关执法评估系统的研究与开发.武汉:武汉理工大学硕士论文.2002
论文关键词:数据挖掘;电子商务;web数据挖掘
1 引言
当前,随着网络技术的发展和数据库技术的迅猛发展,有效推动了商务活动由传统活动向电子商务变革。电子商务就是利用计算机和网络技术以及远程通信技术,实现整个商务活动的电子化、数字化和网络化。基于internet的电子商务快速发展,使现代企业积累了大量的数据,这些数据不仅能给企业带来更多有用信息,同时还使其他现代企业管理者能够及时准确的搜集到大量的数据。访问客户提供更多更优质的服务,成为电子商务成败的关键因素,因而受到现代电子商务经营者的高度关注,这也对计算机web数据技术提出了新的要求,web 数据挖掘技术应运而生。它是一种能够从网上获取大量数据,并能有效地提取有用信息供企业决策者分析参考,以便科学合理制定和调整营销策略,为客户提供动态、个性化、高效率服务的全新技术。目前,它已成为电子商务活动中不可或缺的重要载体。
2 计算机web数据挖掘概述
2.1 计算机web数据挖掘的由来
计算机web数据挖掘是一个在web资源上将对自己有用的数据信息进行筛选的过程。web数据挖掘是把传统的数据挖掘思想和方法移植到web应用中,即从现有的web文档和活动中挑选自己感兴趣且有用的模式或者隐藏的数据信息。计算机web数据挖掘可以在多领域中展示其作用,目前已被广泛应用于数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等多个方面,其中对商务活动的变革起到重大的推动作用方面最为明显。
2.2 计算机web数据挖掘含义及特征
(1) web数据挖掘的含义。
web 数据挖掘是指数据挖掘技术在web 环境下的应用,是一项数据挖掘技术与www技术相结合产生的新技术,综合运用到了计算机语言、internet、人工智能、统计学、信息学等多个领域的技术。具体说,就是通过充分利用网络(internet),挖掘用户访问日志文件、商品信息、搜索信息、购销信息以及网络用户登记信息等内容,从中找出隐性的、潜在有用的和有价值的信息,最后再用于企业管理和商业决策。
(2)web数据挖掘的特点。
计算机web数据挖掘技术具有以下特点:一是用户不用提供主观的评价信息;二是用户“访问模式动态获取”不会过时;三是可以处理大规模的数据量,并且使用方便;四是与传统数据库和数据仓库相比,web是一个巨大、分布广泛、全球性的信息服务中心。
(3)计算机web数据挖掘技术的类别。
web数据挖掘技术共有三类:第一类是web使用记录挖掘。就是通过网络对web 日志记录进行挖掘,查找用户访问web页面的模式及潜在客户等信息,以此提高其站点所有服务的竞争力。第二类是web内容挖掘。既是指从web文档中抽取知识的过程。第三类是web结构挖掘。就是通过对web上大量文档集合的内容进行小结、聚类、关联分析的方式,从web文档的组织结构和链接关系中预测相关信息和知识。
3 计算机web数据挖掘技术与电子商务的关系
借助计算机技术和网络技术的日臻成熟,电子商务正以其快速、便捷的特点受到越来越多的企业和个人的关注。随着电子商务企业业务规模的不断扩大,电子商务企业的商品和客户数量也随之迅速增加,电子商务企业以此获得了大量的数据,这些数据正成为了电子商务企业客户管理和销售管理的重要信息。为了更好地开发和利用这些数据资源,以便给企业和客户带来更多的便利和实惠,各种数据挖掘技术也逐渐被应用到电子商务网站中。目前,基于数据挖掘(特别是web数据挖掘)技术构建的电子商务推荐系统正成为电子商务推荐系统发展的一种趋势。
4 计算机web数据挖掘在电子商务中的具体应用
(1)电子商务中的web数据挖掘的过程。
在电子商务中,web数据挖掘的过程主要有以下三个阶段:既是数据准备阶段、数据挖掘操作阶段、结果表达和解释阶段。如果在结果表达阶段中,分析结果不能让电子商务企业的决策者满意,就需要重复上述过程,直到满意为止。
(2)web数据挖掘技术在电子商务中的应用。
目前,电子商务在企业中得到广泛应用,极大地促进了电子商务网站的兴起,经过分析一定时期内站点上的用户的访问信息,便可发现该商务站点上潜在的客户群体、相关页面、聚类客户等数据信息,企业信息系统因此会获得大量的数据,如此多的数据使web数据挖掘有了丰富的数据基础,使它在各种商业领域有着更加重要的实用价值。因而,电子商务必将是未来web数据挖掘的主攻方向。web数据挖掘技术在电子商务中的应用主要包含以下几方面:
一是寻找潜在客户。电子商务活动中,企业的销售商可以利用分类技术在internet上找到潜在客户,通过挖掘web日志记录等信息资源,对访问者进行分类,寻找访问客户共同的特征和规律,然后从已经存在的分类中找到潜在的客户。
二是留住访问客户。电子商务企业通过商务网站可以充分挖掘客户浏览访问时留下的信息,了解客户的浏览行为,然后根据客户不同的爱好和要求,及时做出让访问客户满意的页面推荐和专属性产品,以此来不断提高网站访问的满意度,最大限度延长客户驻留的时间,实现留住老客户发掘新客户的目的。
三是提供营销策略参考。通过web数据挖掘,电子商务企业销售商能够通过挖掘商品访问情况和销售情况,同时结合市场的变化情况,通过聚类分析的方法,推导出客户访问的规律,不同的消费需求以及消费产品的生命周期等情况,为决策提供及时而准确的信息参考,以便决策者能够适时做出商品销售策略调整,优化商品营销。
四是完善商务网站设计。电子商务网站站点设计者能够利用关联规则,来了解客户的行为记录和反馈情况,并以此作为改进网站的依据,不断对网站的组织结构进行优化来方便客户访问,不断提高网站的点击率。
摘要在对复杂流程制造业生产过程的数据特点进行充分分析的基础上,紧密结合流程制造业综合自动化的应用需求,给出了流程制造业数据挖掘的体系框架,分析了流程制造业数据挖掘中的关键问题。
关键词:数据挖掘;流程制造业;海量数据
近年来,数据挖掘技术已经在商业、金融、管理、工业等众多领域广泛应用并取得了重大进展,但大都仅限于企业的商业信息,在企业的生产过程中应用的还比较少。
目前,在复杂流程制造业生产过程中,由于各种先进工艺和工程技术的广泛采用,产生和积累了大量的各种类型的历史数据和当前生产的实时动态数据,这些海量生产数据又包含用于生产和管理的大量的有价值的信息和知识。一方面,为了避免产品的设计知识数据重用率低,无法有效地实现产品配置设计和变形设计,延长了产品的设计周期;另一方面,为了能够为过程监测、诊断、能效分析、先进控制、优化和调度、管理等各层次提供决策支持,使得流程制造业综合自动化系统性能达到最优。这就需要一种高效可靠的分析工具,把隐藏在海量数据中的有用的深层次的知识和信息挖掘出来,提取这些数据的整体特征、关联及对其发展趋势的预测等,以帮助决策者提出问题、发现问题、分析问题和解决问题。基于流程制造业的生产特点和数据性质以及所面临的问题,数据挖掘技术是解决流程制造业产生的海量信息数据处理的关键技术之一,并且数据挖掘技术也是目前国内外研究的一个热点。
本文从流程制造业的生产数据的特点及分析需求出发,建立了一般流程制造业数据挖掘的体系结构,并分析了流程制造业数据挖掘中的关键问题,总结了数据挖掘方法在流程制造业领域的数据应用技术方向。
一、数据挖掘概念
数据挖掘是近年来随着人工智能和数据库技术的发展而出现的一门新兴技术。它的发展速度很快,加之它是多学科综合的产物,目前还没有一个标准的定义,简单地说,数据挖掘就是从大量的已知数据中找出隐藏的、可信的、未知的、有用的信息,探索数据中隐藏的规律用来预测未来,其中数据可以放在数据库、数据仓库或其他信息库中。数据挖掘工具能够从企业数以百万笔的历史数据中提取有用的信息,为企业的生产与经营提供决策依据。
数据挖掘过程由以下步骤组成:
1.挖掘主题――明确挖掘的要求、内容及目标;
2.数据预处理――包括数据清理、数据归约、数据集成与变换、离散化与概念提升等;
3.挖掘算法选择――包括类的选择、算法选择及算法软件选择;
4.构造数据挖掘(软件、硬件)平台;
5.结果展示及评价。
以上步骤是一个反复迭代的过程,最终目的是在数据中获得有用的知识。在实践中,数据挖掘的两个基本目标往往是预测和描述。预测涉及到使用数据集中的一些变量或域来预测其他我们所关心变量的求知或未来的值;另一方面,描述关注的则是找出描述可由人类解释的数据模式。因此,数据挖掘活动可分成预测性数据挖掘和描述性数据挖掘。数据挖掘方法大致可分为关联(Apriori算法)、分类(决策树算法、粗糙集、人工神经网络等)、聚类(层次、遗传算法、划分法等)三种。 简而言之,数据挖掘其实是一类深层次的数据分析方法。数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
二、流程制造业数据特点
制造业(Manufacturing Industry)是指经物理变化或化学变化后成为了新的产品,不论是动力机械制造,还是手工制作;也不论产品是批发销售,还是零售,均视为制造。制造业按其产品制造工艺过程特点总体上可概括为离散型制造业和流程制造业两种。典型的离散型制造行业包括电脑、汽车及工业用品制造等行业;典型的流程制造行业包括化工,食品饮料,制药,化妆品等以配方为基础的行业。
流程制造业是工程学科的一个重要研究领域,系统非常复杂,成品一旦生产出来,就不能再提取它,回到它的原始成分。流程制造业整个流程生产过程是一个动态的过程,产出量、物料特性、甚至物料加工路线受到原材料成分波动、操作、加工温度压力、设备等等波动的影响,并且不可预知。流程制造业制造过程是连续、在线的,所以说更加强调生产过程的跟踪和调整,主要靠实时的跟踪、控制纠偏。基于流程制造业的生产特点,流程制造业数据尤其是实际生产过程中的数据非常复杂,现在的流程制造业生产过程都采用了计算机控制系统定时采集系统的变量和设备状态,以供显示、控制之用,日积月累产生大量的冗余数据;同时又由于离散决策变量和连续决策变量同时存在,各种变量的值是在不断变化的,数据类型也是多样的,系统中既包括连续过程变量,也包括离散过程变量,使得这些它们之间有较强的耦合及非线性;许多变量的变化快慢各异,采集信号的频率不同,导致时间上的不同步,在数据记录上也可能丢失数据,造成数据的不完整;流程制造业系统环境复杂,电、磁、噪声干扰较强,加之系统的不确定性,导致数据受污染。简言之,流程制造业数据具有不确定性、动态性、不完整性、多时标性(部分不同变量采用不同的采样周期)和数据类型多样性、多模态性,非线性、强耦合性和交错性等特点,致使全流程的模拟、诊断、决策与优化变得极为困难,而数据挖掘技术对这些问题提供了一定的解决方案。
三、流程制造业数据挖掘的体系结构
流程制造业数据挖掘体系结构的确定是流程制造业数据挖掘项目成功的基础,依据流程制造业数据的特点以及数据挖掘技术的要求,构建流程制造业数据挖掘的总体框架。如图1所示:
图1 流程制造业数据挖掘体系结构
1.数据预处理
流程制造业生产过程中产生的海量数据一般是不完整的、含噪声的和不一致的,数据预处理技术(数据采样、数据清理、数据转换等)可以检测数据异常,改进数据质量,从而有助于提高其后的挖掘过程的精度和性能。
2.数据归约
流程制造业生产过程中产生的海量数据经过预处理后,数据质量有了很大的提高,在此基础上构造数据仓库和OLAP,数据仓库中的数据集非常大,对海量数据进行复杂的数据分析和挖掘将需要相当长的时间,通过数据归约技术可以将数据集中不相关、弱相关或冗余的属性或删除,并能保持原数据的完整性,对归约后的数据集进行挖掘将更有效,并产生相同(几乎相同)的分析结果。
3.挖掘方法选择器
方法选择专家系统及知识库根据不同的挖掘要求选择最有效的挖掘算法或几种算法的序列组合,并且不断地更新知识库,用选择的方法去执行挖掘任务。目前系统常用的挖掘方法有统计分析方法、决策树、人工神经网络、基因算法、粗糙集等。
4.评估界面 执行数据挖掘任务得到的结果往往是一些抽象的模型或数据,因此,系统提供了一种解释机制,以一种直觉的方式来表现数据挖掘的结果,比如用文字、图表和报表等多种可视化手段,帮助分析决策人员具体地了解所挖掘的结果。
四、流程制造业数据挖掘的关键问题
1.数据的质量和数量
流程制造业数据挖掘的最根本问题在于数据的数量和质量。一方面,数据量越充足,越能保证获取的数据的连续性,从而易发现系统的一般性规律;另一方面,数据的准确性和可靠性也是一切建模和分析是否有效的关键。因此,要尽可能完备地搜集与所研究问题相关的信息资料,包括公开和未公开的数据资料,然后从众多的资料中把有用的部分挑选出来。挑选数据资料时应按照相关性、可靠性、最新性等原则进行。然后挑选出符合一定标准的资料,加以深入研究。然而收集数据资料并不容易,尤其是在我国当前的情况下,各层次的资料往往不够完整,真实性也有存在很大的问题,再加上涉及到数据的保密性问题,所以无形中就增加了数据搜集的难度,从而数据的数量和质量也就难以保证。
2.数据仓库的建立
从数据挖掘的定义可以看出,数据挖掘包含一系列旨在从数据库中发现有用而未发现的模式的技术,如果将其与数据仓库紧密联系在一起,将获得意外的成功。传统的观点认为,数据挖掘技术扎根于计算科学和数学,不需要也不得益于数据仓库。这种观点并不正确。成功的数据挖掘的关键之一就是通过访问正确、完整和集成的数据,然后再进行深层次的分析,寻求有益的信息,而这些正是数据仓库所能够提供的。数据仓库不仅是集成数据的一种方式,而且数据仓库的联机分析功能(OLAP)还为数据挖掘提供了一个极佳的操作平台。如果数据仓库与数据挖掘能够实现有效的联结.这将给数据挖掘带来各种便利和功能。
数据仓库为数掘挖掘提供了更广阔的活动空间。数据仓库完成数据的收集、集成、存储、管理等工作、数据挖掘面对的是经初步加工的数据,使得数据挖掘能更专注于知识的发现。又由于数据仓库所具有的新特点,对数据挖掘技术提出了更高的要求。另一方面,数据挖掘为数据仓库提供了更好的决策支持,同时促进了数据仓库技术的发展。因此,数据挖掘和数据仓库技术要充分发挥潜力。就必须结合起来。
3.数据挖掘方法的选择与应用
目前数据挖掘方法很多,面对各层次不同的海量数据,应如何选择和应用其方法,是数据挖掘的另一关键问题。不同的人对同样的数据进行挖掘,可能产生不同的结果,甚至差异很大。因此,合理选择分析方法很重要。数据挖掘常用的算法包括:统计分析、关联规则、聚类分析、决策树、神经网络、遗传算法、模糊集等,每种方法都有所侧重,应全面了解每种方法的基本原理与优劣之处,选择与要解决问题类型相匹配的数据挖掘方法。比如,神经网络、规则归纳方法、决策树学习、遗传算法等适用于分类问题;硬均值聚类、模糊均值聚类、神经网络等适用于聚类;回归分析、时间序列、神经网络等适用于预测。实际应用时,还要确定数据挖掘方法是直接应用还是建模嵌入的开发应用。
数据挖掘模型是数据挖掘算法的实际应用,在流程制造业领域进行数据挖掘必须针对流程制造业生产过程中产生的数据特点及特定的挖掘目标,选择各层次数据的合适数据挖掘算法。
4.结果的解释及评价
数据挖掘的结果是不确定的。因此,需要和专业知识相结合才能对其做出解释,并在此基础上评价模型的合理性,以提供科学的决策支持信息。
评价模型的合理性,即看模型是否准确反映数据的真实意义,是否有实际意义和实用价值。评价的方法之一是直接使用原来建立模型的样板数据来进行检验;另一种办法是另外找一批数据,已知这些数据是反映客观实际的规律性的;再有一种办法就是在实际运行的环境中取出新鲜数据进行检验。
需要强调的是,要想真正做好数据挖掘,数据挖掘工具只是其中的一个方面。流程制造业数据挖掘的成功要求对流程制造业领域有深刻的了解,理解流程制造业要素数据的属性,了解数据采集的过程,同时还需要对流程制造业生产过程有足够的数据分析经验。
五、结束语
数据挖掘在企业中的应用目前主要集中在市场推广方面。如客户特征、购物关联分析及客户关系管理,这方面技术相对来说已经比较成熟,很好地解决了企业的许多商业信息问题,但应用于工业制造生产流程还处于理论研究和初步实践阶段,起步较晚,并且实际成功应用的事例也较少,基于此,数据挖掘技术更能显现出它巨大的发展潜力,根据流程制造业的数据特点,量身定制合适的数据挖掘工具,为流程制造业提供决策依据,解决流程制造业存在的不同程度的问题。
参考文献:
[1] Jiawei Han,Micheline Kanmber. Data Mining: Concepts and Techniques[M]. Morgan Kaufmann Publishers,2001
[2] 朱群雄,麻德贤.过程工业中数据挖掘技术的应用.计算机与应用化学[J].2004
[3] 孟永胜.装备制造业产品制造数据集成管理研究与应用 [博士学位论文].大连:大连理工大学,2006
[4] 余军合.面向全生命周期虚拟产品模型的研究与应用 [博士学位论文].杭州:浙江大学,2002
[关键词] 数据挖掘工具 个性化营销 电子商务企业
一、引言
一个成功的电子商务运作过程,需要完美整合三个要素――网络技术、商业模式和营销(网络营销)。网络营销是企业营销实践与现代信息通讯技术、计算机网络技术相结合的产物,是指企业以电子信息技术为基础,以计算机网络为媒介和手段而进行的各种营销活动(包括网络调研、网络新产品开发、网络促销、网络分销、网络服务等)的总称。
具有交互性、跨时空、低成本、高效性等优点的网络营销这一概念在中国出现才刚刚开展10年的时间,虽然理论体系还不完善,上网的企业数量还比较少,但是,这种基于互联网的新型营销方式已经引起广泛关注,并对企业的经营战略产生越来越大的影响。当前各种形式的网络广告、网络调研、网络分销等网络营销活动正活跃在企业的市场活动中。网络营销使得大公司、小公司“同台竞技”“规模经济”与“小批量、多品种”生产并存。网络营销把企业带入小型化、多样化和复杂化竞争的时代。
随着技术的发展,信息铺天盖地,不仅企业被淹没在大量的信息中,就连顾客也不得不花大量的时间来寻找、浏览自己感兴趣的信息。根据菲利普・科特勒的顾客让渡价值理论,顾客让渡价值=总顾客价值-总顾客成本。总顾客价值是顾客从某一特定产品或服务中获得的一系列价值,包括产品价值、服务价值、人员价值和形象价值。总顾客成本是顾客在为购买该产品或服务所耗费的费用,不仅包括货币成本,还包括时间成本、精神成本、体力成本等非货币成本。可见为了购买特定产品,在电子商务这种特殊市场中,浏览信息所花费的时间成本、精神成本、体力成本等也直接影响着总顾客让渡价值。
Web数据挖掘技术在电子商务上的应用,正是为了更加有效的掌握信息,服务于顾客,Web数据挖掘技术的路径分析、关联规则发现、序列模式发现、分类规则的发现、聚类分析等方法,可以应用于发现潜在顾客、改进站点链接结构设计、对顾客进行聚类分级从而分析组中顾客的共同特征,并为相应的顾客提供优质个性化服务,使顾客在浏览信息时有针对性,节省时间成本、精神成本、体力成本等,最终使总顾客成本得以降低。
二、个性化营销
个性化营销是把一个顾客看成一个顾客群,将锁定销售目标的活动发挥到极致的程度。充分体现了“顾客至上”,“顾客永远是正确的”,“爱你的顾客而非产品”等现代市场营销观念。消费者选购商品时完全以“自我”为中心,现有商品不能满足需求,则可向企业提出具体要求,企业也能满足这一要求,这样既能最大限度满足消费者个性化需求,又能增强企业产品的市场竞争力。同时由于和消费者保持长期的互动关系,企业能及时了解市场需求的变化,有针对性的生产,不会造成产品积压。缩短再生产周期,降低流通费用,从而提高企业经济效益。
在电子商务环境下,实现个性化营销可以利用的资源包括个性化网站、顾客数据库,网络营销工具。即企业在互动式网站和数据库为支撑工具的前提下,整合运用个性化的网站、个性化的E-mail、个性化的网页、顾客的兴趣追踪等相关工具,既可以与顾客建立亲密友好的联系,又可以创建个性化的营销信息,包括每个顾客的喜好、购买模式、针对他的最有效的沟通技巧等,以此来提供个性化的产品和顾客服务,开展个性化营销活动。
下图反映出一个具备个性化营销服务功能的系统功能层次结构。
由图看出,系统要得到上层所提供的个性化营销服务,需要从底层数据库获取交易数据、顾客数据、财务数据、市场数据等,将底层数据析取到数据仓库中,在数据仓库中建立以顾客、销售和财务等为主题的多维数据模型,并在保留原有数据的基础上,不断刷新数据仓库的数据,接着进行指标分析、多维数据分析和数据挖掘。主要内容有顾客分析、忠诚度分析、销售分析、顾客反馈分析、财务分析等。
通过对顾客属性特征、交易行为和资金能力的分析,提取各种与顾客交易之静态特征和动态特征相关的知识,对顾客进行必要细分,从而有针对性地对顾客施加1对1的个性化营销服务,提高电子商务企业的认知能力和服务创新水平,扩大其获利机会。
可见上层的个性化营销功能的获得是底层数据所不能直接提供的,需要经过中间析取到数据仓库中,面向主题对数据进行组织与管理后,再利用数据挖掘技术才能实现的。
三、数据挖掘工具及选择分析
数据挖掘技术让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识。它使得许多商业公司充分认识到深层次地分析本公司业务数据库中的数据能够带来更多的商业机会。尤其对于电子商务企业,它很容易满足数据挖掘所必需要因素:丰富的数据源、自动收集的可靠数据,并且可将挖掘的结果转化为个性化网络营销这样的商业行为,商业投资可以直接评价。
在不久以前大部分数据挖掘工具还只能为专门技术人员所操纵,但现在有更多的公司提供了更高级的数据挖掘系统,使得非专业人士也能使用。这些数据挖掘工具所基于的技术主要包括:规则归纳、神经网络、遗传算法、模糊逻辑、规则发现、模糊专家系统规则、决策树、基于实例的推理、归纳逻辑等。
选择一个满足本公司实现个性化网络营销的数据挖掘工具可从以下方面进行考虑:
(1)产生的模式种类
数据挖掘模式一般有以下六种:
①分类模式:表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。
②回归模式:与分类模式相似,其差别在于分类模式的预测值是离散的,回归模式的预测值是连续的。
③时间序列模式:根据数据随时间变化的趋势预测将来的值。
④聚类模式:把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小,但它与分类模式不同之处在于,进行聚类前并不知道将要划分成同个组和什么样的组。
⑤关联模式:描述事物之间同时出现的规律的知识模式。如购买A产品与B产品之间的关联性。
⑥序列模式:与关联模式相似,它把数据之间的关联性与时间联系起来。
对于个性化营销,公司的需要反映在:跟踪和学习顾客的兴趣和行为;为当前用户寻找k个最相似的邻居来预测当前用户的兴趣;或找出在什么时间,什么样顾客对什么样的产品感兴趣等方面。
以上的六种模式中分类模式可以对顾客进行分类;时间序列模式可在需求量方面给出预测结果;聚类模式可用于顾客聚类.由于它是根据相似顾客来推荐资源的,即根据最相似的邻居来预测当前顾客的兴趣,所以有可能为潜在顾客推荐出新的感兴趣的内容;关联模式找出A产品与B产品之间的关联性;序列模式则可以反映出需求的季节性。
(2)易操作性
当前有的工具有图形化界面,引导用户半自动化地执行任务;有的使用脚本语言,有些工具提供数据挖掘的API,可以嵌入到C、Visual Basic、PowerBuilder等高级编程语言中。
(3)数据存取能力
好的数据挖掘工具可以使用SQL语句直接从DBMS中读取数据。这样可以简化数据准备工作。
(4)与其他产品的接口
在需要其他产品辅助企业理解数据、理解结果时,数据挖掘工具与其他产品的接口就显得很重要了。
总之,数据挖掘工具应具备多种模式、多种算法、良好的数据选择和转换能力、可视化、扩展性等,使之具备更强的解决复杂问题的能力。
当前比较著名数据挖掘工具有IBM Intelligent Miner、SAS Enterprise Miner、SPSS Clementine等,它们都能够提供常规的挖掘过程和挖掘模式。
其中Intelligent Miner 通过其世界领先的独有技术,例如典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现,可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据发掘操作。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。根据IDC 的统计,Intelligent Miner 目前是数据发掘领域最先进的产品。
SAS Enterprise Miner 能支持包括关联、聚类、决策树、神经元网络和统计回归在内的广阔范围的模型数据挖掘工具。SAS Enterprise Miner设计为被初学者和有经验的用户使用。它的GUI界面是数据流驱动的,且它易于理解和使用。由于支持多种模型,所以SAS Enterprise Miner允许用户比较不同模型并利用评估结点选择最适合的。SAS Enterprise Miner被设计成能在所有SAS支持的平台上运行。
SPSS Clementine是一个开放式数据挖掘工具,曾两次获得英国政府SMART 创新奖,它不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准--CRISP-DM。Clementine的可视化数据挖掘使得"思路"分析成为可能,即将集中精力在要解决的问题本身,而不是局限于完成一些技术性工作(比如编写代码)。提供了多种图形化技术,有助理解数据间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法。
其它常用的数据挖掘工具还有LEVEL5 Quest 、MineSet (SGI) 、Partek 、SE-Learn 、SPSS 的数据挖掘软件Snob、Ashraf Azmy 的SuperQuery 、WINROSA 、XmdvTool 等。
四、总结
个性化营销一直是网络营销所关注的领域之一,但总的来说个性化营销的思想在网络营销实践中的体现不够明显,效果也难以显著,究其根本原因正是电子商务企业没有很好地利用数据挖掘工具,从底层业务数据中找到知识和信息。论文通过讨论数据挖掘工具及其实现模式,结合个性化营销的实现目标的分析,以期使电子商务企业充分利用丰富的底层数据源,真正把数据挖掘融入到企业的经营决策中。
参考文献:
[1]Claudia Imhoff, Nicholas Galimmo, Jonathan G.Geiger(著),于戈,鲍玉斌,王大玲等译.数据仓库设计[M].北京:机械工业出版社,2004.12
[2]王绪林:Web使用挖掘的用户个性化服务研究[J].信息系统,2003,1.
[3]Jiawei Han, Micheline Kamber(著), 范明,孟小东等译.数据挖掘概念与技术[M].北京:机械工业出版社.2004
论文关键词:电子商务,数据挖掘,聚类分析,关联规则挖掘
1引言
随着Internet的普及,电子商务得到了前所未有的发展,经销商和客户之间通过互联网进行交易,节省了大量的费用和时间。但是在电子商务中充斥着大量的数据,如何从这些大量的数据中挖掘出真正有价值的信息,帮助企业经销商制定更好的营销策略是电子商务急需解决的问题。数据挖掘,又称数据库中的知识发现(Knowledge Discovery in Database, KDD),也就是从大量的数据中挖掘出有用信息的一种技术。利用数据挖掘技术可以使经销商从大量的数据中挖掘出有用的信息帮助决策,从而在市场竞争中获得优势地位。
2电子商务概述
电子商务指交易当事人或参与人利用现代信息技术和计算机网络(主要是因特网)所进行的各类商业活动,包括货物贸易、服务贸易和知识产权贸易。“电子商务”中所包括的“现代信息技术”应涵盖各种使用电子技术为基础的通信方式;“商务”指不论是契约型还是非契约型的一切商务性质的关系所引起的种种事项。如果将“现代信息技术”看作一个子集,“商务”看作另一个子集,电子商务所涵盖的范围应当是这两个子集所形成的交集,即“电子商务”标题之下可能广泛涉及的因特网、内部网和电子数据交换在贸易方面的各种用途。
电子商务与传统商务相比有以下优点:(1)电子商务将传统的商务流程数字化、电子化,让传统的商务流程转化为电子流、信息流,突破了时间空间的局限,大大提高了商业运作的效率。(2)电子商务简化了企业与企业,企业与个人之间的流通环节,最大限度地降低了流通成本,能有效地提高企业在现代商业活动中的竞争力。(3)电子商务是基于互联网的一种商务活动,互联网本身具有开放性全球性特点,电子商务可为企业及个人提供丰富的信息资源,为企业创造更多商业机会。(4)电子商务对大型企业和中小企业都有利,因为大中型企业需要买卖交易活动多,实现电子商务能有效地进行管理和提高效率,对小企业同样有利,因为电子商务可以使企业以相近的成本进行网上交易,这样使中小企业可能拥有和大企业一样的流通渠道和信息资源,极大提高了中小企业的竞争力。(5)电子商务将大部分商务活动搬到网上进行,企业可以实行无纸化办公节省了开支。
3数据挖掘技术
数据挖掘(Data Mining,DM)技术是随着计算机的广泛应用和数据的大量积累而发展起来的。数据挖掘是从大量的数据中提取或“挖掘”知识,即发现其中隐含的,未知的,有意义的信息的过程,它又被称为“数据库中知识发现”(KDD),也有人把数据挖掘视为数据库中知识发现的一个基本步骤,知识发现过程由以下步骤组成:(1)数据清理(2)数据集成(3)数据选择(4)数据变换(5)数据挖掘(6)模式评估(7)知识表示。
从商业的角度定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。利用功能强大的数据挖掘技术,可以使企业把数据转化为有用的信息帮助决策,从而在市场竞争中获得优势地位。数据挖掘与传统的数据分析的不同是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用3个特征。
4数据挖掘在电子商务中的作用
数据挖掘技术之所以可以服务于电子商务,是因为它能够挖掘出活动过程中的潜在信息以指导电子商务活动。在电子商务中的作用有7个方面:(1)挖掘客户活动顾虑,针对性的在电子商务平台下提供“个性化”的服务。(2)可以在浏览电子商务网站的访问者中挖掘出潜在的客户。(3)通过电子商务访问者的活动信息的挖掘,可以更加深入的了解客户需求。(4)通过挖掘网上顾客的购买行为,可以帮助制定合理的产品策略和定价策略。(5)通过对商品访问情况和销售情况进行挖掘,可以帮助制定产品营销策略,优化促销活动。(6)优化电子商务网站的信息导航,方便客户浏览。(7)通过客户在网络上浏览时的拥塞记录发现网站的性能瓶颈,从而提高网站的稳定性,保证电子商务购物快速进行。
5电子商务中数据挖掘的技术与方法
电子商务中的数据挖掘过程一般包括3个主要的阶段:数据准备、数据挖掘、结果解释和评价。(1)数据准备又可分为数据选取和数据预处理两个步骤。数据选取的目的是确定发现任务的操作对象。即目标数据,是根据用户的需要从原始数据库中抽取的一组数据。数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换以及对数据降维。(2)数据挖掘阶段首先要确定数据挖掘的目标和挖掘的知识类型。确定挖掘任务后,根据挖掘的知识类型选择合适的挖掘算法,最后实施数据挖掘操作,运用选定的挖掘算法从数据库中抽取所需的知识。(3)结果的解释和评价。数据挖掘阶段发现的知识,经过评估,可能存在冗余或无关的知识,这时需要将其剔除,也有可能知识不满足用户的需求,需要重复上述挖掘过程重新进行挖掘。另外,由于数据挖掘最终要面临用户,因此,还需要对所挖掘的知识进行解释,以一种用户易于理解的方式供用户所使用。
数据挖掘按照其挖掘任务主要包括分类和预测、聚类分析、关联规则挖掘,回归发现和序列模式发现等技术。在选择某种数据挖掘技术之前,首先要将需要解决的问题转化成正确的数据挖掘任务,然后根据挖掘的任务来选择使用哪些数据挖掘技术。在电子商务活动中,主要使用下面的一些数据挖掘技术。
5.1分类
分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型或分类函数,将数据库中的数据项映射到某个给定的类别。分类的主要方法有基于决策树模型的数据分类,贝叶斯分类算法,ID3算法和基于BP神经网络算法等。
假定现在我们有一个描述顾客属性的数据库,包括他们的姓名、年龄、收入、职业等,我们可以按照他们是否购买某种商品(例如,计算机)来进行分类。如果现在有新的顾客添加到数据库中,我想将新计算机的销售信息通知顾客,若将促销材料分发给数据库中的每个新顾客,如此可能会导致耗费较多的精力和物力。而若我们只给那些可能购买新计算机的顾客分发材料,可以在较大的程度上节省成本。为此,可以构造和使用分类模型。分类方法的特点是通过对示例数据库中的数据进行分析,已经建立了一个分类模型,然后利用分类模型对数据库中的其它记录进行分类。
5.2聚类分析
聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。聚类分析的方法是数据挖掘领域最为常见的技术之一。常用的聚类分析方法有:分割聚类方法,层次聚类方法,基于密度的聚类方法和高维稀疏聚类算法等。聚类分析方法与分类方法的不同之处是聚类事先对数据集的分布没有任何的了解。因此在聚集之后要有一个对业务很熟悉的人来解释这样聚集的意义。很多情况下一次聚集你得到的分类对你的业务来说可能并不好,这时你需要删除或增加变量以影响分类的方式,经过几次反复之后才能最终得到一个理想的结果。聚类分析方法在电子商务中的使用也极其广泛。其中一个典型的应用是帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同客户群的特征。通过对聚类的客户特征的提取,把客户群分成更细的市场,提供针对性的服务。
5.3关联规则挖掘
关联规则是描述数据库中数据项之间所存在关系的规则,即根据一个事物中的某些项的出现可导出另一些项在同一事物中也出现,即隐藏在数据间的关联或相互关系,比如在一次购买活动中所买不同商品的相关性。在电子商务中,从大量商务事物记录中发现有趣的关联关系,可以帮助许多商务决策的制定。关联规则挖掘最初也是最典型的形式是购物篮分析。它通过发现顾客放入其购物篮中不同商品之间联系,分析顾客的购买习惯。例如,在同一次去超级市场,如果顾客购买牛奶,他也购买面包(包括购买什么类型的面包)的可能性有多大?这些信息可以帮助零售商有选择地经销和安排货架,引导销售。例如,将牛奶和面包尽可能放近一些,可以进一步刺激一次去商店同时购买这些商品。在电子商务中,由于Web服务器的日志文件记录了用户的访问记录,通过这些记录利用关联规则挖掘网上顾客购买产品的相关度,对某些品牌的喜好和忠诚,价格接受范围,以及包装要求等,挖掘的结果可以用来帮助管理者进行网站规划、确定商品的种类、价格和新产品的投入。
5.4序列模式分析
序列模式分析和关联规则挖掘相似,但侧重点在分析数据间的前后序列关系。它能发现数据库中形如在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A-B-C出现的频度较高的信息。序列模式分析的一个例子是“九个月以前购买奔腾PC的客户很可能在一个月内订购新的CPU芯片”。
6结束语
电子商务过程中的各种信息和数据是电子商务活动能够更好的进行的基础,通过选择合适的数据挖掘技术来挖掘电子商务中有价值的信息,从而使企业在激烈的市场竞争中做出正确的决策,保持有力的竞争优势。随着数据挖掘技术的不断发展,我们相信它在电子商务中的应用将促使其得到更快更高效的发展。
参考文献
[1]姚淼.《数据挖掘在电子商务中的应用》.高校图书情报论坛.Mar.2009.Vol.8 No.1
[2]赵雁.张黎明.吕安.赵彦慧.《电子商务中的数据挖掘技术》.中国电子学会第十届青年学术年会论文集.2004.9
[3]杨青杰.胡明霞.《数据挖掘技术在电子商务中的应用研究》.商场现代化.2008年第16期
摘 要 面对当前企事业单位普遍存在各类数据庞大,但快速提取有效信息却十分困难的现状,如何在海量数据中发现有用的数据,即所谓的数据挖掘技术便应运而生。针对财务决策中数据海洋的现状,本文提出了如何采用数据挖掘技术,来提高财务决策的效率。
关键词 数据挖掘 财务决策 应用
随着计算机、网络技术的发展,获得有关资料非常简单易行。但对于数量大、涉及面宽的数据,传统统计方法无法完成这类数据的分析,特别是公司财务数据之类。因此,一种智能化的、综合应用各种统计分析、数据库、智能语言来分析庞大数据资料的“数据挖掘”技术应运而生。数据挖掘技术的产生和发展使得人们可以利用这些数据挖掘出有用的、隐藏的商业和科学信息。
一、数据挖掘含义
1.数据挖掘的定义
目前普遍认同的一个数据挖掘(DM-Data Mining)定义是:从数据库中抽取隐含的、以前未知的、具有潜在应用价值的模型或规则等有用知识的复杂过程,是一种深层次的数据分析方法。
数据挖掘可以根据企事业单位的既定业务目标和存在的问题,对大量的业务数据进行探索,揭示隐藏其中的规律,并将其模型化,指导并应用于实际的企事业单位经营管理中。是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以对财务信息做出预测。
2.数据挖掘的主要功能
数据挖掘的目标是从数据库中发现隐含的、有意义的信息,它主要有以下功能:
(1)估计与预测:估计是根据已有积累的资料来推测某一属性未知的值,预测是根据对象属性的过去观察来估计该属性未来之值。数据挖掘技术能够自动在大型数据库中寻找预测性信息。
(2)关联和序列发现:关联是要找出在某一事件或是资料中会同时出现的东西;序列发现与关联关系很密切,所不同的是序列发现中相关的对象是以时间来区分的。
(3)聚类:数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类技术的要点是在划分对象时不仅考虑对象之间的距离,还要划分出类具有某种内涵描述,从而避免了传统技术的某些片面性。
(4)偏差检测:数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的信息,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等①。
二、数据挖掘在财务决策支持系统的应用
1.财务决策支持系统
财务决策支持系统是在传统电算化会计信息系统的基础上建立和发展起来的,传统会计信息系统输出的企事业单位财务数据及非财务数据都存在数据过剩而信息不足的情形,而财务决策的精确程度又取决于所用信息的正确程度。随着竞争的增加,财务决策的时效性也变得越来越重要了,面对这些结构化或半结构化的海量数据,将数据挖掘技术应用到系统中充分有效的预测企事业单位未来的发展趋势,有利于输出财务决策信息供高层管理者使用,提高企事业单位的竞争②。
(1)会计信息系统结构
会计信息系统可分为三个层次:会计核算层、财务管理层和财务决策层,分别属于事后核算、事中控制和事前预测与决策过程。财务决策支持系统是最高层,也是会计信息系统发展的最终目标。会计核算层和财务管理层输出的企事业单位财务数据及非财务数据都存在数据过剩而信息不足的情况,这严重影响了财务决策层发挥有效作用。
(2)财务决策支持系统的概念
财务决策支持系统(FDSS―Financial Decision Support System)是以现代管理科学和信息技术为基础,以电子计算机为工具,运用经济学、模糊数学、控制论和模型技术,对财务管理中的结构化、半结构化以及非结构化问题进行决策分析的人机交互系统。
在财务决策支持系统中,为了支持管理决策,首先必须建立各种数据库以备决策之需。其次要建立各种数学模型,组成模型库对数据库中的数据进行深加工以便探索其内部规律,对数据的运算结果进行比较、分析和评价。同时,为了充分利用管理者的经验、知识和智慧,系统还设置人机交互接口和专家知识库,采用人工智能技术判断环境生成方案、评价决策。
(3)财务决策系统国内外发展现状
在国内,会计核算系统和财务管理系统已发展良好,逐步地为用户理解和接受,但财务决策支持系统的发展尚处初级阶段。
在国外,财务决策支持系统已较为完善,以财务管理为核心构造财务决策支持系统,做到了账务系统与管理系统的有机融合,做到了事前预测与决策、事中控制、事后分析为一体的网络化、科学化的决策管理,数据挖掘在财务决策支持系统中的运用也较为成熟。
2.数据挖掘在财务决策支持系统的应用
数据挖掘技术在财务决策支持系统中的应用研究始于1995 年,研究内容包括将DSS 的结构体系引入过来,从二库、三库结构到四库、五库结构的研究,也就是从传统的FDSS 研究到智能的或高级的FDSS 的研究。随着信息技术的不断完善,把数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)也引入到财务决策支持系统中,出现了基于数据仓库和数据挖掘技术的财务决策支持系统结构,数据挖掘技术在财务决策支持系统中的应用主要包括:
(1)财务状况分析
财务状况分析是财务管理的重要组成部分,包括企事业单位偿债能力分析、企事业单位营运能力分析、企事业单位获利能力分析、企事业单位发展能力分析。它是利用已有的财务数据对企事业单位的财务状况、经营成果进行分析与评价。财务分析系统可以运用数据挖掘分类、预测等技术,根据企事业单位过去和现在的财务数据做进一步的加工、整理、分析和评价,在预测未来的财务状况的同时从中取得有用的信息供决策者使用。
(2)财务预测
财务预测系统是FDSS 的重要组成部分,其功能分为两个方面:一是利用已有的财务数据对企事业单位未来的财务状况和经营成果进行预测。二是利用专家经验和专门知识对某项财务专题进行预测。财务预测的主要内容包括销售预测、利润预测、成本预测、资金预测、财务指标预测等。利用回归,神经网络等技术根据已有的财务数据预测企事业单位未来的财务状况,进而判断企事业单位未来发生财务危机的可能性。
(3)筹资决策
筹资是指企事业单位何时、采用何种方式、获得何种规模资金的过程。企事业单位筹资决策主要包括筹资数量决策、筹资方式决策和债务偿还决策。一般地说,企事业单位筹资首先应考虑自有资本,即所有者权益筹资;其次再考虑债务筹资,其目的是使财务风险最小化。利用数据挖掘中的分类、聚类等技术可根据单位经营管理的需要进行决策信息输出,确定一个合理的筹资方案。
(4)投资决策
企事业单位的投资决策主要包括企事业单位内部长期投资决策、联营投资决策和证券投资决策。投资决策问题是决策问题中较为复杂的问题,其决策问题一般分为半结构化或非结构化问题。我们可利用预测、关联等技术对投资时机、投资规模、投资方式等方面来确定投资方案。通过在众多可投资项目中选择出最具价值的项目决策信息,实现投资资金效率最大化。
(5)成本决策
成本决策涉及企事业单位销、生产经营和资本运作等各个领域,可以说凡是发生成本费用支出的各项经济活动,都存在成本决策问题。企事业单位成本决策包括:存货成本决策、生产成本决策、资金成本决策、销售成本决策、服务成本决策等,其中销售成本决策和服务成本决策,其非结构化因素较多,包括促销费用、广告费用、销货服务费等,从而使其决策方案的确定更加复杂化。这就需要利用数据挖掘技术中的时间序列分析,关联分析等技术对历史数据进行分析预测,以确定最优方案。
(6)股利分配决策
股利分配是指公司向股东分派股利。股利分配决策的合理与否,将会对公司的持续发展和股东利益产生重大影响。股利分配决策包括股利发放决策、股利支付比率决策和股利发放形式决策等。由于股利分配决策要受到法律、经济、公司政策、股东利益、以及股票市场等诸多因素的影响,其决策问题大多为半结构化和非结构化问题,我们可利用数据挖掘技术中的分类技术来提供支持。
(7)存货决策
存货决策主要是指原材料和产成品的决策,即确定合理的经济订货量以及何时订货才是最佳时机,力求使存货上耗费的成本最低。销售的不确定性使得存货决策成为一种风险性决策,它需要根据以往的经验储存、历史统计资料的分析以及输入用户的调研数据,运用数据挖掘技术中的决策树方法帮助决策者确定需求变量的范围及发生概率,并提供最优方案的参考数据。随着数据库技术和网络技术的迅速发展,传统会计核算层及财务管理层的不断完善,人们获取数据的能力越来越强,将海量的数据存储在数据库和数据仓库中。将数据仓库(DW)、数据挖掘(DM)和联机分析(OLAP)等信息技术应用于财务决策支持系统,更能将数据仓库里的海量数据从执行系统中筛选出来,减少冗余,完成一系列转换处理,便于决策者从宏大的信息系统中分辨、析取、整理、挖掘出对财务决策有用的信息,极大提高企事业单位管理信息系统的工作效率③。
三、数据挖掘技术在财务决策支持系统中应用的难点与展望
数据挖掘技术在财务决策支持系统中的应用还是一门崭新的技术或方法,接受数据挖掘的概念容易,但将其落在实处却比较困难。其中最重要的就是成本问题。数据挖掘功能对企事业单位财务数据进行分析虽然存有优势,但前提条件是具备完整、正确的数据,即在建立数据仓库系统基础后,与此功能结合运用以达到事半功倍的效果。但目前单位财务部门提供的数据本身就可能存在水分,因此需要数据信息使用者在经过会计信息质量分析等前提下调整或重新估计,然后再利用数据挖掘等技术应用到财务决策支持系统中。数据挖掘仅依靠计算机或者软件是无法完成任务的,更多的是需要依靠专业人士的职业判断。
虽然在单位财务决策支持系统中利用数据挖掘技术还不十分成熟,但是伴随着科学技术的迅猛发展,以及数据挖掘技术在财务决策支持系统中的广阔市场前景,相信基于数据挖掘的财务决策支持系统必将更加成熟!
但是,数据挖掘作为一门新兴的科学和技术,它的发展还处于幼年期,要想基于数据挖掘的财务决策支持系统模型得到更为广泛的应用,面临的挑战为:
1.建立基础的数据挖掘理论体系;
2.提高数据挖掘算法的效率和处理能力;
3.良好的人机交互界面;
4.挖掘各种数据类型,包括半结构和无结构数据。
注释:
①何京舟.浅议数据挖掘技术与财务分析.中国集体经济.2009(6):155-156.
②汤九斌.基于数据挖掘技术的决策支持系统及其关键技术研究.中国优秀博士论文全文数据库.南京理工大学.2009.
③周喜,王加阳.数据挖掘技术在财务决策支持系统中的应用研究.湖南商学院学报.2009(4):99-101.
参考文献:
[1]何京舟.浅议数据挖掘技术与财务分析.中国集体经济.2009(6).
[2]郑日军.数据挖掘综述.科协论坛(下半月).2008(10).
[3]洪沙,向芳.数据挖掘与决策支持系统.科学咨询(决策管理).2008(4).