首页 优秀范文 数据挖掘论文

数据挖掘论文赏析八篇

发布时间:2023-01-22 01:14:41

序言:写作是分享个人见解和探索未知领域的桥梁,我们为您精选了8篇的数据挖掘论文样本,期待这些样本能够为您提供丰富的参考和启发,请尽情阅读。

数据挖掘论文

第1篇

目前现有的针对烟草营销策略的研究,多采用数据挖掘的思想,基于数据挖掘的营销策略是对终端客户进行分类,根据用户的销量和诚信记录把用户分为多个等级,但这种分级策略只能反应用户的销量信息,把这个分类作为营销策略依据太单薄,只能起一定的辅助作用。更深入地研究是根据客户的资料和历史订单数据对现有商户进行聚类,获取到自主的商户分类,但盲目的聚类会导致商户的分类没有实际意义,或获取的结果是无助于营销目的的。

2技术关键

本系统采用基于营销目的的商户聚类,技术关键包括三部分内容:数据预处理中的特征选择、基于限制目标的商户精确聚类和基于聚类结果的多层关联规则算法的研究。

2.1特征选择

假定获取的数据的维数为n,通常情况下n是很大的一个数,为简化模型,也为了防止模型陷入过拟合(维数灾难),需要进行降维处理,即仅把对项目改造判定起关键作用的因素挑选出来。本系统采用PCA算法来进行降维处理,过程如下:

1)计算标准化后的矩阵Z的样本的协方差矩阵Cov;

2)计算协方差矩阵Cov的本征向量e1,e2,…,en的本征值。本征值按大到小排序;

3)投影数据

到本征矢张成的空间之中,利用贡献分析取前m个向量Y1,Y2,…,Ym。

2.2基于营销目标限制的商户精确聚类算法

现有聚类算法一般没有约束条件,只根据相似度来进行聚类,为了能够体现约束条件,需要在聚类相似度或者样本距离之间把限制条件增加进去,这样在样本聚类的时候即可使得具有相同营销特性的样本或者客户被划分到同一个类中。烟草终端商户的大部分属性是分类属性,例如:地区、类别等,此外还有数字型属性、日期型属性,由于存在不同类型的属性,常规的聚类算法无法使用,为此,采用把数字属性和日期属性划分区间的思路,这样可以转化成分类属性的方式来进行聚类。进而可建立如下商户模型:分类对象X∈Ω,X=[A1=x1]∧[A2=x2]∧…∧[Am=xm],其中xj∈DOM(Aj),1≤j≤m,为简便起见,将对象X∈Ω用向量(x1,x2,…,xm)表达,如果属性Aj的值不存在,则Aj=ε。令Χ={X1,X2,…,Xn}为n个分类对象的集合,用集合方式表达分类对象,则Xi={xi,1,xi,2,…,xi,m},如果属性Aj的值不存在,则集合中不出现xi,j,容易得到|Xi|≤m。如果存在Xi,j=Xk,j,1≤j≤m,则Xi=Xk。为方便聚类,利用聚类汇总来压缩原始数据,从而达到提高算法效率的目的。一个类C可以由如下三元组(n,I,S)来表示。其中n为类C中的对象数量,I={i1,i2,…,iu}是C内所有属性值的集合,S={s1,s2,…,su},其中sj为ij在类C中的数量,ij∈I,1≤j≤u。集合S按升序排列,即s1≤s2≤…≤su,这同时也暗示集合I的元素按其在C中的数量按升序排列。三元组(n,I,S)被称作类C的聚类汇总CS,CS的三个成员分别记作CS.n、CS.I和CS.S;对于CS.I的任一元素ij∈CS.I,则记作CS.I.ij,对于sj∈CS.S,则记作CS.S.sj,其中1≤j≤u。

2.3基于烟草营销的多层关联规则的研究

针对本项目,对关联规则定义进行扩展,对形如:XY的关联规则,不再限定X和Y为一个项目集,而把X和Y定义为条件的合取范式,每个条件Ai=True/False为布尔表达式。此时的Ai为一个项目集,它的含义与原来的X和Y的含义相同,如果把结果中的条件布尔表达式写成Cj=True/False,则关联规则有如下形式:(A1=True/False)∧(A2=True/False)∧…∧(An=True/False)(C1=True/False)∧(C2=True/False)∧…∧(Cm=True/False)关联规则的开采问题可以分解成以下两个子问题:

①从数据集合或交易集合D中发现所有的频繁项目集。

②从频繁项目集中生成所有置信度不小于用户定义的最小置信度minconf的关联规则。即对任一个频繁项目集F和F的所有非空真子集S,SF,如果sup(F)/sup(F-S)≥minconf,则(F-S)S就是一条有效的关联规则。按上述方法发现所有类似的规则。这两个步骤中第2步要相对容易,因此项目的研究将更关注第1步,由于最大频繁项目集已经隐含了所有频繁项目集,所以可以把发现频繁项目集的问题转化为发现最大频繁项目集的问题。针对烟草营销的客户,进行关联规则挖掘时,是在上一步的基础上,即针对每一个商户群进行规则挖掘。在获取到最大频繁项目集后,顺序生成频繁项目集,然后获取到可用的关联规则。此时获取的关联规则是底层关联规则,然后再采用概念树的方法对获取的底层关联规则进行汇总。概念树由烟草领域专家根据属性的领域知识提供,按特定属性的概念层次从一般到具体排序。树的根结点是用any表示最一般的概念,叶结点是最具体的概念即属性的具体值。

第2篇

但是现有电子商务多数局限于PC、Pad等终端。基于电视的购物节目缺乏品牌、可信性,传统的遥控器输入也难以满足电子商务的交互要求。电视机是我国千万家庭中最为普及的家庭信息交互智能终端产品之一,集公共传播、信息服务、文化娱乐、交流互动于一体。因此,新型电视电子商务融合传统的电视购物和互联网模式,通过多屏互动、电视映像触控彻底改变电视的操控方式,结合数据挖掘、行为分析技术,将带来电视商务的蓬勃发展,弥补相关领域空白。

2技术方案

2.1电视商城前端管理系统功能模块

前端管理系统软件架构图如图2所示。电视商城前端管理系统由客户管理、栏目及商品信息管理、电视数据同步管理、电视数据交互、对账管理、支付管理、用户管理、日志管理等功能模块组成。客户管理模块主要包含电视商城用户的注册、登录、收藏等一系列客户行为的管理;栏目及商品信息管理模块主要为电视上商品及栏目提供统一格式的一系列的后台数据。电视的栏目主要是通过时间、频道号、节目号做关联;电视数据同步管理模块主要是指后台同步电商数据的一系列管理。主要是指后台同步电商数据的一系列管理;电视数据交互模块主要是指与电商数据接互的后台接口的处理;对账管理模块主要是指与电商的一个订单对账管理,包含支付情况的对账;支付管理对接第三方支付平台,如支付宝等;系统日志管理模块主要是指后台日志系统的增删改查操作,以便系统用户跟踪问题。

2.2多屏互动、电视映像触控

电视映像触控技术彻底丢掉了繁琐输入工具,是革命性、颠覆性的技术创新,为电视设备提供了简单的操作,用户可以像操控手机一样操控电视,解决了长期以来久攻不克的电视输入难题。行业分析者认为将会在未来几年内有上万亿的市场前景。用户可以通过手机或Pad操控大屏电视、搜索视频、缩放网页、拖动图片、玩转重力游戏,带给你前所未有的电视体验,或通过手机或Pad在家里的任何地方观看电视实时播放的内容,畅想多屏互动的乐趣。通过高速Wi-Fi连接,只需要各设备在同一个局域网。实现了手机、Pad、电视“零延时”同步,精彩多屏看,真正实现“大屏映小屏、小屏控大屏”。当机顶盒接收到直播Server的数据后会将EPG数据保存,当手机、Pad请求的视频播放状态信息时,机顶盒会通过Wi-Fi网络将EPG信息发送给手机、Pad。手机、Pad将直播视频播放的状态信息发送给前端服务平台,前端服务平台每天会定时请求直播Server来获取和解析EPG信息的详细内容,当接收到手机、Pad视频播放信息时,则会自动匹配相关的program内容,并将匹配到的商品信息等通过后台的编辑人员编辑加工入库后传送给电视商城系统。电视商城系统接收到前端服务平台关联的商品信息后,会返回商品的详情、购买情况等信息,然后由前端服务平台将数据打包传送给手机、Pad,此时用户在移动终端已经完全可以浏览到与直播相关联的商品信息并与电视商城系统平台之间进行交互,完成商品购买。

2.3数据挖掘和精准推送

数据挖掘和精准推送流程图。当用户开启电视商城系统平台的服务客户端观看直播时,会发起关联请求,此时机顶盒会将用户所观看的直播节目和当前的时间记录下来发送给服务端请求关联商品界面及关联的内容,初步请求按照channelname+time查找关联界面,如果找到则放回固定的Link_epg_gues_goods中,如果不存在则只按照channelname查找关联界面,若channelname存在,则返回关联频道的link_epg_gues_goods,如果不存在,则返回通用的关联商品界面Link_epg_home_goods。在服务端接收到请求消息后会在服务端统计数据并进行分析用户的行为,最终返回关联商品界面,供用户购买。

3结论

第3篇

在上述系统设计的基础之上,我们提出了网店客户购买数据挖掘系统的模型,该模型由三个层次组成,其逻辑架构如图一所示。

2、系统设计与实现

2.1系统开发与运行环境硬件环境:CPUIntelI3380M/RAM2G/硬盘320G软件配置:操作系统:Windows7SP1开发工具:2005/VisualC#数据库管理系统:MSSQLServer2008辅助软件:SPSSClementine11.1;SQLServer2008AnalysisServices(SSAS)

2.2主要技术与系统实现通过对上述对客户购买数据挖掘系统模型的分析可知,该系统主要由用户接口模块、数据清洗模块、数据格式转换模块、数据库生成模块和数据挖掘引擎模块等组成。1)用户接口模块本系统最终目的还是为为客户的决策提供支持,因此友好的界面设计是用户与系统交互的基础。简洁而易于理解的界面有利于提高用户对系统的使用效率。2)数据预处理模块客户访问数据进入数据预处理模块进行清洗,去除无关的信息,剥离出对数据挖掘有价值的数据。数据预处理模块对原始访问数据进行分析,将用户购买数据记录逐条的分割成十个字段,分别为:u_id(访问者编号),u_date(到访日期),u_time(到访时间),u_orderid(订单编号),u_product(客户购买的商品),u_bowser(使用的浏览器类型),page(首次到访页面),place(客户所在地区),payment(支付方式),logistic(物流方式),同时删除访问数据中与以上字段不相干的数据。然后将经过预处理的数据存入中间文件。3)XML转换模块该模块程序使用.NET的相关的方法编写,主要功能将预处理过的客户购买数据转换成标准化XML格式的数据文件进行存储。该程序的主要实现原理是对经过预处理的中间文件中的数据记录逐个分割并存入数组,然后将数组的内容按照XML的格式写入文件,完成转换。4)数据库导入模块利用.NET的相关方法并结合数据库管理工具建立支持数据挖掘的客户购买数据库,编写相关程序将已经转换成XML格式的客户访问数据逐条的导入到数据库并形成日志数据表方便进行后续的数据挖掘。5)数据挖掘引擎模块数据挖掘引擎是实现客户购买数据挖掘系统的实现关键。优秀的数据挖掘算法不仅可以使数据挖掘的结果更加准确,也可以提高数据挖掘的效率。本系统主要用到的算法是该模块利用数据挖掘算法对数据进行挖掘,主要包括算法的优化、日志数据表的删除操作以及挖掘结果集的保存与删除操作等。这里主要用到的算法是K-Means算法。主要是利用该算法发现最相似的客户聚类,通过对聚类的分析来得出网店众多的顾客一般的购买行为模式,从而可以适当地调整网站营销的策略中的来提高网络营销的效果,进而增加销售量。

3、小结

第4篇

纺织品中一些纤维不易上色,只有应用强酸或者强碱才能保证其上色的效果,我国对纺织品中PH达到的数值有着明确要求。通过对某检测机构pH值超标报告的分析发现,纺织品中各个成本pH值分布为:棉56.67,羊毛22.5%,羊绒7.5%,桑蚕丝4.17%,亚麻3.33%,聚酯纤维3.3%,粘纤1.67%,兔毛0.83%。

经过检验与对比发现,pH超标较为严重的主要是棉成分,由于棉只能在强碱条件下上色,所以,会使纺织品超过国家要求的pH值控制范围。pH值超标主要是生产工艺不佳造成的,为了降低pH值对人健康的影响,相关部门应加强对服装制作工艺的控制与管理。

2基于数据挖掘的色牢度分析

色牢度也是纺织品检验的一项重要指标,在Clementine中将导入的数据通过过滤节点过滤出品牌、耐水色牢度(沾色)、耐酸色牢度(沽色)、耐碱色牢度(沾色)、耐干摩擦色牢度和主要成分之后。建立进口纺织服装的风险预警以及置信度规则,可以发现,支持度和置信度都很高的规则主要涉及桑蚕丝和棉这2种成分以及甲品牌。主要成分为桑蚕丝的纺织服饰与耐碱色牢度、耐水色牢度、耐酸色牢度关系密切,而主要成分为棉的纺织服饰以及甲品牌的纺织服饰4种色牢度的不合格比例都很高。

色牢度不够的原因除了与制作工艺有关,还与染色后浮水处理有关。针对桑蚕丝与棉成分含量较高的纺织品,一定要在染色前先进行正交试验,还要保证染色温度、染色液酸碱浓度的合理性,这样才能保证桑蚕丝以及棉制品色牢度的合格性。

3结语

第5篇

结合现阶段电力企业在电力需求预测方面存在的问题,本文对系统的设计提出以下的要求:

第一,对电力需求的预测将充分将国民经济的各项指标对电力的影响纳入进来,其主要的原因是用电量的多少与国民经济增长有着很大的关系;

第二,将城镇化纳入到对电力需求的预测中,因为随着我国经济的发展,城镇化可反映居民增加的多少,从而对未来我国长期的用电量有着最为直观的需求分析;

第三,将阶梯电量计算给居民用电带来的影响纳入到预测当中,因为国家发改委在电力改革方面,采用阶梯定价的方式,在一定程度上将影响居民的用电的多少。

第四,将国家节能减排对用电大户所带来的影响纳入到系统当中。因为随着国家对环保观念的重视,未来在很大程度上将注重企业的节能减排,从而减少企业的用电量。

第五,针对现阶段的数据挖掘算法,本文结合各个算法的优缺点,采用多种算法综合组合的方式,实现对电力需求的客观预测。采用在不同的时刻和情况下采用不同的预测算法。

2基于电力需求模型的综合预测模型构建

2.1模型构建及其优缺点比较

通过上述的分析,我们可以看出以往的对电力预测的算法通常都是采用单一的数据挖掘模式的形式,如BP神经网络算法、模糊预测法等。通过采用单一的算法,所挖掘的结果通常缺乏客观性,如以吉林供电公司为例,其采用单一回归预测,其预测的数据与实际应用的电量的多少存在很大的偏差。因此,为提高本系统预测的准确性,决定采用多种数据挖掘算法相结合的综合预测模型。其具体的思路是首先构建综合预测模型的方法库,并通过单一模型检测方法,对偏差比较大的模型进行剔除。对预测较好的模型进行反复的测算,并通过一定的方式将测算的结果进行组合,从而得到最佳的综合预测的模型。而对综合预测模型的选择,其关键点在于如何对模型的组合。对此,本文为解决该问题,采用加权平均的方式确定不同模型的权重系数。同时通过对不同数据挖掘算法的优劣势的比较。

2.2算法应用实例

结合本文对电力预测的要求,本文通过采用对比的方式实现对综合模型准确性的验证与评价。同时以某省全社会的用电量作为综合预测的目标。而所谓的全社会用电量包括生产用电和居民生活用电的总和。而做好对该省全社会的居民用电,为未来3-5年甚至更长时间的电力企业电网规划、输电线路布局等有着非常重要的作用。同时,在对数据进行选取的时候,必须对数据进行一定的平滑处理,从而剔除数据中的异常的值,以此更好的实现对数据挖掘的结果。

3系统功能设计

结合系统设计的要求,本文将系统的功能设计为数据采集与处理、模型库、系统维护、结果可视化查询等功能模块。其中数据采集与处理包括对居民用电营销、调度自动化、电网负荷等数据的采集。通过采用挖掘技术实现对数据从上到下的挖掘;模型库则主要包括数据挖掘的各种不同的算法,如灰色关联、模糊预测、BP神经网络等算法在内。需求预测库模块主要对电力需求进行预测。其具体的步骤则为通过采用单一模型进行预测,通过比较选择误差最小的预测模型,并通过采用回归分析的方式,实现对不同预测方法权重的比较,从而计算数据挖掘的结果。结果可视化则是通过综合预测模型对数据的计算,将其挖掘和预测的结果和电力增长的规律通过可视化的方式将其展现给用户,使得用户更为直观了解电力需求的预测数据和该省电力需求的增长规律。系统管理包括系统权限分配和系统维护。通过对不同使用角色的功能分配,实现对系统使用的正常运转。同时通过对数据的日常维护、备份等,保障系统的运行。

4系统架构设计

电力需求数据挖掘的计算设计多个不同的系统和数据库,因此,对系统的设计采用最新的B/S模式,该模式其典型的优点在于通过Internet网络可实现对数据的采集。同时该模式还可有效对系统进行维护,增加了系统的灵活性。

5结语

第6篇

根据卫生部2001年的《医院感染诊断标准》和2009年12月1日起实施的《医院感染监测规范》要求,应用数据挖掘技术,在院内综合管理平台上建立在线的医院感染全院综合性监测和目标性监测等子系统。参照医院感染监测流程,建立临床无纸化的报告方式上报医院感染病例功能,由医院感染科终端接收。将查询医院感染病例的信息线索从各独立的系统内收集并组合展示在一个界面上,方便医院感染专职人员实现网上前瞻性调查;尽可能地从各系统内直接导入以数字及文字表达的病例信息,生成各类监测记录表并进行统计分析。

医院感染实时监控系统需要以医院信息系统中的医疗数据为数据源,通过数据模型分析建立数据仓库,通过对数据进行预处理、建立数据挖掘模型、得到相应规则并返回给用户界面。系统主要分由用户界面、数据库接口、数据挖掘模块和决策四个部分组成。由于医疗数据的特殊性,需要针对数据源进行预处理及信息融合;为得出最佳的决策管理方案,需对结构化处理的数据建立关联规则。医院感染实时监控系统采用了决策树算法对医疗数据进行挖掘分析。在数据库接口准备过程中,由于医疗数据库中含有海量不同来源的原始信息,包括大量模糊的、不完整的、带有噪声的、冗余的信息。因此在数据挖掘之前,必须对这些信息进行清理和过滤,以确保数据的一致性和确定性,并将其转换成适合挖掘的形式。医疗数据中还包含大量的文本、符号、数字信息,对这些不同物理属性的医疗数据,应采用不同的技术进行处理,使其在属性上趋同或一致,再对处理结果进行综合。医疗数据多源性、时序性和非时序性数据共存、数字型数据和非数字型数据共存的特点,加大了信息融合的难度。

经过数据清洗并通过数据挖掘计算后,在医院综合管理平台上建立医院感染监控系统,医师通过该系统上报可疑的医院感染病例。医院感染专兼职人员通过该系统进行各类监测、调查或查询病例,监测资料可以存储、统计、网络反馈和导出。

2医院感染实时监控系统功能

通过数据挖掘技术,建立医院感染实时监控系统。由于前期数据准备充分,数据源规范准确,数据挖掘技术的有效应用,全面实现了感染病例的全过程监控、感染预警、统计分析和目标监测各功能。系统对患者感染相关数据进行多参数综合分析、智能化识别,把达到预警标准的病例全部提取出来,将医院科室感染情况直观展示。通过设置统计参数,系统自动统计出住院、出院感染病人的各类数据。分析后产生全面的统计结果,然后以图形、表格等方式展示。强大的查询功能使医院管理人员能更高效、全面、深入地进行感染学的调查与研究。通过数据挖掘技术对数据有效分析,系统的应用更为有效,在感染发生早期就能通过数据全过程进行监控,极大提升了发现感染的概率,准确度高,效率快,从根本上解决感染病例漏报率问题,提高了医院感染管理水平。同时,因数据挖掘技术对数据有效分析也降低了多重耐药菌的监控数据的偏差,在多重耐药菌监测模块,根据从检验信息系统中获取的数据,经过清洗计算,大大降低了可能出现的偏差。

3结语

第7篇

1.较高的有效性新兴起来的数据挖掘技术的应用时间并不是很长,但是其在经济统计领域的应用受到了良好的效果,其稳定的工作性能,不仅能够对经济统计数据进行分析整理,更能深层次地开发出更多的有用信息,在实际的应用中展现出较高的有效性。

2.综合应用性强数据挖掘技术已经被广泛地应用在统计工作中的多个领域,并且发挥着重要的作用。数据挖掘技术不仅是一种综合应用性强的技术手段,同时又能满足统计数据使用者的特定数据需要。因此,数据挖掘技术能够对经济统计数据进行定向的整理和开发,为数据使用者提供更好的服务。

3.宏观型的数据库有利于数据挖掘技术的应用当前,我国的经济统计大多还是采用传统的经济统计方法,统计收集的数据信息不能形成有机整体,在对数据进行管理过程中,出现了很多问题。因此。经济统计工作需要能够提供数据整理开发的新技术。宏观经济统计数据库,为数据挖掘技术的开展提供了平台。数据管理系统的经济统计信息要正确无误,然后经过数据挖掘技术的整合,就能得到更丰富的数据资源。

二、数据挖掘技术的运用

数据挖掘技术的特性决定了其对经济统计数据整理的重要性,经济统计所得到的数据信息要求必须有实用性和真实性,数据挖掘技术的特性正好满足了经济统计工作的需要。数据挖掘的过程主要包括以下四种方法:

1.预处理方法首先,要对统计数据进行预处理。由于经济统计信息在收集过程中存在一些问题,导致收集到的数据存在缺失和模糊现象,这种有缺憾的数据信息不能作为数据挖掘的基础,因此一定要对数据挖掘对象进行事先的处理。其中包括对基础数据中不正确、不真实、不准确和偏差较大的数据进行甄别。

2.集成化处理方法其次,要对统计数据进行集成化处理。经济统计过程中,会出现对多个数据源进行重叠统计的现象,这就要求对数据进行挖掘之前,要有一个统一整理的过程,即数据的集成化处理。数据集成在统计中被广泛的使用。经过数据集成处理的统计信息更加全面,更加真实,可以作为数据挖掘基础信息。

3.转换方法再有,要对统计数据根据需要进行转换。经济统计数据的描述形式比较单一,为了满足数据信息使用者的需要,就要对数据进行转换,使其的表现形式具有泛化或是更加规范。这里所说的泛化指的是利用更深层次和更加抽象的定义来代替原有的低层数据。

4.决策树方法除却上述四种处理方法外,还有决策树方法,指的是对庞杂的经济数据进行分类,把有利用价值的统计数据提炼出来,这种数据挖掘形式能够对分析对象进行体现,并能快速的对信息进行分类处理,能够解决在经济统计过程中出现的各种问题。

三、结语

第8篇

关键词:烟草行业;质量管理;数据挖掘

烟草行业在我国市场经济发展中迅速壮大起来,同时行业间的竞争也越来越激烈,如何在激烈的竞争中占据主动是广大烟草企业领导者关心的问题。加强质量管理,提高烟草产品质量,在很大程度上能够提升企业竞争力。采用数据挖掘技术,利用大数据对行业发展规律进行分析,对质量管理过程进行有效地监测,提高企业质量管理的水平,促进烟草企业持续发展。

一、数据挖掘技术概述

所谓的数据挖掘技术,就是从大量模糊的数据中,将其隐含的具有价值的信息提炼出来,在一定程度上与数据库、数据融合等概念具有相似性。基于挖掘任务的视角出发,数据挖掘技术更加强调对相关数据的聚类以及关联性分析,同时对大量数据进行整理、归纳,以便做出准确的预测任务。现阶段,常用的数据挖掘技术包括遗传算法、统计分析法、神经网络法、模糊算法等等。在具体的使用过程中,首先应该根据业务的性质进行重新定义,明确任务目标,然后做好相关的准备工作,确保数据的完整性;随后进行数据挖掘以及数据分析,将收集的数据进行整理、分析,得到目标数据信息;最后,在业务处理工作中对这些数据信息进行妥善的应用。

二、烟草行业质量管理现状

现阶段,消费者对烟草行业质量的要求越来越严格,外部环境控烟要求也越来越紧迫,尽管在市场经济的良好环境下,烟草行业无论从规模、数量还是设备上都得到了显著的提升,但是在此过程中也形成了大量的数据信息。在企业质量管理过程中,主要缺陷体现在以下几个方面:第一,在质量管理过程中,采用传统的数据处理方式,导致质量管理部门工作量庞大,数据处理结果的准确性也不高;第二,烟草行业质量管理方式相对滞后,对数据的分析不够科学,导致采用不科学的数据结果对烟草质量进行评价,导致烟草企业质量管理整体质量受到影响。第三,质量管理中缺少反馈内容,使烟草行业无法及时发现其中存在的问题并做好相应对策以及改进与预防工作。第四,传统质量管理更侧重于某个生产环节,忽视全局管理,而烟草行业本身规模较大且在不同地域中都涉及较多的质量管理部门,很多质量信息需在较长时间内完成流通。对此,便需引入数据挖掘中的关联与聚类分析,其中的关联规则可将数据项关联关系充分挖掘出来,在质量管理中更集中体现在产品质量预期特性值的关系。

三、数据挖掘技术在烟草行业质量管理中的应用

加强对数据挖掘技术在烟草行业质量管理工作中应用的研究,对烟草企业质量管理工作具有重要意义,对烟草行业的发展也具有促进作用。在具体分析研究过程中,一般从供应商、适量反馈以及生产过程三个角度出发:

1.基于对供应商评价的角度

烟草产品生产过程中需要大量的原材料,并且原材料的种类相对较多,包括烟叶原材料以及一些辅助的材料。这些材料的质量在很大程度上决定了烟草产品的整体质量。供应商在某种意义上对原材料质量起着重要作用,烟草企业还需要与供应商建立良好的关系。烟草企业的相关部门需要将供应商提供的原材料信息进行有效地统计、储存,同时将原材料的合格率作为主要的评价依据。根据数据挖掘技术中的关联规则,将一种原材料对应所有的原材料供应商,收集并分析所有供应商提供的数据信息中该原材料的合格率,从而选择最佳的原材料供应商,为烟草质量提供保障。

2.基于质量反馈的角度

质量反馈就是客户对一件产品质量使用后的总结性评价,通过有效地质量反馈,烟草企业能够对烟草生产过程、生产工艺、服务水平等进行整改。根据相关研究资料显示:在能够创造同样价值的基础上,新客户发展涉及的成本往往是维持与老客户关系涉及的成本的五倍,但若由老客户将企业口碑向新客户传递将获得更大的竞争优势,所以企业发展中维持老客户的关键在于使顾客满意度得以提高。利用数据挖掘技术,对顾客反馈的信息进行科学化的分析与管理,总结客户对产品质量的意见,同时分析出造成这个质量问题产生的原因,以便企业能够提出针对性的措施,帮助企业质量管理水平的提升,也能够为烟草企业迎来更大的经济利润,让烟草企业在激烈竞争中立于不败之地。

3.烟草生产过程中数据挖掘技术的应用

在卷烟生产过程中,烟丝质量是备受关注的问题,烟丝质量不仅会受到化学成分的影响,在生产过程中的一些工艺、操作也会对其质量造成影响。在烟丝制作过程中需要经过多重工序,同时涉及配方、含杂量等诸多因素,这一过程就会产生大量的数据。因此,需要利用数据挖掘技术,对烟草生产过程产生的数据进行存储、分析,利用神经网络技术分析导致烟丝质量问题的原因,不断地优化生产工艺参数,同时利用聚类分析手段,对加工过程与烟丝质量的关系进行分析,促进烟草产品质量的提升。

四、总结

通过上述分析可知,烟草行业在市场经济发展中迅速发展起来,已经逐渐成为我国支柱型产业。然而在烟草行业质量管理过程中,由于对海量数据处理技术滞后,给烟草企业重大决策以及烟草产品质量都造成重大影响。数据挖掘技术的应用,不仅能够帮助企业选择最佳合适的原材料供应商,还能够及时地发现产品质量问题,以便对产品生产工艺进行优化,提高烟草产品质量,促进烟草行业健康发展。

作者:焦丽静 单位:河北中烟工业有限责任公司

参考文献

[1]张丽荣.数据挖掘在烟草行业质量管理中的应用[J].科技创新与应用,2012,25(8):124-125.

[2]李卓.试析数据挖掘技术在烟草行业中的应用[J].旅游总览,2014,26(2):99-100.