发布时间:2023-03-21 17:09:54
序言:写作是分享个人见解和探索未知领域的桥梁,我们为您精选了8篇的数据信息论文样本,期待这些样本能够为您提供丰富的参考和启发,请尽情阅读。
城市轨道交通信号系统的DCS网络包含有线部分和无线部分。有线网络部分是指轨旁设备之间的数据通信,为信号系统提供专用有线信息传输,为控制中心、车站、场段之间提供有线传输通道,建立局域网连接。无线部分主要是列车上的移动无线设备和地面轨旁无线单元之间建立的车地双向通信。如上所述,在信号系统的DCS网络中,可以根据不同的组网方式,构建不同的网络结构,形成连接信号系统相关设备的通信网。而在这样的网络中,传递的信息就包含大量的管理信息、行车数据信息、ATS信息、维护信息、数据记录信息等。DCS系统网络连接设备一般连接方式需要说明的是DCS网络结构是多样的,随着实际地铁线路情况、所连接的设备情况、以及技术发展和应用情况有不同变化。从图1中可以看出,信号系统DCS网络具有连接设备类型多、数量大,信息传输种类繁多的特点。如果在DCS网络中信息没有合理的传输定义,使网络中任何一个数据帧的传输都要遍及整个网络,导致所有与网络连接的设备都接收到,这样就会严重的消耗掉网络整体带宽。因此,在DCS网络传输信息量较大时(如早、晚运行高峰时等),如不对网络进行合理设置,就可能产生网络风暴。网络风暴发生时,与网络连接的部分设备也可能会由于无法应对网络流量的大幅波动导致故障,进而引发故障面扩大的情况发生,对运营产生严重影响,这就需要对网络中的信息传输进行合理优化。
2VLAN技术特点及在DCS网络中的应用
VLAN技术是将局域网设备从逻辑上划分成一个个网段,从而实现虚拟工作组数据交换。由于VLAN设置是在交换机上按逻辑来划分,而不是传统上的只能从物理上划分,因此VLAN技术的出现,可以满足根据实际应用情况,将同一物理局域网内不同用户逻辑地划分成不同的广播域需求。在设计VLAN并实现应用时,首先要确定如何划分VLAN。较为常见的VLAN划分方式包括:按照端口划分,按照MAC地址划分、基于网络层划分、以及基于IP广播和基于规则等方式。其中应用最为广泛、也是最有效的,是按照端口划分的方式,这种划分方式是根据以太网交换机的交换端口来划分的,将交换机上的物理端口分为若干个组,每个组构成一个虚拟网。由于基于端口划分VLAN的优点是定义VLAN成员非常简单,只要在接入交换机上进行相关设置即可,操作相对简单,适合任何大小的网络。同时,这种配置方式适用于网络环境比较固定的情况,与DCS网络构建后即在运营中不会轻易改变的实际情况较为符合,因此在地铁信号系统DCS网络交换机的配置中,一般都可以使用按照端口划分VLAN的配置方式。以赫斯曼交换机为例,按照端口划分VLAN,为不同端口赋予不同ID后的界面显示情况综上所述,为了有效避免信号系统DCS网络风暴的发生,可以将交换机端口划分到不同VLAN中。其原理为:在不同端口发出的所有数据帧上增加一个代表所属VLAN编号的ID,各个交换机端口只有在接收到所属VLANID的信息时,才会对该信息进行拆分处理,而在收到标有其他VLANID信息时,只会将该信息按照目的地址进行转发。这样就实现了通过在DCS网络交换机上应用VLAN技术,有效控制网络流量、降低网络风暴发生概率的目标。并且通过在交换机上进行VLAN的划分,可以起到减少项目建设的设备投资成本、简化DCS网络管理、提高网络安全性的作用。这里需要提出的是,有必要找到适合于信号DCS网络的划分原则,结合实际应用情况,将不同级别的信息进行合理区分。
3适用于DCS的VLAN划分原则
由于地铁信号系统DCS网络具有连接设备数量、类型较多,信息传输种类繁多的特点,在按照端口划分的VLAN配置方法对信号DCS网络交换机等进行配置时,需要寻找到合适的原则,将信号系统DCS网络中不同设备、不同信息类型进行全网的统一配置,既能有效避免网络风暴,又有利于维护人员进行维修检查。这就需要根据网络端口是否有用、该端口在网络中的作用、所传输的信息内容和特点等特征,将网络端口有序划分。例如,在网络的列车自动控制(ATC)信息、列车自动监控(ATS)信息、维护管理信息等带有不同功能及目地的信息,划分到不同的VLAN中。在信息有效传输的同时,也可以提高网络的安全性能。建议按照以下原则进行层层划分。
1)由于信号系统涉及列车行车安全,因此可先将交换机上多余端口统一划入“无用端口”的VLAN中,这样即使有其他设备接入到该端口上,也不会对有用端口间的网络通信造成影响。
2)进一步将有用端口进行分类,如该端口在信号DCS网络中只做收发,不对信息进行拆分和处理,即可将其划入“管理类”的VLAN中。
3)在DCS网络中,与“管理类”信息对应的是“业务类”信息,在此类信息中,建议先将涉及到列车控制安全的ATC信息独立划分出来,同时由于此类信息较为重要,需设计两路,可以划分至两个不同的VLAN中。
4)另外,“业务类”信息还包含其他非ATC信息,也就是非安全信息。对这类信息的划分,首先将其中的ATS信息独立划分出来,同样建议为两路。
5)同时,非安全类的信息也包含维护管理类信息,如维护支持、电源监控类等信息也需要划分到单独一个VLAN中,此类信息可以不进行冗余设置。
6)其他非安全类信息也可以通过实际情况进行VLAN设置,可以独立VLAN,也可统一划入一个VLAN,根据实际情况进行设置即可。建议的VLAN划分原则,以及该原则对应在信号系统中的传输内容示意。
4总结
(一)可行性分析
经济方面的可行性。本系统是房屋销售管理信息系统,所以系统的成本主要集中在开发软件的费用上,但是系统投入运行后,就可以减少大量的人力以及物力。耗时短,资金消耗少,实用性强,经济性良好。具有极高的经济方面的可行性。操作方面的可行性。由于该系统是分模块设立的,所以模块间既有一定的独立性,也有一定的联系,适用范围广,操作简单易懂。即便是不精通网络以及计算机的相关工作人员也可以使用,减少了人力物力的投入,提升了管理效率,可操作性强。
(二)需求分析
由于房地产行业大多采取跨地域的经营方式,承包不同省份、不同城市、不同区域的房地产工程。有统一的总部进行分项管理,但是各个项目并没有自己的管理平台,来让总部及时了解相关的状况,因此容易造成资源分配不均衡,不能及时进行调整等状况。所以,房地产企业需要一个可以进行反馈的系统,来及时了解相关状况,来调节相关的决策。在财务方面,各个项目的财务是独立的,因此,为了更好地进行管理,避免账目出现偏差,要将各个项目的财务数据及时反馈,需要一个管理系统来进行这样的工作。也要对客户资源进行很好的管理,并征求客户的意见和建议并咨询客户的满意度,来提升公司形象,并发掘潜在客户以及潜在市场。这需要建立一个系统,来管理并反馈客户的相关信息。房屋销售管理信息系统具体要做到对内部数据信息进行管理,来方便操作人员操作以及查询。由于数据十分庞大,输入的工作量也十分的大,因此系统一定要简单易懂、方便操作、能实现批量操作等。为了实现房地产销售信息无纸化,并运用计算机以及网络技术等,就要建立一个综合性的房屋销售管理信息系统。在进行信息的录入与输出的同时,来对相关的资料进行管理。
(三)功能分析
在系统的功能分析方面,我们从四个板块来研究。房产管理模块,建立一个房屋销售管理信息系统,其最基本最首要的功能便是房产管理。这要求系统可以支持管理者对房屋信息进行修正的一系列操作,如新内容的添加、错误信息的删减、录入以及修改等一系列操作。除此之外,要将查询功能设置的相对便利,来使得客户依照需要对房屋信息进行查询,对所需的房屋进行快速定位。客户管理模块,可以帮助公司更好的管理客户信息,来明确业务方向,增加自己的竞争力。对客户进行合理的分类,来提高管理效率,并根据客户要求以及满意度等信息将客户进行划分,来针对不同的客户提供不同的信息和服务。收费管理板块,用来记录客户的缴费状况等。来方便费用的记录以及催缴,并可以添加物业费等信息,来方便其他有关的单位的工作。售楼管理板块,这是房屋销售管理信息系统的核心部分,在这一板块中,我们可以实现对楼盘销售的情况的管理,让公司统一管理数据,更加容易的了解楼盘的销售状态,更好地进行下一步的操作。
二、系统设计
(一)模块划分与功能设计
房产管理模块,主要是管理各个楼盘内部的相关数据。一定要有添加、修改、查询、删除等相关基础操作的功能。该模块有楼盘信息登记管理、户型信息的登记管理、楼盘、查询、户型信息查询等主要功能。楼盘信息登记管理板块:对各种楼盘信息进行添加、修改、查询、删除等相关基础操作,要有楼盘编号、楼盘报价以及户型编号等信息。户型资料登记管理板块:对户型资料进行添加、修改、查询、删除等相关基础操作。要包括,对户型的基础介绍、平面图、编号、价格、内部结构、实际面积等。楼盘查询板块:实现通过查询楼盘的关键字来对楼盘全面的信息进行查询。包括楼盘的编号、报价,户型的编号等信息。户型查询板块:实现通过查询关键字或关键词,来查询户型的相关信息。包括,户型的编号、设计图、内部结构、面积等信息。客户管理板块,一定要有添加、修改、查询、删除等相关基础操作的功能。还要分为客户资料登记管理板块,客户资料查询管理等几个子版块。客户资料登记管理板块:要求能够实现对客户资料进行添加、修改、查询、删除等相关基础操作的功能的操作。要有相对全面的客户资料。客户资料查询管理板块:要求能够通过查询操作,查询客户资料中的某一项内容,比如按照客户的身份证进行查询、按照客户的姓名进行查询、按照手机号进行查询等,进而出现客户的相对全方面的信息。收费管理模块,实现对收费的数据进行添加、修改、查询、删除等相关基础操作。包括登记管理板块,以及查询管理板块两个子版块。收费登记管理板块:对相关的收费信息进行添加、修改、查询、删除等相关基础操作。包括收费项目编号、楼盘编号、缴费时间、缴费金额、物业费用、公共基础费用、其他费用等。收费查询管理板块:通过查询住户的相关信息,来查看住户的相关缴费情况。包括查询住户所在的住址、住户的的身份证号、姓名等信息,来进一步查询住户的缴费信息。售楼管理模块,这是房地产企业的基本业务,所以这个板块是一个基本版块。业绩直接影响效益,所以这个版块十分重要。要对售楼信息进行添加、修改、查询、删除等相关基础操作。主要包括售楼人员登记管理板块、售楼合同管理板块。楼盘销售人员登记管理板块:对销售人员的各项信息进行添加、修改、查询、删除等相关基础操作。包括,姓名、性别、身份证号、编号、手机号码、电话号码、所属区域等相关信息。售楼合同管理板块:对售楼合同的相关信息进行添加、修改、查询、删除等相关基础操作。包括,合同的状态、编号、所属楼盘的相关资料、购买人相关信息、支付状况等信息。
(二)数据库设计
自二十世纪的发展以来,人类步入了信息时代。计算机硬件技术发展迅速。越来越多的企业以及公司用计算机来对数据信息进行管理,所以计算机管理的数据越来越庞大。为了对数据进行统一便捷的管理,让同一数据来方便更多的应用,便出现了数据库,这一统一管理数据的软件,英文名称Database。数据库可以满足,将数据进行较为合理的存储,并且同一数据可以让多个用户共同使用,冗余度较小。数据库里的数据具有较小的数据冗余度,较高的数据独立性和扩展性,因为数据在数据库中是按照一定的数据模型组织来进行描述和存储的,他们可以在一定的范围内向用户提供数据的多用户共享。由于不同的数据库是按照不同的数据结构进行组织和联系的,由这个特点数据库被分为关系式、层次式、网状式三种数据库。随着技术的不断发展,数据库模型也在不断升级,出现了数据库管理系统,可以实现建立、使用、维护、统一管理、控制数据库等多项功能,并可以保证数据的安全性和完整性。只有用数据库进行管理才能实现数据管理自动化,因此,创建以及设计系统的第一步便是设计以及建立数据库。本房屋销售管理信息系统的数据库是用PowerBuilder9.0本身自带的数据库创建的。创建这个数据库,在D:\bysheji中存放系统的数据库文件。housysm.db为数据库的名字。建立完相关数据库后就可以来建立相关表项了,主要有楼盘、户型、客户、销售员等表项。下表便是表项以及相关内容:1)户型表:户型编号,建筑面积,平面设计图,套内面积,房型,房型简介;2)楼盘信息表:楼盘编号,楼盘报价,户型编码;3)收费记录表:收费项目编号,楼盘编号,收费日期,电视费,电话费,煤气费;4)公用基础设施费,其它费用,预收押金,交款人,收款人;5)售楼人员信息表:售楼人员编号,身份证号码,姓名,性别,联系电话,手机号码,电子邮箱;6)用户登录表:用户编号,用户名称,登录密码;7)客户信息表:客户编号,客户姓名,性别,手机号码,客户职业,联系电话,电子邮箱,邮政编码,备注;8)收款登记表:收款单号,楼盘编号,收款日期,收款金额,付款方式,收款人,交款人;9)合同信息表:合同编号,楼盘编号,买房人身份证号码,销售人员编号,楼盘单价,楼盘折扣金额,付款方式,贷款银行,签订时间,客户交款记录。
(三)数据窗口对象的创建
系统其他界面的设计便不一一介绍了,这里简单介绍一下数据窗口对象的创建。使用PowerBuilder时,其中一个较为重要的工具便是数据窗口对象。由于本系统是使用PowerBuilder设计的,所以一定要注意数据窗口对象的建立,这是连接数据库与客户端的工具。在数据窗口对象中可以对数据进行添加、修改、查询、删除等相关基础操作。还可以指定数据的输入格式和输出格式用数据窗口对象可以较为方便以及快捷的建立相关的较为复杂的数据库应用程序,来为数据窗口对象选择不同的显示风格以及选择不同的数据源,并可以增强它的功能,这就要通过添加各种控件来实现了。要保证数据库与窗口对象是相互连接的,这样才能顺利的通过数据窗口对象对数据进行相关操作,要保证添加、修改、查询、删除等相关基础操作的顺利运行。所以,一定要保证数据窗口对象成功地与数据库相连接。数据窗口对象中数据的来源便是其中的数据源,在本系统的设计中,数据窗口对象的数据源主要有下面两种:快速选择数据源,QuickSelect。通过建立简单的Select语句,来进行数据源的选择,主要通过一个表或者由外键连接的多个表来进行数据列的选择,但是这种方法有一点缺陷,那便是在创建数据窗口对象时不能生成相应的计算列。SQL选择数据源,SQLSelect。SQL选择数据源,SQLSelect数据远远比快速选择数据源,QuickSelect数据源要复杂的多。通过这种方式可以用可视化的方式来建立较为复杂的SQL选择数据源的语句结构来构造数据源,并生成相应的计算列,这是快速选择数据源所做不到的。还可以对数据进行相应的分组排序,还可以进行表的关联等等操作。PowerBuilder中的数据源,功能最全的便是SQL选择数据源,SQLSelect。数据窗口对象显示数据的方式便是数据窗口对象的显示风格。这要求数据窗口对象显示的外观不一定要多么的华丽,但一定要美观、大方、变化多,以此来适用于不同的场景以及场合。本系统的数据窗口的显示风格设定为,Freeform风格和Grid风格这两种风格。创建数据窗口对象的步骤如下:在进入PowerBuilder后,在系统树窗口中查找并打开该应用,找到“File”/“New”进行选择,或者是通过单击工具条上的相关图标,来弹出新建对象窗口。在这里要选择“DataWindow”页,会出现一个界面,在界面上选择显示风格。以“客户信息查询窗口”为例。先选定Freeform的图标,点击确认按钮或双击鼠标左键。弹出对话框,选择数据库中的“客户信息表”,单击下一步,这样就可以建立“客户信息查询窗口”的数据窗口了。然后便可以通过对数据窗口对象进行操作进而对其进行相关操作。
三、总结
关键词:单片机电话主叫信息识别FSK数据通信
电话主叫识别信息发送及接收(俗称来电显示),简称CID(CallingIdentifyDelivery),是电信局向被叫电话用户提供的一种服务项目,是指在被叫用户终端设备上显示主叫电话号码、主叫用户姓名、呼叫日期和时间等主叫识别信息并进行存储,以供用户查阅的服务项目。被叫用户根据显示的主叫识别信息而决定是否接听电话,可以避开一些不愿接听或不友好的电话。利用这个功能可以进行FSK信息解码的电话网数据通信,应用于实际生活中。
1电话主叫识别原理和传送协议
实现电话主叫信息识别业务的基本方法是,发端程序交换机将主叫电话号码等信息通过局间指令系统传磅给终端交换机,终端交换机再将主叫识别信息以移频键控FSK(Frequency-ShiftKeying)或双音多频DTMF(DualToneMulti-Frequency)方式,在第一次振铃或第二次振铃间隔期前传送给被叫用户终端设备。我国的通信行业标准明确规定,统一采用FSK方式提供主叫电话来显示服务。在一次呼叫中,若被叫用户申请了CID业务,则电信局的终端交换机就会向该被叫用户传送主叫识别信息数据。传送流程与时序如图1所示。
其中A、B、C、D、E为数据传送时的状态持续时间,各段时间值如表1所列。在数据传送前或传送过程中,如果用户摘机,则传送停止,但呼叫处理正常进行。
表1CID信号传送各段时间值
符号时间值说明
tA1s第一次铃流信号
tB0.5s<tB<1.5s第一次振铃结束与数据传送开始之间的时间间隔
tC≤2.9s传送数据的时间,包括信道占用信号和标志信号
tD≥200ms数据传送结束与第二次振铃开始的时间间隔
tE1s第二次铃流信号
tB+C+D≤3.6s各时段可根据具体情况确定
2主叫识别信息数据格式
FSK主叫识别信息数据的传输格式有两种:单数据消息格式SDMF(SingleDataMessageFormat)和复合数据消息格式MDMF(MultipleDataMessageFormat)。前者的结构简单,可容纳的信息内容较少,如主叫号码、日期和时间;后者的结构比较复杂,可容纳的信息长度较长,除单数据格式内容以外还可以主叫用户的姓名等。本文主要介绍FSK主叫信息数据格式的接收。
单数据消息格式由消息头和消息体组合,消息头由消息类型和消息长度组成,它们均为8位字。消息类型的值来识别消息的特征;消息长度指明后面所跟消息字的长度。消息体包括交换机需传给终端用户的消息。消息体可容纳1~255个8位的消息字。每个字用8位带校验位的7位ASCII编码字符集表示。
一个完事的消息帧由信道占用信号、标志信号、数据信息和校验字组成。信道占用信号和标志信号用来提示电话终端准备接收数据;校验字用来作差错检查,如图2所示。
①信道占用信号。这是发送主叫信息时要首先发出的头标志,由一组300个连续的“0”和“1”交替地组成。其第一个位为“0”,最后一个位为“1”。在通话状态下,此信号不发送。
②标志信号。在挂机状态下,程控交换机向用户发送主叫信息时要先发送的第二个标志信号,由180个标志位(逻辑“1”)组成。在通话状态下,此信号不发送。
③标志位。程控交换机根据线路使用情况随机插入的标志位,由0~10个逻辑“1”组成。
④数据字。主叫信息,每个数据字之前先行一次“0”作起始位,在最后加一位“1”作结束位,每个数字的最低位先发送。这样,实际每个字为10位,即1PXXXXXXX0,其中P为奇偶校验位。
电话主叫信息数据传送时,信道占用信号首先发送,后接标志信号,最后连续发送数据字。根据数据传送情况,间隔地插入一些标志位。一般标志位会加在如下字的传送之间:
a.消息类型字与消息长度之间;
b.消息长度字与第一个参考数字或消息字之间;
c.参数类型字与相应的参数长度字之间;
d.参考长度字与第一个参考字之间;
e.最后一个参数字与下一个参数类型字之间;
f.最后一个参考字或消息字与校验字之间。
单数据消息格式数据传送按消息类型(04H)、消息长度、消息字、月、日、时、分、主叫号码(或“O”或“P”)的顺序排列组成消息进行传送。所有的消息字和参数字都有奇数偶校验位,采用奇偶校验的方式传送。
3电话FSK信息通信电路设计
本文以FSK信息解调器SM8220P芯片与单片机及外电路接口为例,介绍FSK信息的通信接收方法。SM8220P解调器是日本NPC公司生产的双列直插、低功耗CMOS集成电路FSK解调芯片,其解调器的引脚功能如表2所列。
表2SM8220P引脚功能
符号引脚功能
TIP-RING1,2电话信号输入端。信号输入必须隔直流
AGND3模拟地,要通过一个电容接地
RDIN4振铃检测输入。要把振铃信号经衰减后连接到此引脚
RDRC5振铃检测RC延时电路,低电平有效
RDET6振铃检测输出,内部接施密特触发电路。当为低电平时,表明检测到振铃信号输入;不用时应接地
PWDN7掉电控制,平时应保持为低电平。若为高电平,进入掉电工作模式,COSCOUT、CDET和DOUT自动被设置成高电平,AGND、FOUT被设置成高阻抗状态
GND8器件地
OSCIN/CLKIN9振荡放大器输入,外部振荡放入器信号经此引脚输入
OSCOUT10振荡放大器输出,使用外部振荡信号时必须开路
CDET11载波检测输出端,低电平有效。为低电平时,表明此时有FSK载波信号输入
NC12空脚
DOUT13数据输出,平时为高电平。当CDET=0时,表明此时电话经上有一个有效的FSK信号输入,经解调后由该脚输出
DMIN14解调器输入端
FOUT15FSK带通滤波器输出端,通过一个电容耦合连接到DMIN
VDD16电源正极(3~5.5V)
SM8220P遵循Bell202和ITU-TV.23协议标准,以连续二进制脉冲频移键控信号的方式传输,传输速率为1200bps。支持FSK号码显示和姓名显示等多种功能;芯片内部包含电源掉电检测电路、振铃检测电路和载波检测电路;信号输入检测灵敏度高,电源工作电压较宽(3~5.5V),是进行电话FSK信息解码通信的较好的集成芯片。
为实现电话FSK信息的接收,采用P87LPC764单片机控制SM8220P电路,以完成电话FSK信息解码通信的工作。电话FK信息通信具体电路如图3所示。
从图3中可知,对于从电话线上传输来的FSK信号,信号传送在第一次振铃和第二次振铃之间。振铃信号经过整流、分压,加到TIL113光电耦合器件的发射管上,使发射管有电流通过而发光,照射到光敏三极管的基极,臻使光敏三极管饱和导通。在R6上得到大于1V的脉冲信号,输入到单片机外部中断0,唤醒单片机准备接收。0.5s后FSK信号经过C3、C4、R1、C2的隔直和衰减,输入到FSK接收器SM8220P的差分输入端TIP和RING脚,将FSK信号读取解调后从DOUT脚输出ASCII码的串行序列,由P87LPC764单片机接收处理,提取出相应的电话FSK信息,发到多功能LED显示模块MAX7219驱动数码显示和24C64保存。
4FSK信息接收通信软件设计
单片机对SM8220P输出的ASCII码串行序列的识别过程,由接收和数据整合两部分组成。由于FSK信号波特率为1200bps,每发1位的时间是833us,因此,可以设定定时器每833us接收1位,每10位提取出1个数字。如此反复循环,直到接收完全FSK信息。当有电话来时,在第一声振铃后,单片机开始准备检测接收信号,SM8220P开始接收300个由0、1组成的频率为1200Hz的信道占用信号和180个“1”标志信号,紧接着接收主叫号码和时间。每收到1个数字,SM8220P都把它变换成10位(1PXXXXXXXX0)的串行序列,由13脚输出传送给P87LPC764单片机,P87LPC764经过精确的定时编程将其检测整合出相应的FSK号码、时间等数据,完成FSK信息解码、接收通信、接收到的电话号码可以保存在24C64串行E2PROM中,也可以输出到LCD上显示。SM8220P的11脚用来提示电话线上是否有新的FSK信息的输入。若有新的FSK信息输入,此引脚将产生低电平。单片机接收FSK主叫信息可以采用定时中断方式,也可以采用延时查询的办法进行。电话FSK信息接收通信程序流程如图4所示。
数据挖掘技术在企业的信息化建设中所担任的角色是实现数据信息到商业知识的转化。首先需要明确数据挖掘技术的处理对象,明白商业活动的主题;其次,需要对商业的主题进行分析,并搜集与之相关的数据利用各种技术对数据进行整理分析,并载入适合的数据挖据的算法中,建立模型,再从模型中提取出有用的商业信息,再根据分析所得结果调整算法,以数据和信息的可靠性为依据对结果进行判断;再次,将获得的商业知识融合到企业的信息平台,利用人机界面对企业的决策活动予以支持。另外值得注意的是,由于数据挖据技术属于高层次的技术,又关系到企业的业务机密,因此,需要极为专业的技术人才专业管理。
2如何实现数据挖掘在企业的信息化建设中的应用
在企业进行业务的操作过程中往往会产生大量需要处理的数据,这就为数据挖掘的应用提出了要求,数据挖掘的运用使企业的大量的数据得到了梳理,分析信息的能力提高,在企业今后的市场开拓记忆日常的运行中发挥了重要的作用,促进企业的竞争力的提高,那么,数据挖据具体在企业的信息化建设中如何应用呢,下文将予以介绍。
2.1利用数据挖掘技术实现客户信息的有效管理具体来说就是通过对客户信息进行分析,为客户建立一个合适的购物模式,以满足客户的需求为重,这是处理好企业与客户之间的关系的关键。有相关数据显示,企业在获得一个新的客户过程中所花费的成本比维系一个老客户的成本高出6倍-9倍之多,一个老客户的流失是以10个新客户的获得为代价的,由此可见,对于企业来说老客户的维护工作至关重要。通过数据挖掘技术可以得到老客户的大量的信息,并对其交易记录、统计信息进行分析后,可以有目的性的对流失的客户进行分析,找出客户流失的原因并为新客户的建立提供模型和经验,有效地对意向客户和流失客户进行判断,起到企业与客户的关系的改善的作用。
2.2利用数据挖掘技术进行市场营销的分析与管理在市场营销中,数据挖掘的作用在于可以促进市场的分工,以“客户过去的消费行为可以说明今后的消费倾向”为假设,然后对客户的信息进行分析,确定某一群体客户的消费兴趣,消费的趋向于需要,进而对消费者的下一次或者下一步的消费行为作出判断,然后再以此为基础,将识别出来的客户作为一个消费群体,以此制定营销计划,这与传统的不以消费者的实际需求为参考而进行大规模营销的手段相比较,在成本的节约方面贡献极大,可以带给企业更多的利润。在市场营销中的应用上,各种数据挖掘算法都得到了广泛的应用,每种不同的操作手段都可以引导商家做出满足消费者需求的决策与判断。
3结束语
近年来,随着互联网技术的发展,大数据越来越受到关注,其应用逐步渗透至多个行业,开启了全新的数据时代。数据是征信业务开展的基础资料,征信活动主要是围绕数据进行采集、整理、保存、加工,并最终向信息使用者提供。大数据不仅为征信业发展提供了极为丰富的数据信息资源,也改变了征信产品设计和生产理念,成为了未来征信业发展最重要的基石。我国征信业发展尚处于起步阶段,在大数据时代存在征信法律制度和业务规则不够完善、征信机构数据处理能力有待提高等问题。未来征信业面临的机遇和挑战并存,研究大数据时代征信业的发展具有重要意义。
大数据时代征信业面临的机遇和挑战
目前,对大数据无公认的定义,一般认为大数据是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为服务于经营决策的资讯。大数据的出现,使征信业发展面临的外部环境发生了巨大的变化。
(一)大数据时代征信业面临的机遇。
1.优化征信市场的格局。
随着征信机构市场化运营机制的确立,将会有更多信息资源优势的企业借助互联网、大数据等信息技术的创新进步,从征信业薄弱环节切入,通过服务创新或产品创新打破原有的征信市场格局。一是电商企业将组建征信机构。以阿里巴巴为例,其利用淘宝、天猫、支付宝平台上的行为数据和信用情况,建立成了涵盖数十万企业的数据库,具备了开展网络征信服务的基础和实力。二是金融机构建立征信机构。例如平安集团拟整合网贷信息、银行信贷信息、车辆违章信息等,建立金融数据挖掘中介机构。三是新型征信机构应运而生。一些大数据公司依靠技术手段,以电子商务、社交网络为平台,采集信息,提供信用信息服务,可能成为新型的征信机构。
2.推动征信业的转型升级。
大数据给征信业带来转型升级的历史机遇,未来的征信业将以智能数据分析系统为平台,利用大数据挖掘技术,支持征信业发展创新。大数据支持征信业升级和转型主要体现在二个方面。一方面大数据促成征信业建立全新的风险控制体制,向有效监管转型。大数据技术对客户信用信息进行深度挖掘,实时监控,防范潜在的信用风险。另一方面大数据支持征信机构向精细化管理转变。大数据的核心优势在于信息挖掘,精细化管理的首要条件是充分信息化,包括业务信息化和管理信息化。
3.促进征信业差异化竞争。
征信机构通过采用不同的数据来源,不同的数据处理方式,针对不同的客户,开发出不同的产品,满足不同层次客户的市场需求,实现差异化竞争。例如,金融机构对征信服务的需求将从单个借款主体的信用报告,扩展到运用信用信息拓展网络影响和金融服务渠道。P2P网络借贷、电商金融等业态需要借助信用信息共享防范风险,降低交易成本。
4.拓展征信数据来源。
大数据使征信数据来源呈现多元化、多层化和非结构化的特点,更加全面和真实地反映信息主体的信用情况。征信机构从在政府部门、金融机构等实体机构中采集信息,转向从互联网等虚拟世界中获取信息。在数据采集的广度和深度上,征信数据量将激增,采集包括证券数据、保险数据、商业信用数据、消费交易数据和公共事业缴费数据等,全面地覆盖与信息主体相关的各项因素。
(二)大数据时代征信业面临的挑战。
1.现有征信业务规则与大数据时代不匹配。我国有关征信业的法律法规的规制对象主要是传统金融领域,《征信业管理条例》及其配套制度初步构建了我国征信业的法律法规框架,但是《征信业管理条例》是否满足大数据时代征信业务的规则要求,尚未得到市场验证。目前,缺少对大数据时代征信活动的规范,如有关大数据采集、整理、保存、加工和处理的制度要求。因此,还需要进一步细化和完善征信业务规则,以更好促进大数据时代征信市场的发展。
2.征信业监管技术和水平需改进。大数据时代给征信业发展带来深刻影响,同时也对征信业监管提出了更高的要求。要适应大数据时代的征信监管需求,征信监管水平要能跟上大数据征信的发展水平,监管政策要符合大数据的基本规律,监管人员要具有适应大数据的知识和能力。在行业自律监管方面,我国行业监管尚未发育成熟,行业标准尚未统一,行业规范以及行业职业道德等内容尚未完善。
3.信息安全和隐私保护形势严峻。随着数据的进一步集中和数据量的急剧增长,对海量数据进行安全防护变得更加困难,数据的分布式处理也加大了数据泄露的风险,隐私保护和数据安全成为制约大数据发展的瓶颈。大数据时代下的征信业同时具有了大数据和征信两个特性,对隐私保护和数据安全的要求更高。
4.数据处理能力亟待提高。如何有效处理大数据,是大数据发挥作用的重要环节。益百利等大型征信机构在数据处理方面已经采取多层次数据挖掘等先进技术,利用私有云平台,对系统中海量数据进行处理和研发,减少主观判断,提高风险预测的准确性。但是目前我国征信机构发展起步较晚,缺少对数据处理的核心技术,导致数据分析结果不能够准确的识别个体或组织的行为。
5.硬件基础设施需要全面升级。过去征信机构存储征信数据主要是在本地建立数据库,大数据时代随着数据量呈几何级数的增加,征信机构硬件技术的发展已经跟不上数据容量的增长速度,数据存储面临较大压力。
大数据时代征信业发展的措施与建议
随着大数据时代的到来,未来征信业发展要从制度设计、技术进步、信息共享、监督管理、隐私保护等方面不断创新,促进征信业在大数据背景下的跨越式发展。
(一)建立符合大数据的征信法律制度和业务规则体系。现有的征信法律体系都是基于传统数据模式下制定的,难以满足大数据等新技术条件下征信业发展的制度需求。在征信业务开展过程中,大数据的收集使用可能涉及国家信息安全、企业商业秘密、公民隐私等,为了给大数据条件下征信业发展提供制度保障,需要从征信立法层面完善信息安全和数据管理的法律制度,明确大数据背景下数据采集、整理、加工、分析、使用的规则,确保大数据时代征信业发展有法可依。
(二)加强征信产品创新。随着可获得的数据量呈几何倍数的增加,征信机构通过深度挖掘和使用这些数据,就可以极大地拓展征信产品的种类,不仅能够提供信用报告查询等基础服务和产品,还可以提供其他综合性产品,满足社会各界的需求。从征信产品的满足层次高低的不同,可以分为宏观、中观和微观的征信产品。宏观层面,征信机构通过大数据分析可以对系统性、全局性的风险信息进行预测。中观层面,征信机构的海量数据包含大量时效性和政策含义都很强的信息,可以灵活多样地进行多维度组合分析。把这些信息整理和挖掘出来,建立对应的指数体系,有助于行业监管。微观层面,在信用主体(包括企业和个人)同意的前提下,征信机构可以提供每一个信用主体的信用报告、信用评分、身份验证、欺诈检测、风险预警、关联分析等多种数据服务。
(三)提高大数据技术处理能力。大数据价值的完整体现需要多种技术的协同。数据抽取与集成、数据分析以及数据解释,是大数据时代征信数据处理的三个重要环节,在数据处理过程中搜索引擎、云计算、数据挖掘等新技术使用必不可少。因此,征信机构要加大数据处理分析专业人才队伍的培养,同时要引进大数据处理的专业方法和工具,建立前瞻性的征信业务分析模型,更好的把握、预测市场和信息主体的行为。
(四)健全大数据信息共享机制。完善的大数据标准体系是推进数据共建共享的前提。目前,我国来自各行业、各渠道的数据标准存在差异,成为阻碍数据开放和共享的关键瓶颈。建议尽快统一标准和格式,以便进行规范化的数据融合,提升大数据的整合能力,打破资源部门间的信息孤岛,从而完善信息共享机制。
一、对税务数据深度利用的理解
长期以来,税收工作中数据利用比较常见的形式有:报表浏览、简单查询、复杂查询、税源分析、税负分析、收入预测、过程监控等,多数专家认为,目前税务数据应用的一般特征是基于汇总、分类、简单计算基础之上的原始税收数据的“复制式”展现和对税收现象的“陈列式”描述。
随着经济、社会的发展,税收数据的般利用已经不能满足税收信息化深化和税收管理现代化的内在需求,为了加强税收征管、规范税收秩序,国务院于1994年开始实施“金税工程”。“金税工程”初期以“增值税监管”为主要目标;二期时,内容已拓宽为增值税防伪税控开票系统、防伪税控认证系统、增值税计算机交叉稽核系统、发票协查信息管理系统的四个系统;到了三期,其目标已经成为:在二期基础上,建立七个子系统(管理子系统、征收子系统、稽查子系统、处罚子系统、执行子系统、救济子系统、监控子系统),35个模块。依据美国学者Richard.L-Nolan的理论(对于任何行业,信息化大体要经历初始、蔓延、控制、集成、数据管理和成熟这样几个发展阶段,这是信息化发展的般规律。)和Mische的补充(他认为集成和数据管理是密不可分的,因此信息化发展的必然路径是起步、增长、成熟和更新四个阶段),目前,税务信息化的发展阶段已开始向成熟阶段过渡。于是税收数据的深度利用便提上日程。我们可以从税收管理战略和税收政策分析两方面来看这种需求的提出。
从税务管理战略来看,在纳税前如何综合评价简化管理制度(法律)及照章纳税宣传的相对效果;在纳税中如何核算税收结构和管理程度的实际资源成本(管理、照章纳税、效率、逃税),以及纳税后对税收差距的衡量(包括潜在税收与申报税收的差距、申报税收与实收税收的差距、实收税收与送达国库税收的差距),都涉及到税收数据的深度利用问题。
从税收政策分析的角度来看,税收经济的和谐发展度量、税制改革方案分析、税收减免和优惠的成本和政策收益、税收政策的经济影响等等也涉及到税收数据的深度利用和挖掘问题。
这些问题都从以下两方面引发了我们对税务数据深度利用的理解和思考:一方面提出了我们需要全面检视拥有的税务数据信息的需求。在各国税务数据信息深度利用的经验当中,提出过一些全面检视的标准,例如按照税基到税收收入的实现途径,可以检视:税基的规模,包括真实税基和潜在税基;税收管理资源使用方向的详细分类;管理资源使用的效用;税收管理的效果,例如收到税款的多少,处理案件的数量等。
另一方面,更为关键的是,提出了如何科学利用、深度利用的问题。总结以上两方面,我们认为税收数据的深度利用是指:在数据集中和系统整合的基础上,建立全面的税务数据信息,既包括税务系统内部数据,也包括其他政府部门、企业、居民等外部数据,并且进一步在各种模型的帮助下,发现数据的内在规律。就目前而言,重点任务是在税务管理方面提出适用中国实践的模型并且应用,同时初步探索在税收经济方面能够刻画符合我国国情的模型。
二、构建模型是数据深度利用的切入口
如前所述,税务数据深度利用和挖掘的关键在于模型的应用,下面我们就来讨论模型是什么?我们为什么需要模型?我们需要什么样的模型?就税收数据深度利用的模型而言,大致可以分为两类:以科学化管理、定量化管理、精细化管理为内在思想的管理工具和手段所形成的模型;以研究税收经济关系协调发展为目的的税收经济模型。
在基本认识了税务数据深度利用中的模型是什么之后,虽然我们达成了一种共识,我们需要模型,但是如果我们思考过为什么需要模型?显然会对模型应用更能得心应手。我们认为模型所发挥的作用无外乎以下三种:
首先,刻画税收经济关系。一般而言,我们经常提到的是模型在刻画税收经济关系当中所起的作用,即采用代数形式的定量分析将税收经济理论模型化,然后适当根据实践情况把理论模型予以修正,并将相关数据应用到修正模型中,对模型结果进行经验分析。这种利用的过程是阶段性的,是从初级到高级的过程,是一个水平不断提高、效果不断改进的发展过程。
其次,归纳税收管理实践。模型起到的作用是将复杂的税收征纳活动通过数字化的形式总结归纳,将税收征纳的每一个过程精细化、每一个结果数据化,并且建立起投入到产出之间的对应关系。最后,数据组织的导向性作用。这种导向性作用的发挥是通过模型应用过程当中对各类数据提出的要求实现的,通过该作用,随着时间的发展,数据集中的有效性与目的性不断加强,反之,模型应用空间不断扩展。在这一方面,美国个人所得税模型应用为我们提供了很好的启迪。
结合目前的税务数据基础及其发展趋势来看,金税三期将成为税收数据深度利用的良好契机,构建相应模型是我们形成税务数据深度利用良好局面的切入口。
对于“我们需要什么样的模型”的回答,是一个不断结合实际进行摸索的过程,但是就现阶段而言,从可操作性的角度出发,我们还是需要给所应用的模型框定一个边界:数据可利用性,如果没有数据的支持,模型应用将无从谈起;可计算性,模型应用迅速发展的基石之一就是现代计算技术的发展,没有计算工具的支持,具有庞大计算量的各种税收模型的完成无法想象,支持税收模型应用的计算工具包括硬件具备的计算能力和软件具有的算法能力两种。
三、数据深度利用平台建设的体厶
数据深度利用和挖掘最终必须落实到具体计算平台上,否则纵然有大量的数据积累,仍然摆脱不了研究与实践部门脱节的窘态。虽然目前我们拥有大量的计算软件平台,然而,总感觉到这些应用平台离我们的实际需要有一定距离。
目前我们正在参与完成一个国家自然科学基金研究项目:税收政策分析模型支持系统的实现及其在税制改革中的应用研究,其主要内容和实质就是探索构建一个有利干数据深度利用的计算平台。从该平台的构建来看,有几点体会:首先,平台的构建必须结合具体的研究问题展开。通用性的平台虽然很好,但是由于前面所提到的数据可利用性和可计算性的原因,加上实际工作的紧迫性需求,往往使得通用性平台的规划会落空,甚至于进一步影响数据深度利用工作本身。在该问题上,我们的平台研究就结合了增值税转型的测算问题,利用了CGE平台进行实证性的应用。
其次,考虑针对具体问题研究的通用性拓展。虽然实用为先,然而要做到持续性的数据利用,必然要考虑拓展的问题。在这个问题上,我们的平台通过税制表示方法、税收政策分析模型描述语言中国税收政策分析模型支持系统等方法进行尝试。
更为重要的是,对适合中国国情的税收经济模型的提出。由于长期以来的数据缺少原因,在我国模型建设方面没有进一步的探索。这种缺陷在海量的数据突然呈现在我们面前的时候更加突出。我们正在尝试提出适用干中国的税收经济模型,虽然肯定会比较艰难,但是这是一条必经之路。
当前“大数据技术”充满了新的机遇和挑战,其在企业IT基础架构、数据管理、分析和服务这些关键规划领域的应用,将会对社会经济发展带来长远深刻的影响。大数据指的是从各种各样的数据中快速获得有价值信息的能力,具有数据量大、种类繁多、价值稀疏、处理速度快的特征,这些特征对目前社会各个行业的信息架构、系统的冲击非常大。大数据技术对整个社会经济发展来说既是机遇也是挑战。
(一)必要性
根据IDC在2011年6月的《数字宇宙》(DigitalUniverse)研究报告,2011年全球新建和复制的信息量超过1.9ZB(1.8万亿GB),五年时间增加了近九倍。随着数据量的指数级增长、数据源种类(包括结构化数据源和非结构化数据源,如社交媒体、富媒体文件以及地理空间信息)的飞速增加,以及数据产生速度的加快(如实时传感器数据),传统的数据库和架构无法处理、管理和分析如此庞大的数据集。政府、金融、电信、互联网等大数据应用的行业先锋目前均面临大数据的问题。不仅如此,随着物联网、云计算、移动互联网、车联网、智能手机、平板电脑的飞速发展,大数据技术拥有了更为广泛的数据资源。因此,IT产业界及行业用户都亟需针对大数据设计和优化大数据存储、管理和查询平台,来替代传统关系型数据库平台。在技术发展的前沿阶段进行实验平台建设对我学院师生具有重要意义。该实验平台能够为学生提供一个了解最前沿技术的机会,不仅能够提高学生学习兴趣、自学能力,还为学生就业、更好地规划未来的职业发展提供了机会。大数据技术的机遇与挑战带来了很大的人才缺口,目前大数据技术平台开发、方案实施人才紧缺;由于云存储、大数据技术带来的信息安全问题,也亟需大量信息安全领域的人才;由于大数据技术在物联网、电子商务、移动互联方面的应用,对了解大数据技术的电子商务专业人才也更青睐。通过本实验平台的培养,感兴趣的优秀学生还可以尝试考取与大数据技术密切相关的Hadoop专业认证———ClouderaCertifiedDeveloper/AdministratorforApacheHadoop,为学校、学院在该领域带来正面影响,增加更多合作和就业的机会。该实验平台能够为信息系统专业试点班培养计划的很多核心课程(包括管理统计学中的业务报表与分析、商务智能方法与应用、商务智能实践、数据挖掘和BA综合实训等)形成较好的前后衔接关系,能够丰富实践教学环节,深化教学大纲的内容,从建设更合理的课程建设体系来说具有很大的必要性。近几年学生就业压力越来越大,迫切需要对教学内容和实践环节不断突破创新,才能具备持续发展能力。因此在原有课程体系和实践教学环境的基础上增设本实验平台非常必要。
(二)可行性
教学计划中的相关程序设计课程为学生学习云存储技术、熟悉大数据开发平台、了解最新大数据技术的发展、进行大数据平台基础上的开发、实现对大数据的分析、可视化演示打好了基础。英特尔ApacheHadoop平台是目前大多数大数据处理的技术基础,目前该技术已经发展成熟,并随之产生很多基于该平台的大数据处理工具,可供实验室建设实验平台使用。
二、建立大数据实验平台的基本构想
(一)实验平台人员
实验平台人员负责实验平台的建设、维护,实验设计与指导人员由在大数据相关领域、课程建设以及实践教学方面都有着丰富的经验的教师与实验室工作人员构成,同时与大数据企业进行合作,获得其核心技术人员的支持、培训和大力配合,可以共同组成一个经验丰富、精炼实干的建设团队。
(二)软件调研
大数据的特点为4个“V”:第一,“Volume”,指的数据量大,包括大的数据块,或数据总量巨大,从TB跃升到PB;第二,“Variety”,指的是数据种类繁多,包含大量非结构化数据,例如网络日志、音频、视频、地理信息等;第三,“Value”,价值稀疏性,大量数据中有价值数据很少;第四,“Velocity”,指的是处理速度快,这与传统数据挖掘有很大区别。选择有数据分析基础、在业内发展领先的企业进行调研并选择适合高校规模的合作企业是建立实验平台的重要工作。很多公司给出了可供使用的大数据平台:IBM誖InfoSphere誖BigInsightsTMBasicEdition是一款基于开放源码ApacheHadoop的分析平台,用于分析大量本机格式的非常规数据,支持结构化、半结构化和非结构化内容,以实现最大程度的灵活性;IBM誖InfoSphere誖Streams是一个高级计算平台,帮助用户开发的应用程序快速摄取、分析和关联来自数千个实时源的信息;惠普公司Vertica分析平台6.1,能够通过Hadoop分布式文件系统连接器来优化大数据;ClearStoryData大数据分析新创公司,通过Clearstory,公司客户可以将自身的数据与行业的公共数据融合,寻找统计上的新视角,目标是取代目前市场上的主流数据可视化工具,包括QlikView和Tableau等老牌工具;Informatica9.1提供首款Hadoop编译器Hparse,这是一种针对Hadoop而优化的数据转换环境,该软件支持灵活高效地处理Hadoop里面的任何文件格式,为Hadoop开发人员提供了即开即用的解析功能,以便处理复杂而多样的数据源;Datameer:Hadoop海量数据分析平台允许用户在缺乏技术知识的情况下能够分析大量数据;Infochimps平台以其完备的基础设施和专业知识,为客户提供端到端的大数据解决方案,Infochimps是一家位于美国德克萨斯州奥斯丁的创业公司,2012年2月从数据市场转型为大数据平台提供商后获得谷歌投资;甲骨文大数据机———OracleBigDataAppliance集成系统融入了Cloudera的DistributionIncludingApacheHadoop、ClouderaManager和一个开源R;微软SQLServer新增PDW功能,可以帮助客户扩展部属数百TB级别数据的分析解决方案;亚马逊将MapReduce作为一项服务,其弹性MapReduce编程是一项能够迅速扩展的Web服务,运行在aws的亚马逊弹性计算云和亚马逊简单存储服务上;Teradata是企业级数据仓库(EDW)的领导者,在结构化数据、半结构化数据和大部分非结构化数据领域几乎没有很大成果,因此收购了AsterDa-ta———一家提供SQL-MapReduce框架的公司。AsterData是高级分析和管理各种非结构化数据领域的市场领导者和开拓者,为Teradata带来了大数据分析市场商机。
(三)方案实施
实验平台的设计同时立足于大数据技术的发展的前沿性与本学院学生专业特点,与学生前序的理论、实践课程均有良好的衔接,符合人才培养计划,深化了教学大纲的内容,并针对不同专业学生设计实践学时、内容和难度。本实验平台可以同大数据行业中的公司科研部门共同合作建设,双方确定在人才培养、师资培训、共建实验室和实训基地、推动大学生校外实习和社会实践活动的开展等方面开展全面、广泛、长期、深入的合作。该实验室建设将丰富实践教学体系,也可推动学院科研项目立项、新课题研究、专项基金申请和联合开展商用项目开发等;该实验室使师生能接触高新大数据开发平台,了解最新大数据技术的发展,进行大数据平台的开发,实现对大数据的分析、可视化演示,增强学生的动手能力并提升就业质量;与此同时,提升了教师的项目管理能力和教学能力。
三、结论
1 地方文献报刊信息数据库
地方文献是指内容上具有地域性,同时具有重复使用价值的文献。由于它完整、系统地记录了特定地域内自然和人文方面的各种信息,从而为人们提供了研究特定地域内历史、现代及未来的有关资料。
地方文献的类型多种多样,报刊文献是其中的一种。它具有信息量大,传递周期短,内容相对客观、翔实等特点。但由于它的总量太大,有关的地方文献信息分散在不同时期、不同品种的报刊之中。仅靠浏览原始文献,迅速查到有关资料,几乎是不可能的。地方文献报刊索引就是为解决这一问题而编制成的一种检索工具。
在手工时代,地方文献报刊索引表现为篇目索引或题录索引的形式,即将报刊中所载地方文献篇目按一定顺序编排起来,以利读者查找文章的所在位置。这种索引不反映文章的具体内容,只具有指向和示址作用。同时,也对地方事物起着揭示和报道的作用。除了作为一种综合性的检索工具外,还可以在这种索引的基础上编制各种情报报导刊物,或围绕特定学科及专业进行定向报导和检索,以服务于地方的各项事业。
鉴于地方文献报刊索引的重要作用,许多公共图书馆都曾积极编制这种索引。例如,首都图书馆自50年代起开始编制《北京地方文献报刊资料索引》,涵盖了本世纪以来的内容;甘肃省图书馆也是在同一时期开始编制西北五省的地方文献报刊索引;长春市图书馆也曾编制了《东北地方文献索引》等检索工具。为了避免目录体系过于庞大,这种卡片式篇目索引一般仅以分类方式编排。因此读者也只能从分类途径对报刊上的地方文献信息进行检索。 进入计算机时代以来,以数据库形式来处理地方文献信息已成为图书馆地方文献工作的必然趋势。计算机所具有的自动识别与排序功能,使地方文献信息的编排检索变得更加方便、更加快捷。通过全文扫描技术完成的报刊全文数据库,使得报刊上的地方文献信息得到更充分地揭示和利用。由于计算机具有一次性输入,多途径输出的功能,因而在对地方文献信息进行存储与检索时,增加了篇名、著者、出版、文摘等多方面的途径。尤其是从主题途径检索地方文献信息的问题得到了很好地解决。
在地方文献报刊信息数据库(以下简称报刊信息库)中,分类标引和主题标引都是以揭示文献内在特征为目的的标引方法,只是揭示的角度有所不同。由于地方文献的史料特征极为明显,故地方文献的读者往往是从特定的事件、人物、时间、地域的角度入手进行检索。因而可以说主题检索是一种最直接反映地方文献内容特征的检索途径,也是建立检索工具和检索系统的基础和前提。近些年来,图书情报界对有关主题标引的原则和操作方法有过许多研究和探讨,撰写过很多的著作和文章。但由于地方文献中连续出版物本身所具有的特征,其主题标引的原则和方法与其它类型文献的标引还是有所不同。本文拟从报刊信息数据库的建设入手,探讨有关地方文献报刊信息主题标引的一些问题。
2 地方文献报刊信息数据库中的主题标引
2.1词表的编制
报刊信息库与其它类型数据库相比,最突出的特点是要反映地方文献本身所具有的特征。同时还要满足地方文献用户特殊的检索需求。因此,选择一部适合地方文献特征的主题词表是开展标引工作的首要问题。
《汉语主题词表》(以下简称汉表)是一部供机检使用的综合性基础型词表。它所收录的词汇可以供各个机构和行业从中选词,以编制适合本专业或本机构使用的专业词表。实际上,我国很多专业情报机构和图书馆都是在参考这部国家词表的基础上编制自己词表的。在编表过程中,抽取主题词时当尽可能不破坏原有词表的词间关系。但必要时,词间关系及基本范畴还是需要重新确定的。
由于地方文献是对某一地域自然和人文现象的客观描述,它所表现出的地域性和专指性极强。用综合性的《汉表》来标引各地的地方文献,则将有相当部分的文献不能被准确地表达其主题概念;其次,地方文献的内容范畴与《汉表》中的基本范畴也有所不同。《汉表》是以学科体系作为划分范畴的基本依据;而地方文献则是以特定地方的自然环境、人文环境和地方事业作为划分范畴的基本依据。所以地方文献主题词表需要在《汉语主题词表》的基础上自行编制。
地方文献主题词表中所收录的主题词来源主要有:
①《汉表》中已有的词汇。这是地方文献与非地方文献都使用的综合性词汇,它占将来的地方文献主题词表所收词汇的绝大部分。由于是从《汉表》中选词,所以它们是相对规范的。
②《汉表》中没有的,带有地方特点的词汇,如:北京地方文献的“琉璃厂”、天津地方文献中的“皇会”、广东地方文献中的“早茶”等,这部分词汇虽然在未来的地方文献主题词表中所占比例不会很大,但它们却是出现频率相对较高的词汇。对于这部分词汇及其词间关系,地方文献工作者需要加以规范。
③《汉表》作为阶段性产品,它的编制受时间的限制,对于编表以后新产生的一些词汇它不可能收录,在新编的地方文献主题词表中收录这部分词,也需要加以规范。
由于编制先组式的主题词表需要一段相当长的时间,同时还要编制一系列的标引细则,这将会影响报刊信息库主题标引工作的迅速展开。因此,可以采用另一种方式,即首先确定一段时间为试验期,先进行地方文献的标引工作。由标引人员直接从报刊所载的地方文献信息内容中选取有检索意义的关键词作为主题词。这种主题词是未经规范的自然语言,也无词间关系可言,待积累了一定数量之后,再对其进行修改、充实,并参照《汉表》使之规范化。确定好词间关系和基本范畴,从而形成适用的词表。这种词表是后控式的,采用这种方式选词更直观,专指性强,还能使标引工作与修改词表同时进行。而且标引时不用考虑词间关系及查表抽词,所以标引速度快。在标引时采用自然语言,对标引人员的要求也相对较低。目前,广东省中山图书馆的地方文献数据库系统主题标引就采用了这种方法。
2.2主题词字段的设置
无论是先有词表,还是先进行标引工作,在报刊信息库中,都需要设置若干个主题词字段,以便展开具体的标引工作。在设置主题词字段时,一定要注意反映地方文献的时空特征;在空间方面完整、系统地记录特定地域内自然和人文方面的各种信息;在时间上又形成了一个连续的信息集合。这是一切地方文献工作最基本的原则。
在报刊信息库中,首先应设置涉及文献基本内容的“内容主题词”字段。此字段选词灵活性大,标引的内容也十分广泛。它对所有地方文献信息的内容范畴进行涵盖,也是以后编制地方文献主题词表时确定词表基本范畴的依据。从地方文献的性质和特征来看,它是对特定地区自然、社会、人文诸般事物的历史与现状进行全面系统地综合性记录,涉及的内容极为广泛。如反映一个地区所能观察到的天文现象、地质水文结构、地形地貌、气候与气象、物种与资源以及反映该地区的人文地理、历史、地方人物、社会经济、地方政治、社会结构、地方文化、教育等各个方面。
报刊信息库中“内容主题词”字段的主题词性质绝大部分是综合性的,与其它非地方文献数据库中的主题词无太大区别。例如“社会治安”,“计量管理”、“住宅区”、“软件产业”等;也有一部分是地方文献内容所特有的地方性词汇,如“敦煌石窟”、“庚子”、“厂甸”等;另外,新产生的一些地方文献信息的内容,也应通过内容主题词来表达。总之,凡是涉及到地方文献的所有内容特征,都应在此字段予以反映。
这一字段并非地方文献数据库所特有,有关具体标引方法的讨论从略。
另一种主题字段的设置应反映地方文献内容特征以外的其它特征。地方文献最大的特点,就在于文献所记载的现象、事实和人物都被限定在某一特指的时空范围内。也就是说。地方文献所涉及的内容范畴均会通过特定的时间、地点、团体机构、人物等因素反映和输出。地方文献用户的检索习惯也往往是从某一地域范畴、地区名称、某一事件、某一人物入手。因此,有必要在地方题录库中设置“地域主题词”、“时间主题词”、“团体主题词”和“个人主题词”诸字段。它们是揭示地方文献的本质特征所必须的字段。同时也是地方文献数据库系统中所特有的。
以上四个主题词字段所反映的是有关地方文献信息中客观存在的某些因素,如“地域主题词”中的“东城区”、“梅山县”、“个人主题词”中的“梅兰芳”、“秋瑾”等。尽管这四种主题词的标引与“内容主题词”的标引相比,相对容易些,但仍需积累到一定数量后进行规范。例如“团体主题词”中的机构名称是用全称还是用简称,以及“个人主题词”中的人物名称是用本名还是用笔名,这些都需要地方文献工作者在以后的工作中根据本地区的具体情况加以规范。
具体的标引方法是:
地域主题所标引的不是整体地方文献的地域,而是文章内容涉及的某一具体区域的名称,或者给文章内容带来影响的区域名称。如有关北京地方文献的内容不用标“北京”,直接标引具体的“东城区”、“昌平县”等行政区划名称;内容涉及到较具体的地名时也可标引地名,例如“王府井大街”、“方家胡同”等;如果文章中所反映的地区更详细,区(县)、街道(乡镇)、村等具体名称都有,可逐级进行标引,中间用分隔符隔开,如北京地方文献中的“顺义县%赵全营镇%北郎中村”;在标引中,遇到旧有的行政区划名称或旧地名时,为反映某一地区名称的历史发展沿革,应将现行行政区划名称与旧有行政区划名称同时标引作为检索点,现有行政区划名称或新地名标在前面, 旧行政区划名称或旧地名注于其后,可用括号括起。如“东城区(内三区)”。以上的标引方法主要是针对地方文献用户特定的检索需求而言。
年代主题标引的是文献内容所涉及的时间范围,而不是文献撰写或出版发行的时间。清以前的历朝历代均可使用“朝代%年号”的方法标引.如“清代%乾隆”,中华民国时期(1919年前)可标引成“民国时期”,到了1920年以后可以标引成“二十年代”、“六十年代”等。
团体主题和个人主题标引的是文章内容所涉及到某一具体机构、个人,或与某地方有关系的机构和个人。团体主题标引时,用机构和单位的标准全称,如“北京市中级人民法院”、“重庆市技术监督局”等;而个人主题的标引,是标具体人名,例如“梅兰芳”;如果遇到同一人物有本名与笔名时,要同时标引,如“鲁迅”与“周树人”、“老舍”与“舒舍予”之间可用符号“%”隔开;遇到清代人物或少数民族人物的名称较长时,一般应标引人物的全名,如“爱新觉罗·溥仪”。
总之,无论标引什么类型的主题词,标引人员都要站在用户的角度,即从索引的终极使用目的出发,给地方文献实际使用者提供有价值的地方文献信息。因此,在对报刊信息库进行主题标引过程中一定要确定好标引深度。地方文献报刊索引的标引深度,则取决于地方文献各类用户的检索需求。地方文献的研究级用户的检索需求包括:决策、管理人员宏观的检索需求、科研人员较专深的检索需求及设计生产人员的针对性检索需求等。
尽管采用数据库系统处理地方文献信息这一手段在全国各类图书馆的地方文献业务中开展得还不够普遍,但这是地方文献工作发展的必然趋势。结合地方文献本身的特点来制订适用的主题词表、分类表,是实现地方文献信息处理标准化的必要步骤。它可为今后进行联机检索,进入国家和地区网络,从而实现地方文献资源共享打下坚实的基础。同时,计算机多途径检索所产生的效果也会使地方文献信息资源得以更充分地研究与利用。
参考文献
1 韩朴.图书馆地方文献工作.北京:文津出版社,1992
2 中国科学技术情报研究所.北京图书馆.汉语主题词表.北京:科学技术文献出版社,1979