首页 优秀范文 神经网络文本分类

神经网络文本分类赏析八篇

发布时间:2023-09-21 16:52:54

序言:写作是分享个人见解和探索未知领域的桥梁,我们为您精选了8篇的神经网络文本分类样本,期待这些样本能够为您提供丰富的参考和启发,请尽情阅读。

神经网络文本分类

第1篇

Yi Wan,Luo Jing,Li Yong,Guo Shaoying (College of computer science and Information Engineering, Tianjin University of Science & Technology, Tianjin 300222, China) Abstract: According to user search history, the user information of interest by Title Classification, the auto-encoder neural network feature extraction value. Set the learning sample heading up to 25 Chinese characters, coding mode is adopted Chinese characters machine code (GBK code). Use the MATLAB tool for deep learning, will feature in the original space representation is transformed into a new feature space. Key words: Text feature; The auto-encoder neural network; Deep learning; Matlab

基于自编码神经网络建立搜索信息模型的目的是根据用户搜索信息的历史,推断出网页中的内容是用户关注的信息并即时显示。首先将用户关注的历史信息按标题分类,通过自编码神经网络建立标题特征值数据库。当自编码神经网络搜索信息模型工作时,按照用户提供的关键词顺序,打开用户经常浏览的网页,读入标题文本,若具有数据库中的标题特征,则将该标题的文本内容即时显示。

直接解析网页中的标题文本,面临的基本问题是文本的表示。如果把标题文本所有的词都作为特征项,那么太多的特征向量维数导致计算量太大。例如50个标题,每个标题25个汉字,特征项将有50×25=1250个。如果将标题中的某个关键词作为特征词,将会有几千个包含关键词的标题,从而导致读入分析量过于巨大。本文采用自编码神经网络,用映射变换的方法把原始文本特征变换为较少的新特征,提高信息搜索效率。

1 自编码神经网络

1.1 自编码神经网络理论

Auto-Encoder(自编码)[1],自编码算法是一种基于神经网络算法的无监督学习算法,与神经网络算法的不同之处是将输入值作为输出节点的输出。自编码算法的另一个特征是隐藏层节点的个数一般少于输入输出节点的个数。这样的意义是将输入的特征通过神经网络的非线性变换到节点数更少的隐藏层。因此,可以通过自编码神经网络对给定的样本进行训练学习,从而得到输入数据降维后的特征,即为隐藏层的节点数,省去了人工特征提取的麻烦。

自编码神经网络结构示意图如图1所示[2]。这是一种深度学习的神经网络,包含了多个隐含层,整个网络是一种对称的结构,中心层的神经元的个数最少。网络通过对样本的训练可以得到一组权值系数,而输入数据通过这组权值系数表达成低维形式,从而达到了用降维后的特征表示出输入的数据。

图1 自编码神经网络的结构

Fig.1 The structure of auto-encoder neural network

1.1.1 预训练

(1) 输入参数的确定:标题是作者给出的提示文章内容的短语,标题一般都简练、醒目,有不少缩略语,与报道的主要内容有着重要的联系。如登陆我的钢铁网站,搜索钢管热点资讯,显示的标题有“我国自主研制*****油管成功替代进口”,学习样本选择50组标题,每个标题不超过25个汉字,如表1所示。

表1 学习样本

Tab. 1 Learning samples

1

我国自主研制高端耐热钢无缝钢管成功替代进口

2

我国自主研制K55石油套管成功替代进口

3

我国自主研制J55稠油热采套管成功替代进口

4

我国自主研制专用耐高温防火船舶用套管成功替代进口

5

我国自主研制20G高压锅炉管成功替代进口

6

我国自主研制特殊用途低温用管成功替代进口

7

我国自主研制起重机臂架无缝钢管成功替代进口

8

我国自主研制精密合金4J36船用管材成功替代进口

9

我国自主研制高强韧性高抗挤毁套管成功替代进口

10

我国自主研制三种极限规格管线管成功替代进口

……

50

我国自主研制医药化工用管成功替代进口

(2) 语句预处理[3]:学习样本句子进行预处理是把句子中的每一个汉字变换成自编码神经网络模型能接受的数字化形式。为了使神经网络能接受外部数据,首先要对句子中的汉字进行编码,编码方式是采用汉字的计算机内码(GBK码)。每个汉字机内码有16位二进制,如:“我国自主研制”的二进制码为

1100111011010010 我(GBK码)

1011100111111010 国(GBK码)

1101011111010100 自(GBK码)

1101011011110111 主(GBK码)

1101000111010000 研(GBK码)

1101011011000110 制(GBK码)

将16位二进制数转换为十进制数并进行线性变换,映射到实数[0 1]之间,作为输入神经元初值。变换公式如下:

式中:maxi和mini;tmax和tmin分别为x(p)i,t(p)量程范围的最大值和最小值。

(3)预训练:几个独立的RBM构成“堆栈”构成了预训练部分,而RBM是BM (boltzmannmachine)的一种特殊连接方式。图2即为RBM的网络构成。它是一种隐含层神经元无连接,并且只有可见层和隐含层两层神经元。

图2 RBM网络构成

Fig. 2 Construction of restricted boltzmannmachine

BM的权值调整公式为[4]

(1)

式中:在第t步时神经元i、j间的连接权值为wij(t);η为学习速率;T为网络温度;<uihj>+、<uihj>-分别为正向平均关联和反向平均关联。

在RBM中,可见层神经元的输出和隐含层神经元输出的乘积即为平均关联。系数ε由η和T统一合并而成,迭代步长即由权值调整公式ε表示。

图3 RBM网络结构图

Fig. 3 RBM network structure diagram

(4)MATLAB实现:

本文建立的BP神经网络模型结构为

[25,15,25],[15,12,15],[12,10,12],[10,8,10],[8,5,8]

设定网络隐含层的激活函数为双曲正切S型函数tansig,输出层的激活函数为线性激活函数purelin,网络的训练函数为Levenberg-Marquardt算法训练函数trainlm。因此对应的MATLAB神经网络工具箱的程序语句为

net=newff(minmax(P),[25,25],{‘tansig’,’purelin’}, ’trainlm’);

net=newff(minmax(P),[15,15],{‘tansig’,’purelin’},’trainlm’);

net=newff(minmax(P),[12,12],{‘tansig’,’purelin’},’trainlm’);

net=newff(minmax(P),[10,10],{‘tansig’,’purelin’},’trainlm’);

net=newff(minmax(P),[8,8],{‘tansig’,’purelin’},’trainlm’);

设定学习速率为0.01,最大训练步数为300,目标误差为0.00001。

(5)预训练结果:

预训练结果如表2所示。

表2 预训练结果

Tab. 2 The results of pre training

误差

学习速率

步长

[25,15,25]

0.003248

0.01

150

[15,12,15]

0.0022809

0.01

125

[12,10,12]

0.0025866

0.01

100

[10,8,10]

0.0039575

0.01

75

[8,5,8]

0.013529

0.01

50

1.1.2 展开

如图4所示,将各个RBM连接,得到自编码神经网络。预训练所得到的权值,将作为整个自编码神经网络的初始权值,参与整个网络的微调训练。

图4 RBM展开图

Fig. 4 Development of RBM network structure

1.1.3 微调

微调训练是在预训练得到初始权值的基础上,对权值进一步调整。采用以交叉熵为目标函数[5]的BP算法完成网络的微调训练。交叉熵是用来度量两个概率分布间差异性的,它是一个非负数,两个分布越相似,其越小。原始的交叉熵定义为

(4)

式中:x为随机变量;q(x)为已知概率分布;p(x)为估计概率分布。

对于随机变量x,当用q(x)估计p(x)时,通过调整受x影响的p(x)来最小化交叉熵D(pq),用于自编码神经网络权值调整的BP算法交叉熵函数形式为

(5)

式中:ti目标概率分布;yi实际概率分布。

整个网络训练的目的是调整权值以使交叉熵函数达到最小,权值调整公式为

根据上面的权值调整公式,可以完成网络的微调训练。训练结果如表3所示。

表3 微调训练结果

1.1.4 特征提取

50组标题(每个标题不超过25个汉字)的学习训练,通过自编码网络的逐层特征变换,将样本数据约1250(50×25)个汉字编码,在原空间的特征表示变换到一个新特征空间。其中网络最深隐含层的输出值(5个)和权值矩阵W6(5×8=40个),共计45个,为提取标题文本1250个汉字编码的特征值。

2 实 例

本文选取10组标题文本见表4,分别输入自编码神经网络。预测结果表示基本符合要求。

表4 预测结果

Tab. 4 The prediction results

序号

样本输入

结果显示

1

我国自主研制的蛟龙号深水探测器成功替代进口

2

我国自主研制首台3.6万吨垂直挤压机挤合格钢管成功替代进口

我国自主研制首台3.6万吨垂直挤压机挤合格钢管成功替代进口

3

我国自主研制的超级计算机系统成功替代进口

4

我国自主研发的1000MPa高压共轨管成功替代进口

我国自主研发的1000MPa高压共轨管成功替代进口

5

我国自主研制超临界电站无缝钢管T92、P92成功替代进口

我国自主研制超临界电站无缝钢管T92、P92成功替代进口

6

我国自主研制重载火车头下线成功替代进口

7

我国自主研制成功特高压交、直流套管成功替代进口

我国自主研制成功特高压交、直流套管成功替代进口

8

我国自主研制的Q355GNH系列耐候钢成功替代进口

我国自主研制的Q355GNH系列耐候钢成功替代进口

9

我国自主研制的涡桨支线飞机成功替代进口

10

我国自主研制钒微合金L290管线钢成功替代进口

我国自主研制钒微合金L290管线钢成功替代进口

3 结 语

本文按照标题文本分类检索信息,解决了直接按照关键词搜索信息,网页中经常显示几千条包含关键词内容的标题本文,从而导致读入分析信息量过于巨大的问题。通过自编码神经网络提取文本特征,在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,简化计算,提高了文本处理的速度和效率。

第2篇

关键词:文本分类;支持向量机;核函数

中图分类号: TP391; TP18 文献标识码:B文章编号:1672-5913(2007)02-0072-04

支持向量机(Support Vector Machine,简称SVM)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。传统统计模式识别的方法都是在样本数目足够多的前提下进行研究,所提出的各种方法只有在样本数趋于无穷大时其性能才有理论上的保证,而在多数实际应用中,样本数目通常是有限的,很多传统方法都难以取得理想的效果。Vapnik等人早在20世纪60年代就开始研究有限样本情况下的机器学习问题。20世纪90年代,有限样本情况下的机器学习理论研究逐渐成熟起来,形成了一个较完善的理论体系――统计学习理论(Statistical Learning Theory)。1992年到1995年,在统计学习理论的基础上发展出了一种新的模式识别方法――支持向量机。随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。SVM是继k-近邻、神经网络、相素贝叶斯等方法之后被用于文本分类,并且是在Reuter语料(包括21450版本和Apte给出的集合)上能取得非常好的结果的文本分类算法之一。

本文重点研究SVM在两个不同的语料集上,选择不同的特征维数,采用四种不同的核函数的分类性能比较。实验结果表明,这种方法削弱了训练样本分布的不均匀性对分类性能的影响,可以将微平均准确率提高大约1%~2%。

本文第1节将阐述支持向量机算法的基本思想;第2节介绍目前广泛应用的三种核函数;第3节给出了在著名的英文语料集Reuters-21578上的实验结果与分析;第4节是结论和进一步工作展望。

1统计学习理论与支持向量机

统计学习理论就是研究小样本统计估计和预测的理论,具有很好的泛化能力,为解决有限样本学习问题提供了一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的问题(比如神经网络结构选择问题、局部极小点问题等);同时,在这一理论基础上发展了一种新的通用学习方法――支持向量机(SVM) 。

SVM是一种建立在统计学习理论基础上的机器学习方法,有较好的推广性能和较高的分类准确率。该算法基于结构风险最小化原理,将数据集合压缩到支持向量集合(通常为前者的3%~5%),学习得到分类决策函数。其基本思想是构造一个超平面作为决策平面,使正负模式之间的间隔最大。

SVM方法是从线性可分情况下的最优分类面提出的。如图1所示,圆圈和实心点分别代表两类的训练样本,H为把两类没有错误地分开的分类线,H1、H2分别为过各类样本中离分类线最近的点且平行于分类线的直线,H1和H2之间的距离叫做两转类的分类间隔(Margin)。支持向量与超平面之间的距离为1/ω,则支持向量间距为2/ω寻找超平面的问题,可化为求解以下二次规划问题:

3.3实验结果与分析

为了考察算法的效果,我们采用了VC++6.0实现本文算法,部分源代码采用复旦大学计算机与信息技术系李荣陆提供的文本分类器系统源代码。实验分为三个阶段。

表1、表2实验结果表明,不论是在英文语料集还是中文语料集,使用SVM分类系统均能达到较好的分类效果,而实验中采用多项式核函数和Sigmoid函数进行比较,经证明,在多数情况下前者优于后者。

4结束语

本文就文本分类的过程和关键技术进行了论述,并就不同核函数下文本分类的效果进行了实验验证,证明SVM是一种行之有效的文本分类方法。在今后的研究中,如何提高SVM算法的效率将是工作的重点。

参考文献:

[1] V. Vapnik. The nature of Statistical Learning Theory[J]. Springer, New York, 1995.

[2] Therson Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. In European Conference on Machine Learning(ECML)[J]. Springer,Berlin, 1998.

第3篇

关键词:自动分类;现状;类型;文档分类;方法

中图分类号:TP391文献标识码:A文章编号:1009-3044(2009)04-1020-02

自动分类技术是利用计算机系统对文本集按照一定的分类体系或标准进行自动类别标记,分类工具根据文档的信息将其分配到已经存在的类别中,也称“主题”。

随着网络的迅猛发展,网页、电子邮件、数据库、聊天室和数字图书馆等电子文本成几何级数不断增长,处理这些海量数据的一个重要方法就是将它们分类。当我们浏览一个网站查找信息时,如果网页凌乱的堆积在一起没有类别供我们查找,会使我们很难找到自己所需的信息。现在,大型网站都将网页分类,以方便人们浏览。比如,Yahoo就将网页放在一个巨大的层次分类结构中,通过组装维护这些类别,可以帮助人们查找知识和信息。网页自身并没有类型区分,这就需要人工分类,将网页、邮件等各种格式的文档经过文法分析都可以转化为纯文本,而自动文本分类系统可以帮助人们检查文本、判断文本所属类别。

1 自动分类技术的现状

到目前为止,国外已在自动分类领域进行了较为深入的研究。已经从最初的可行性基础研究经历了实验性研究进入实用阶段,并在邮件分类、电子会议、信息过滤等方面取得了较为广泛的应用[1]。

国内对自动分类技术的研究相对较晚。1986年,上海交通大学电脑应用技术研究所开发的中文科技文献(计算机类)实验性分类系统。1995年,清华大学电子工程系研制的汉语语料自动分类系统。1998年,东北大学计算机系的新闻语料汉语文本自动分类模型。1999年,由邹涛等人开发的中文技术文本分类系统CTDS。除此之外,国内众多学者对中文文本分类算法也进行了深入研究,黄萱箐等提出的基于机器学习的、独立于语种的文本分类模型[3],周永庚等研究的隐含语义索引在中文文本处理中的应用[4],李荣陆等的最大熵模型[5],张剑等提出的一种以WordNet语言本体库为基础,建立文本的概念向量空间模型作为文本特征向量的特征提取方法[6],朱靖波等将领域知识引入文本分类,利用领域知识作为文本特征,提出一种基于知识的文本分类方法等[7]。

从20世纪90年代以来,基于机器学习的文本分类逐渐成为文本分类的主流技术。近年来文本分类技术取得了很大的进展,提出了多种特征抽取方法和分类方法,如回归模型、支持向量机、最大熵模型等,建立了OHSUMED,Reuters等开放的分类语料库。

2 自动分类技术的类型

根据目的性,信息自动分类包括自动聚类和自动归类两种类型。

2.1 自动聚类

由计算机系统对待分类文本进行分析并提取有关的特征,然后对提取的特征进行比较,根据一定规则将具有相同或相近特征的对象定义为一类。自动聚类的目的是在已有信息中定义符合实际情况的类。在网站的非主要分类体系中,也可以用自动聚类的方法自动生成栏目内的类别。

2.2 自动归类

计算机系统对分类文本提取有关特征,然后与既定分类系统中对象所具有的公共特征进行相关性比较。将对象归入其特征最相近的类中。自动归类的目的是把各种信息纳入已建立的分类系统中,用于搜索引擎或网站导航系统的管理和数据更新。根据使用的技术,自动归类通常分为基于词的自动分类(词典法)和基于专家系统的自动分类(知识法)两大类,也有人将界于两种技术之间的称为基于信息的自动分类。

3 文档分类关键技术分类及方法

现有的文本分类技术主要采用3 种方法:基于连接的方法、基于规则的方法和基于统计的方法。

3.1 基于连接的文本分类方法

基于连接的方法主要是利用人工神经网络来模拟人脑神经网络,并期望其能像大脑一样地运作,一样地学习,从而产生智慧。这种方法可以实现信息的分布存取,运算的全局并行,并且可在进行非线性处理的同时具有高容错性等特点,适用于学习一个复杂的非线性映射。但是使用他学习所形成的知识结构是人所难以理解的,系统本身也不具有良好的透明性。

3.2 基于规则的文本分类方法

基于规则的方法本质上是一种确定性的演绎推理方法。其优点在于他能根据上下文对确定性事件进行定性描述,并且能充分利用现有的语言学成果。其成立的前提是有大量的知识,而这些知识必须是人类专家总结出来的。由于必须有人的参与,这种方法侧重于知识的可理解性和可读性,对于有些统计方法无法解决的问题,利用基于规则的方法可以很容易地解决。但是,这种方法在不确定性事件的描述、规则之间的相容性等方面存在一些缺陷和限制。常用的基于规则的方法有决策树、关联规则等。

3.3 基于统计的文本分类方法

基于统计的方法本质上是一种非确定性的定量推理方法。基于统计的方法的优势在于他的全部知识是通过对大规模语料库分析得到的,可以取得很好的一致性和非常高的覆盖率,对语言处理提供了比较客观的数据依据和可靠的质量保证。但由于其是基于概率的一种方法,因此必然会对小类别文本即小概率事件造成忽视。常用的基于统计的方法有KNN、朴素贝叶斯、类中心向量、回归模型、支持向量机、最大熵模型等。

3.4 经典文本分类方法

3.4.1 KNN算法

KNN算法即k- Nearest Neighbor 分类方法,是一种稳定而有效的文本分类方法。采用KNN 方法进行文档分类的过程如下:对于某一给定的测试文档d,在训练集中,通过相似度找到与之最相似的k个训练文档。在此基础上,给每个文档类打分,分值为k个训练文档中属于该类的文档与测试文档之间的相似度之和。也就是说, 如果在这k个文档中,有多个文档属于一个类,则该类的分值为这些文档与测试文档之间的相似度之和。对这k个文档所属类的分值统计完毕后,即按分值进行排序。还应当选定一个阈值,只有分值超过阈值的类才予考虑。测试文档属于超过阈值的所有类。形式化表示为:

■(1)

其中,dj∈ci时y(dj,ci)=1;dj?埸ci时y(dj,ci) 。

bi为阈值,Sim(d,dj)为文档d和dj的相似度,score(d,ci)为测试文档d属于ci类的分值。一般的,bi是一个有待优化的值可以通过一个验证文档集来进行调整。验证文档集是训练文档集的一部分,根据公式(1)可确定测试文档的类别。很显然,对于每一个测试文档,必须求解其和训练文档库中所有文档的相似度。因此, KNN方法的时间复杂度为o(|D|ni)。其中,|D|和ni分别为训练文档总数和测试文档总数。

3.4.2 SVM

支持向量机(Support Vector Machine,SVM)是在统计学习理的基础上发展而来的一种机器学习方法, 该模型是基于结构风险最小化原理的方法,把原始数据集合压缩为支持向量集合,其基本思想是构造出一个超平面作为决策平面,使正负模式之间的空白为最大化。在解决小样本、非线性及高维模式识别问题中SVM表现出了许多特有的优势, 并在很大领域得到了成功的应用,如:人脸识别、手写字体识别、文本分类等。其中,SVM在文本分类方面的表现尤为突出。

SVM 的基本思想可用图1的两维情况进行说明。图1中,圆形实心点和菱形实心点代表2类样本,H为分类线,H1,H2分别为过各类中离分类线最近的样本且平行于分类线的直线,他们之间的距离叫做分类间隔。所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大。分类线方程为:

x・w+b=0

在此可以对他进行归一化,使得对线性可分的样本集:

(xi,yi),i=1,…,n,x∈R4,y∈{+1,-1}

满足:yi[(w.xi)+b]-1≥0 i=1,2,…n

此时分类间隔等于2/w, 使间隔最大等价于使w2最小。满足式且使间距为w/2的分类面就叫做最优分类面, H1 , H2上的训练样本点就称作支持向量。

基本的SVM是针对两类分类问题的,为了实现对多个类别的识别,需要对SVM进行扩展。常用的SVM多类分类方法有One-vs-Res, One-vs-One,ECOC( Error Correcting Output Coding)、DAGSVM和二叉树等方法。实验结果表明DAGSVM 方法要优于其他2 种方法。Weston和Watkins[2]对SVM的理论进行了扩充,使其一次就可以完成多类分类,但是实验结果显示其分类查准率要低于One-vs-Rest 和One-vs-One方法。

4 技术的发展趋势与展望

本文介绍了文本分类的研究背景,国内外关于文本分类技术研究的最新动态,总结了近年来文本分类研究的关键技术。文本分类技术有着广泛的应用,逐渐趋于实用。

但随着自动分类技术相关应用的发展,及对其需求的不断提升,文本分类技术仍有非常多的问题值得研究:可靠、有效及快速的在线分类;基于语义度量的数据模型和分类方法;缓解样本标注瓶颈以及样本数据分布带来的影响等。随着数据挖掘领域和机器学习理论、技术研究的不断深入, 针对解决不同实际应用和数据特征的问题将成为文本分类相关研究,及其应用的主要突破方向和攻克难点。

参考文献:

[1] 李荣陆.文本分类及相关技术研究[D].上海:复旦大学,2005.

[2] 李应红.慰询楷. 刘建勋.支持向量机的工程应用[M].北京:兵器工业出版社,2004.

[3] 黄萱菁,吴立德,石崎洋之,等. 独立于语种的文本分类方法[J].中文信息学报,2000,14(6):1-7.

[4] 周水庚,关佶红,胡运发. 隐含语义索引及其在中文文本处理中的应用研究[J].小型微型计算机系统,2001,22(2):239-244.

[5] 李荣陆,王建会,陈晓云,胡运发等. 使用最大熵模型进行中文文本分类[J].计算机研究与发展.2005,42(1):94-101.

[6] 张剑,李春平. 基于WordNet概念空间模型的文本分类[J].计算机工程与应用.2006(4):174-178.

第4篇

[关键词]中文分词 分词算法 歧义消除 未登录词 分词系统

[分类号]G354

中文分词是文本分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理中的关键技术及难点。经过广大学者共同努力,过去2D多年中文分词取得可喜进步,黄昌宁、赵海…在四方面总结了取得的成绩。笔者利用CNKI全文期刊数据库,以“中文and分词”、“汉语and分词”、“自动and分词”等为检索条件,检索时段为1987年1月1日~2010年9月1l日,进行篇名检索,经筛选分别得到相关研究论文214、191、165篇,通过文献归纳总结出该领域研究现状、研究内容、研究热点与难点,并展望其发展。

1 中文分词基础理论研究

中文分词理论研究可归结为:三种主要分词算法及组合算法研究、中文分词歧义消除、未登录词识别与分词与词性标注评测研究。

1.1 分词算法研究

衡量分词算法优劣标准是分词速度与精度,各种算法围绕精度与速度展开。目前分词算法很多,大致可归纳为:词典分词方法、理解分词方法、统计分词方法、组合分词算法。

1.1.1 词典分词方法

・算法。词典分词方法按照一定策略将待分析汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,该方法需要确定三个要素:词典、扫描方向、匹配原则。比较成熟的几种词典分词方法有:正向最大匹配法、逆向最大匹配法、双向最大匹配法、最少切分等。实际分词系统,都是把词典分词作为一种初分手段,再通过各种其他的语言信息进一步提高切分的准确率。

词典分词方法包含两个核心内容:分词算法与词典结构,算法设计可从以下几方面展开:①字典结构改进;②改进扫描方式;③将词典中的可按由长到短递减顺序逐字搜索整个待处理材料,一直到分出全部词为止。

・词典结构。同典结构是词典分词算法关键技术,直接影响分词算法的性能。三个因素影响词典性能:①词查询速度;②词典空间利用率;③词典维护性能。Hash表是设计词典结构常用方式,先对GB2312~1980中的汉字排序(即建立Hash表),然后将其后继词(包括词的属性等信息)放在相应的词库表中。

孙茂松等设计并实验考察了三种典型的分词词典机制:整词二分、TRIE索引树及逐字二分,着重比较它们的时间、空间效率。姚兴山提出首字Hash表、词次字Hash表、词次字结构、词3字Hash表、词3字结构、词4字Hash表、词4字结构、词索引表和词典正文的词典结构,该结构提高查询速度,但增大存储开销。陈桂林等介绍了一种高效的中文电子词表数据结构,它支持首字Hash和标准的二分查找,且不限词条长度,并给出利用近邻匹配方法来查找多字词,提高了分词效率。目前文献看,围绕词典结构提高分词性能的主流思想是设计Hash表,表数目随结构不同而不同,数目越多,空间开销越大,但查询速度也相应提高,具体设计需要在时间与空间之间权衡。

1.1.2 理解分词方法 基本思想是分词同时进行句法、语义分析;利用句法信息和语义信息来处理歧义现象,理解分词方法需要使用大量语言知识和信息。

・人工智能技术。人工智能技术主要包括专家系统、神经网络和生成一测试法三种。分词专家系统能充分利用词法知识、句法知识、语义知识和语用知识进行逻辑推理,实现对歧义字段的有效切分。何克抗等深入分析了歧义切分字段产生的根源和性质,把歧义字段从性质上划分为四类,并给出消除每一类歧义切分字段的有效方法。王彩荣设计了一个分词专家系统的框架:将自动分词过程看作是基于知识的逻辑推理过程,用知识推理与语法分析替代传统的“词典匹配分词+歧义校正的过程。”神经网络摸拟人脑神经元工作机理设计,将分词知识所分散隐式的方法存入神经网内部,通过自学习和训练修改内部权值,以达到正确的分词结果。林亚平、尹锋利等用BP神经网络设计了一个分词系统,进行大量仿真实验,取得不错分词效果。

采用神经网络与专家系统的人工智能分词算法与其他方法相比具有如下特点:①知识的处理机制为动态演化过程;②字词或抽象概念与输入方式对应,切分方式与输出模型对应;③能较好地适应不断变化的语言现象,包括结构的自组织和词语的自学习;④新知识的增加对系统处理速度影响不大,这与一般机械匹配式分词方法有很大区别;⑤有助于利用句法信息和语义信息来处理歧义现象,提高理解分词的效果。作为智能分词技术的一种探讨,将神经网络与专家系统思想引入中文分词,是一种有益尝试,为后续智能自动分词技术取得更多进展打下良好基础。

黄祥喜提出“生成一测试”法,通过词典的动态化、分词知识的分布化、分词系统和句法语义系统的协同工作等手段实现词链的有效切分和汉语句子切分与理解的并行。该方法具有通用性,实现容易,分词和理解能力强。

由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

・统计模型技术。苏菲等提出基于规则统计模型的消歧方法和识别未登录词的词加权算法,通过词频统计、加权技术与正向逆向最大匹配进行消歧与未登录词识别。张茂元等提出基于马尔可夫链的语境中文切分理论,进而提出一种语境中文分词方法,该方法建立在词法和句法基础上,从语境角度分析歧义字段,提高分词准确率。

1.1.3 统计分词方法 统计方法思想基础是:词是稳定的汉字的组合,在上下文中汉字与汉字相邻共现的概率能够较好地反映成同的可信度。因此对语料中相邻共现的汉字的组合频度进行统计,计算他们的统计信息并作为分词的依据。常用统计量有如词频、互信息、t-测试差,相关分词模型有最大概率分词模型、最大熵分词模型、N-Gram元分词模型、有向图模型等。孙茂松等提出了一种利用句内相邻字之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法,并进一步提出将两者线性霍加的新的统计量md,并引入“峰”和“谷”的概念,设计了一种无词表的自动分词算法。王思力等提出一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法。孙晓、黄德根提出基于最长次长匹配的方法建立汉语切分路径有向图,将汉语自动分词转换为在有向图中选择正确的切分路径。

三种主流方法各有优缺点,其具体比较见表1。

1.1.4 组合方法 单个方法有优点,但也存在不足,

实际分词算法设计时需要组合几种方法,利用各自优点,克服不足,以更好解决分词难题。

・字典与统计组合。翟凤文等提出了一种字典与统计相结合的分词方法,首先利用字典分同方法进行第一步处理,然后利用统计方法处理第一步所产生的歧义问题和未登录词问题。该算法通过改进字典的存储结构,提高了字典匹配的速度;通过统计和规则相结合提高交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题。

・分词与词性标注组合。词性标注是指对库内语篇中所有的单词根据其语法作用加注词性标记。将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。白拴虎将自动分词和基于隐马尔可夫链的词性自动标注技术结合起来,利用人工标注语料库中提取出的词性二元统计规律来消解切分歧义。佟晓筠等设计N-最短路径自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和同性标注之后,从这N个最有潜力的候选结果中选优得到。姜涛等对Kit提出基于实例的中文分词一词性标注模型,通过理论上定性分析和实验证明得出如下优点:①对于训练语料相关的文本(即与训练语料相同、相似或同领域的文本),EBST系统的分词一词性标注结果具有极高的准确率;②EBST系统的分词一词性标注结果与训练语料中的分词一词性标注具有很好的一致性。

1.2 歧义消除研究

1.2.1 歧义类型 歧义是指同一个字符串存在不止一种切分形式。歧义字段分为交集型歧义字段(交叉歧义)、组合型歧义字段(覆盖歧义)两种。据统计交叉歧义字段占到了总歧义字段的86%,所以解决交叉歧义字段是分词要解决的重点与难点。

1.2.2 消歧方法 目前解决歧义消除的典型方法有:

・穷举法。找出待分析字串所有可能的词,该方法简单,但时间开销大,实用性不强。多数时候采用双向匹配算法,正向匹配结果与逆向匹配结果一致,分词正确,否则分词有歧义。

・联想一回溯法。李国臣等提出联想一回溯法,先将待切分的汉字符号串序列依特征词词库分割为若干子串,每个子串或为词或为词群(几个词组合而成的线性序列),然后利用实词词库和规则库再将词群细分为词。分词时,利用了一定语法知识。联想和回溯机制同时作用于分割和细分两个阶段,旨在有效解决歧义组合结构的切分问题。

・词性标注。白拴虎利用马尔可夫链的词性标注技术结合分词算法消解切分歧义,其他学者也有类似成果出现。

・EM(Expectation Maximization)法。王伟等提出基于EM思想,每个句子所对应的所有(或一定范围内)的分词结果构成训练集,通过这个训练集和初始的语言模型可以估计出一个新的语言模型,最终的语言模型通过多次迭代而得到。EM是极大似然原则下的建模方法,存在过度拟合问题。

・短语匹配与语义规则法。姚继伟、赵东范在短语结构文法的基础上,提出一种基于局部单一短语匹配和语义规则相结合的消歧方法。通过增加短语问的右嵌套规则和采用有限自动机的实现方式,解决了短语规则中存在冗余项的问题,提高了短语匹配效率和歧义消除类型的针对性。

1.3 未登录词研究

1.3.1 未登录词类型 未登录词大致包含两大类:①新涌现的通用词或专业术语等;②专有名词,如中国人名、外国译名、地名、机构名(泛指机关、团体和其他企事业单位)等。未登录词识别指正确识别未在词典中出现的词,未登录词出现极大影响了分词的精度,如何解决未登录词识别问题成为分词准确性的一大难题。

1.3.2 未登录词识别 识别第一类未登录词一般是先根据某种算法自动生成一张候选词表(无监督的机器学习策略),再人工筛选出其中的新词并补充到词表中。该方法需要大规模语料库支持。第二种常用办法是:首先依据从各类专有名词库中总结出的统计知识(如姓氏用字及其频度)和人工归纳出的专有名词的某些结构规则,在输入句子中猜测可能成为专有名词的汉字串并给出其置信度,之后利用对该类专有名词有标识意义的紧邻上下文信息如称谓,以及全局统计量和局部统计量参见下文,进行进一步鉴定。

归纳起来,未登录词解决方案有两大类:专用方法与通用方法。专用方法主要针对特定领域的未登录词如中文人名、中文地名、中文机构名等识别,此类方法主要基于专有词库与规则展开。通用方法则重在解决所有类别的未登录词识别问题,前面列举的机械分词、理解分词、统计分词方法就是一种通用方法。

・专有名词库。对中文人名、地名、机构名等分别建立词库,该方法需要搜集特定资源并制定特定算法,信息集成难度大。

・启发式规则。通过前后缀的修饰词发现人名等未登录词。如“先生张三”,前面“先生”就是一个特定的修饰词,一般后面紧接着是人名。郑家恒将中文姓氏用字进行归类,并利用分类信息建立规则以识别“小张”、“老李”之类的人名,并且有效地区分出“张”“李”等字的量词用法。

・通用解决方案。不针对特定的未登录词设计算法,适用于各种类型的未登录词。前述三种主流分词及组合算法则属于通用解决方案。另外,吕雅娟等对中同人名、中国地名、外国译名进行整体识别为目标,采用分解处理策略降低了整体处理难度,并使用动态规划方法实现了最佳路径的搜索,较好地解决了未登录词之间的冲突问题。秦文、苑春法提出了决策树的未登录词识别方法,适用各种未登录词识别。

1.4 分词与词性标注评测

各种算法优劣需要在真实文本上以较大规模、客观、定量的方式进行公开公正评测,它是推动中文信息处理研究的重要手段。杨尔弘等介绍了2003年“863中文与接口技术”汉语自动分词与词性标注一体化评测内容、评测方法、测试试题的选择与产生、测试指标以及测试结果,各种测试结果以精确率、召回率、F值度量,并对参评系统的切分和标注错误进行了总结。

2 分词系统研究

中文分词系统是利用计算机对中文文本进行词语自动识别的系统。一个高效的、性能优良的中文分词系统应该具备几个基本要素:分词精度、分词速度、系统可维护性、通用性、适应性。基于分词系统特点,将分词系统研究分为早期自动分词系统与现代分词系统研究两部分。

2.1 早期自动分词系统

20世纪80年代初有学者开始研究自动分词系统,陆续有一些实用性系统出现。典型的有:CDWS分词系统、汉语自动分词系统-NEWS L321、书面汉语自动分词专家系统等。由于受硬件条件及分词技术影响,早期分词实用系统在分词速度与精度上还不够理想,实用性不高。但这些实用分词系统的出现为后续分词系统设计打下了良好基础。

2.2 现代分词系统

2.2.1 中国科学院计算所汉语词法分析系统 ICT-CLAS ICTCLAS(Institute of Computing Technology.Chinese Lexical Analysis System)是中国科学院计算技术研究所研制,主要功能包括中文分词,词性标注,命名实体识别,新词识别;支持用户同典,繁体中文,GBK、UTF-8、UTF-7、UNICODE等多种编码格式。目前ICTCLAS3.0分词速度单机为996KB/s,分词精度为98.45%,AP[不超过200KB,各种渊典数据压缩后不到3M。

2.2.2 海量智能分词研究版 海量智能分词系统较好地解决了分词领域中的两大技术难题:歧义切分和新词的识别,分词准确率达到99.6%,分同效率为2000万字/分钟。其中组合歧义的处理一直是分词领域的难点中的难点,海量分词系统能对绝大多数的组合歧义进行正确的切分。在新词的识别上,针对不同类型采用不同识别算法,其中包括对人名、音译词、机构团体名称、数量词等新同的识别,其准确率比较高。

由于计算机硬件技术的大幅提升,分词技术的逐步成熟,现在分词系统在歧义消除、未登录词识别方面取得较大进展,分词速度与精度明显提高,实际性越来越强,为中文信息处理带来极大方便。

第5篇

关键词:Web挖掘;文本分类;粮食舆情;舆情分析

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)10-2426-03

粮食是人类生存之本,粮食安全问题已经成为世界范围内关注的最重要的问题之一。粮食信息数据量大、市场供求信息不明确、技术保障不到位等因素对我国粮食安全敲响了警钟。2009年初中国爆发了几十年来最严重的一场旱灾,国内市场充斥着粮食供应可能趋紧并有可能大量进口粮油产品,以及全球粮油价格将由中国的大量进口而出现暴涨等网络言论并造成了一定的影响。

因此如何引入新的技术手段对粮食情报信息实现有效监管,如何在海量的粮食网络资源信息中,快速有效地挖掘蕴含有巨大潜在价值的粮情知识和信息,同时过滤掉大量无用的或不相关的粮情内容,准确地定位所需要的信息并自动分类,以保证粮食安全,已成为一项重要而迫切的研究课题。该文就基于Web挖掘在粮食情报分析中的应用进行了一些讨论,并提出了一个基于Web挖掘的粮食舆情分析系统的框架。

1 粮食舆情系统模型设计

1.1 Web挖掘简介和粮食舆情分析难点

Web挖掘是从大量Web文档集D中发现隐含的模式W。如果将D看作输入,P看作输出,则Web文本挖掘的过程可看作从输入到输出的映射,即F:CP。网络舆情是公众利用互联网表达或传播的对热点事件和问题的看法和所持观点的较有社会影响力的态度。利用Web挖掘技术进行主题追踪的舆情分析成为近年研究的热点。任海果研究了主题事件的追踪技术,实现了对热点事件的发现、演化和趋势分析[1]。Federico Neri等研究了1000个关于意大利公共广播服务意见的Facebook网贴,得到了观众关注度和兴趣度,并在开源情报信息和Web挖掘中得到应用[2]。Wang等利用垂直搜索技术收集互联网上关于食品质量和安全的网络信息,搭建了食品安全的网络舆情分析系统,满足了对食品安全网络舆情的有效监管[3]。但由于粮食信息的特殊性和复杂性[4],使得粮食舆情信息的采集不够全面,现有分析系统的分析不够深入,总体来说粮食网络舆情挖掘扔存在着一下难点:

1) 粮食舆情影响因素复杂。粮食舆情受多种因数的影响,和粮食直接相关的有粮食产量、销售价格、产地、供求关系等因数,此外还有气象条件、病虫害的等间接影响着粮食安全,目前对粮食安全因素的挖掘不够全面。

2) 粮食舆情信息的存储位置和方式复杂,没有统一的系统来采集各种形式的粮食信息。如粮食产业信息资源,如灾害史、产量信息、气象条件等,并发存储在各家统计机构、管理机构、经营机构的网络环境中,并且没有统一的数据表示形式,没有开发出联合采集各家机构和组织中粮食数据的采集或者存储方法和策略,不利于粮食舆情信息的整合和关联分析。

3) 粮食舆情信息牵涉面广,没有融合各方面信息处理方面的优势。在粮食信息处理方面,没有实现统计学、模式识别、人工智能以及人工神经网络等多种分析方法融合的决策策略。

4) 没有提出预测和预防模型。现在的网络舆情分析往往注重于热点的发现,没有为热点事件建立等级级别区分管理和提供预防,同时对于发现的灾难事件,没有定量的分析灾害危害的严重程度和预警级别。

利于舆情分析技术实现对粮食舆情信息的监控和管理成为一项紧迫的课题。为了解决以上问题,该文设计了一个粮食舆情分析架构模型。

1.2.2 舆情信息预处理模块

舆情信息预处理模块的主要功能是:对采集到的相关网页进行去噪处理,如对广告、注释等噪声数据进行清理,然后用统一的结构化的格式进行文本表示,然后利用分词技术、特征提取技术、权重计算技术等进行特征选择,构建粮食数据仓库,利用分类器实现文本的分类。文本分类技术是整个预处理模块的核心,其步骤描述如下:

本模型主要包括以下三个方面功能:

第一、通过对粮食舆情主题检测进行热点、敏感信息的发现,并针对特定的粮食安全主体,如粮食价格、供求关系、气象条件等各个主题跟踪技术处理,同时设计融合各方面因素的分析策略,及时发现安全隐患,并提供预警信息。

第二、对特定粮食安全事件的公众所持观点和关注度的分析,掌握事件发生、发展和加强的可视化时间序列,开发基于区域性舆情的分别汇总,提供实时的空间和时间的网络舆情趋势信息保障,有利于决策者实施适当的措施。

第三、利用灾害预测、分析和预防的决策系统,对多发性的、危害严重的灾害构建主动分析、及早预测和及时预警的机制,提供相关、相近主题的预防措施经验。同时针对灾害引起的其他方面的问题进行关联分析,比如旱灾有可能引起局部供求关系失衡,灾害的严重性导致价格波动的范围等建立定量的数据分析方法发现彼此存在的联系。

2 结论

利用Web挖掘技术实现对粮食信息的监测,有利于充分海量的粮食网络信息资源,能够及时发现粮食热点事件,为粮食安全提供预警服务。该文着重分析了当前粮食方面舆情分析系统存在的不足,提出了解决方案,构造了一个较完善的粮食舆情分析架构。通过各种算法的编码和改进,实现本文所构建的系统是进一步研究的方向。

参考文献:

[1] 任海果. 基于主题事件的舆情分析系统的设计与实现[D].北京:北京邮电大学,2012.

[2 ] Neri F, Aliprandi C,Capeci F,et al. Sentiment Analysis on Social Media[C]. Istanbul, Turke:Advances in Social Networks Analysis and Mining,2012:919-926.

[3]Wang Su, Liang Meiyu, Gao Tian and Du Junping. Realization of Product Quality and Food Security Internet Public Opinion Supervision System[C]. Jinan, China:Proceedings of the 8th World Congress on Intelligent Control and Automation, 2010:2736-2739.

[4] 龙方. 新世纪中国粮食安全问题研究[J]. 湖南农业大学学报:社会科学版,2007 (3):7-14.

[5] 孙立伟,何国辉,吴礼发. 网络爬虫技术的研究[J]. 电脑知识与技术,2010(15):4112-4115.

第6篇

手语的识别不但具有深远的研究意义,而且具有广阔的实际应用前景,至少表现在以下几个方面:(1)能够使得聋哑人,尤其是使得文件程度比较低的聋哑人,使用手语和正常人交流;(2)从认知科学的角度,研究人的视觉语言理解的机制,提高计算机对人类语言的理解水平;(3)利用手势控制VR中的智能化;(4)机器人的示范学习;(5)虚拟现实系统中的多模式接口等。

从手语输入设备来看,手语识别系统主要分为基于数据手套的识别和基于视觉(图像)的手语识别系统。基于数据手套的手语识别系统,是利用数据手套和位置跟踪测量手势在空间运动的轨迹和时序信息。这种方法的优点是系统的识别率高。缺点是打手语的人要穿戴复杂的数据手套和位置跟踪器,并且输入设备比较昂贵。利用数据手套等典型传感设备的方法,台湾大学的Liang等人利用单个VPL数据手套作为手语输入设备,可识别台湾手语课本中的250个基本词条,识别率为90.5%。CMU的ChristopherLee和Xu在1995年完成了一个操纵机器人的手势控制系统。Kadous用PowerGloves作为手语输入设备,识别有95个孤立词构成的词汇集,正确率为80%。基于视觉的手势识别是利用摄像机采集手势信息,并进行识别。该方法的优点是输入设备比较便宜,但识别率比较底,实时性较差,特别是很难用于大词汇量的手语录的识别。在基于视觉的方法方面,具有代表性的研究成果包括:1991年富士通实验室完成了对46个手语符号的识别工作。Davis和Shah将戴上指间具有高亮标记的视觉手套的手势作为系统的输入,可识别7种手势。Starner等在对美国手语中带有词性的40个词汇随机组成短句子识别率达到99.2%。Grobel和Assam从视频录像中是取特征,采用HMM技术识别262个孤立词,正确率为91.3%。此外,Vogler与Metaxas将两种方法结合用于美国手语识别,交互采用一个位置跟踪器及三个互相垂直的摄像机作为手势输入设备,完成了53个孤立词的识别,识别率为89.9%。

从识别技术来看,以往手语识别系统主要采用基于人工神经网络(ANN)及基于隐Markov模型(HMM)等方法。神经网络方法具有分类特性及抗干扰性,然而由于其处理时间序列的能力不强,目前广泛用于静态手势的识别。著名的Fels的GloveTalk系统采用神经网络方法作为识别技术。对于分析区间内的手语信号,通常采取HMM方法进行模型化。HMM是众周知并广泛使用的统计方法,一般拓扑结构下的HMM具有非常强的描述手语信号的时空变化能力,在动态手势识别领域一直占有主导地址,如卡内基·梅隆大学的美国手语识别系统及台湾大学的台湾手语识别系统等均采用HMM作为系统的识别技术。另外,Grobel与Assam利用HMM识别由戴有色手套的用户通过摄像机输入的262个孤立手语词,正确率为91.3%。然而正是由于HMM拓扑结构的一般性,导致这种模型在分析手语信号时过于复杂,使得HMM训练和识别计算量过大。尤其是在连续的HMM中,由于需要计算大量的状态概率密度,需要估计的参数个数较多,使得训练及识别的速度相对较慢。因而以往手语识别系统所采用的HMM一般为离散HMM。

在我国,哈尔滨工业大学的吴江琴、高文等给出了ANN与HMM的混合方法作为手语的训练识别方法,以增加识别方法的分类特性和减少模型的估计参数的个数。将ANN-HMM混合方法应用于有18个传感器的CyberGlove型号数据手套的中国手语识别系统中,孤立词识别率为90%,简单语句级识别率为92%。接下来高文等又选取Cyberglove型号数据手套作为手语输入设备,并采用了DGMM(dynamicGaussianmixturemodel)作为系统的识别技术,即利用一个随时间变化的具有M个分量的混合GaussianN-元混合密度来模型化手语信号,可识别中国手语字典中274个词条,识别率为98.2%。与基于HMM的识别系统比较,这种模型的识别精度与HMM模型的识别精度相当,其训练和识别速度比HMM的训练与识别速度有明显的改善。他们为了进一步提高识别速度,识别模块中选取了多层识别器,可识别中国手语字典中的274个词条,识别率为97.4%。与基于单个DGMM的识别系统比较,这种模型的识别精度与单个DGMM模型的识别精度基本相同,但其识别速度比单个DGMM的识别速度有明显的提高。2000年在国际上他们首次实现了5000词以上的连续中国手语识别系统。另外,清华大学祝远新、徐光等给出了一种基于视觉的动态孤立手势识别技术,借助于图像运动的变阶参数模型和鲁棒回归分析,提出一种基于运动分割的图像运动估计方法。基于图像运动参数,构造了两种表现变化模型分别作为手势的表现特征,利用最大最小优化算法来创建手势参考模板,并利用基于模板的分类技术进行识别。对12种手势的识别率超过90%。在进一步研究中,他们又给出了有关连续动态手势的识别,融合手势运动信息和皮肤颜色信息,进行复杂背景下的手势分割;通过结合手势的时序信息、运动表现及形状表现,提出动态手势的时空表现模型,并提出基于颜色、运行以及形状等多模式信息的分层融合策略抽取时空表观模型的参数。最后,提出动态时空规整算法用于手势识别。对12种手势,平均识别率高达97%。

尽管已经实现了一些手语识别系统,但中国手语识别仍然面临许多挑占性课题,如手势不变特征的提取、手势之间的过度模型、手语识别的最小识别基于、自动分割识别基元、词汇量可扩展的

识别方法、手语识别的辅助信息、非特定人的手语识别问题、混合手指语和手势语的手语识别以及中国手势语语法等。

2手语的合成

手语的合成是使聋哑人理解正常语言表达的最有效手段,在手语合成中涉及以下几个方面的问题:本文输入部分、文本切分部分、文本的分析与手语码转换、手语库的建立与基于手语词的手语合成和手语的显示。

文本输入部分的功能是编辑输入汉语句子。文本的切分将句子分成词,标点符合单独成词。系统的分词过程首先采用最大匹配发切分,然后利用第一步分词结果通过查找词条的歧义标志位调用词规则,进而进行歧义校正。文本分析与手语码转换是手语合成的重要部分。虽然中国手语是参考汉语制定的,但是两种语言的差别主要体现在四个方面:语言表达形态、基本词汇、句子结构和构词方法。在语言表达形态上:汉语是靠语音/听觉交际的有声语言。中国手语是一种靠动作/视觉交际的可视化语言。在基本词汇上:汉语的词汇大约有近五万多个字组成,总的词汇量可达十万多个。中国手语的词汇仅由3330个手势语组成。中国手语的手势词语与汉语的词语不完全存在一一对应的关系。在句子的语法结构上:手语句子与汉语句子的词序有所不同,此外还省略了日常语言的某些词如量词。因此从汉语转换到中国手语,主要解决的基本词汇上的差别,同时考虑部分词汇的差别。手语词库记录了每个手语词的手语运动信息,是手语合成的重要基础。建立手语词库不仅工作量大,而且其质量也直接影响合成手语的结果。目前建立手语词库的方法有两种:运动跟踪方法和手工编辑方法。也有人综合使用这两种方式。运动跟踪的方法是对腕关节及各手指关节的运动由数据手套获取,肩关节与肘关节的运动由位置跟踪传感器获取。而手工的方法是通过手工实验来获取手势的参数。手语是一种可视语言,合成的手语只有显示出来,观察者才能“读”取手语的信息与意义。手语的合成与显示的实现的方法是:在VRML中有一部分是专门用于描述三维人体模型H-Anim标准,根据此标准对虚拟人的定义,一个虚人有47关节96个自由度,只要确定这96个自由度的角度值,应用运动学的方法和计算机图形学的方法,就可以计算出虚拟人每个肢体的位置和方向,由此确定虚拟人的一个姿态。一个手语运动是一个人体手势的序列,按照预定的时间间隔连续显示一个手语运动中的每一个手势,既可以生成对应的手语运动。

3手语的网络通讯

当今,网络通讯已经成为一种重要的通讯手段。研究哑语通讯,使聋哑人更好地融入网络社会,感受科技的进步,更好地为他们服务并且方便了他们的生活。而手语作为一种动作语言,从广义上讲,它的应用不仅仅局限于聋哑人之间,聋哑人与非聋哑人之间,以及异语种间健常人的交流都可能应用到动作语言。从这个意义上,研究哑语的表达与通讯,具有更加广泛的社会意义和实际应用前景。

更实现手语的网络通讯,必须采用一种恰当的技术,它既能完成手语图像动画表示,它既能完成手语图像的三维动画表示,产生的数据、文件应该尽可能地短小,且便于压缩,以利于网络传输,提高网络传输速度,避免网络拥塞,实现实时反应。可以使用三维动画技术来实现手语动画,但一般的三维动画技术形成的图像虽然可能满足生动逼真的要求,却不适合网络应用。因为它们用于图像和动画的文件格式是基于像素的,大小和行为都是固定的,为了得到特体的三维印象,至少需要两幅图解,这使传输量巨大且不能实现交互。同时,基于HTTP、HTML标准的WWW只能表示和传递二维信息,不能满足对三维环境和三维显像具有特定要求的应用需求。鉴于这种应用的特殊要求,提出采用VRML技术。VRML(VirtualRealityModelingLanguage)是一种可以在WWW上操作的三维图形可视化工具,VRML2.0于1996年8月,它能够灵活有效的方式,将二维、三维图形和动画、影片、声响和音乐等多种效果调和在一起,形成一个综合性的单一媒体,在环球网上创建动态世界。VRML本身不是一种传统的编程语言,它是一种建模语言,有它自己的文件格式,人们可以用它描述三维场景。它不但能满足图像质量的要求,而且存储和传输的只是物理的三维坐标,图像本身是在本地生成的,这就大大减少了网络传输量,也便于进行交互操作。同时,使用VRML技术生成的文件格式是ASCII码,能被有效地压缩,这就进一步减轻了网络压力,提高了传输效率,能够实现手语图像在网络上高速传输。

另外,日本北海道大学的青木由直教授是研究手语通讯的倡导者,他通过建立一个不同语言的手语翻译字典在Internet实现了日语和韩语的手语的聊天系统,进一步又研究了日本与中国的手语变换,手语手成的二维及三维动画,以及带有面部表情和嘴唇形状的日语和韩语的手语聊天系统等。

4手的运动约束

人手的组成是一个非常复杂的结构。手是由骨头,连接骨头的韧带,作为拉力动力服务的肌肉,运动时连接肌肉与骨头的腱,以及覆盖着保护的软组织和皮肤。骨头通过关节连接起来并且不能改变大小,肌肉产生扭矩和关节通过拉力运动都存在一块或更多的肌肉群为其服务。因此,手的运动极其复杂的。由于真实手的生理特点,手的运动受到一些限制和约束。分析手的运动约束,就可以更好研究虚拟三维人手的运动。这样一来就可以在有关手的动画片中避免一些不真实的动作,使其更加拟人化。

第7篇

机器学习作为人工智能的核心内容而存在。简单来讲就是在模拟人类行为的基础上,通过学习来使计算机获得更多的新技能、新知识,变得更加聪明更加智能,以此来实现其组织结构性能上的不断优化。而机器学习作为一项极为智能化的过程,具体该如何实现属于机器的特有“学习”行为呢?关于这一点,不同专业学者基于自身专业研究内容的不同,因此众说纷纭,但总结来讲,机器学习与推理过程之间的紧密关系还是得到了大多数学者的一致认同,因此,我们可以将机器学习策略分为事例学习、类比学习、传授学习、机械学习。基于计算机功能的复杂性,机器学习涉及范围较广,是在多种知识、技术的交叉和共同作用下的结果,如,概率论、凸分析、统计学、算法复杂度理论、逼近论等多专业学科都涉及其中。就机器学习的分类来讲我们可以将其分为以下几种:(1)基于学习策略分类——机械学习、示教学习、演绎学习、类比学习、基于解释的学习、归纳学习;(2)基于所获取知识的表示形式分类——代数表达式参数、决策树、形式文法、产生式规则、形式逻辑表达式、图和网络、框架和模式、计算机程序和其它的过程编码、神经网络、多种表示形式的组合;(3)按应用领域分类——自然语言、图像识别、认知模拟、故障诊断、数据挖掘、专家系统、规划和问题求解、网络信息服务等领域;(4)综合分类——经验性归纳学习、分析学习、类比学习、遗传算法、连接学习、增强学习;(5)学习形式分类——监督学习、非监督学习。

2机器学习在网络安全中应用的意义

从机器学习的本质上来讲,它是在大数据集中的基础上通过对数学技术的引入,来构建机器行为模型,并通过不断输入新的数据资料,使机器在对各时段数据进行分析、运算的基础上,来实现对未来的科学预测。就机器学习在网络安全中应用的意义来讲,主要体现在,机器学习基于自身极强的数据分析能力,在应用的过程中,可以帮助用户来有效的对网络安全事件作出及时的响应,尤其是在团队安全技能不足的情况下,可以通过自动执行来替代团队执行一些琐碎的系统安全任务,有助于切实保障用户的网络安全。同时机器学习与传统电子科技产品的融合,有助于清除产品中的恶意软件,进而达到提升产品安全系数和运行稳定性的目的。

3机器学习在网络安全中的应用

3.1安全入侵检测

网络安全入侵检测是一种较早出现的计算机系统自我安全防护技术,其在不对网络性能以及用户的计算机操作构成影响的情况下,通过对网络运行数据、安全日志等信息的分析和检测,来判断系统是否受到了安全威胁,以此来实现对计算机系统的实时保护。机器学习凭借自身性能的智能化,在安全入侵检测中的应用,能够有效提升网络安全入侵检测反应灵敏度,使防护系统可以在短短的几秒钟内,就准确的检测到恶意攻击位置,并予及时的进行准确、有效的防护,将恶意攻击对系统的伤害降到最低。

3.2垃圾邮件检测

机器学习在垃圾邮件检测中的应用,根据其特殊的运行原理,我们可以将其看作是机器学习当中的分类问题。如,我们将邮件整体定义在{-1,1}之间,1就代表是垃圾邮件,而-1则说明是非垃圾邮件。而在对垃圾邮件进行文本分类问题定义的过程中,我们首先就需要通过一定的数值来对垃圾邮件的文本信息予以表达,并用向量来对各条消息进行表示,垃圾邮件的特征值则集中表现在各特征向量元素当中。同时,由于系统对于垃圾邮件的检测属于在线应用范畴,因此,机器学习对于邮件的自动识别和分类能够极大的提升系统对于垃圾邮件的检测效率,降低出错率。

3.3域名检测

作为互联网重要的核心应用系统,域名系统基于自身对整个网络安全所起到的重要意义,经常成为被黑客和不法分子恶意攻击的目标。以往我们多通过防火墙、黑名单拦截、域名系统等的作用下,来实现对域名恶意攻击的检测。以机器学习为主的域名检测则通常是在在线模型、离线模型的双重组合作用下,来实现其域名检测和防御功能。其中,离线模型,通过对恶意域名、合法域名训练数据集的建立,来从中提取出基于区域的特征、基于DNS应答的特征、基于域名信息的特征等,之后通过X-Means聚类算法、决策树等模型的构建,结合网站提供的已知域名数据集来对所构建的模型予以进一步的调整和验证。以此来判断其是否属于恶意域名。在线监测模型,是在网络系统对域名的自动查询分析作用下,来对被检测域名的主要特征、信息等进行获取,其特征显示已标记的则视为已知域名信息,进行继续训练操作,特征显示无标签的则视为未知域名,需要在分类器的作用下,对其是否属于恶意域名进行继续判断。

参考文献

[1]张蕾,崔勇,刘静,江勇,吴建平.机器学习在网络空间安全研究中的应用[J/OL].计算机学报,2018:1-35.

第8篇

关键词:支持向量机;信息熵;半监督学习;去噪;欧氏距离

中图分类号 TP181 文献标识码:A 文章编号:1009-3044(2013)25-5705-03

随着互联网的发展,网络上的数据呈几何指数增长,而这些数据大部分是未标记的。已标记数据非常有限,如网络上存在的新闻报道,面对海量的新闻种类,获取有标记样本十分困难,未标记数据不能为学习算法提供有效帮助。其他如图像处理,文本分类,语音识别等领域,也存在这样的情况。

监督学习利用一组足够多的已标记的样本来发现属性和类别之间的联系,使其可以达到理想的关联模式,并用这些模式来观测未知数据的类别属性,但是大量的有标记样本是非常难获得的。无监督学习事先没有明确的关联模式,而是通过某种算法发现数据中存在的内在结构,典型的算法有聚类。半监督[1]学习是一种新的学习问题,结合了监督学习和无监督学习优点,适合已标记样本小,具有大量未标记样本的分类问题,它讨论如何将庞大的未标记样本和少量的已标记样本结合起来从而提高学习器的泛化能力[2]。

现有的分类算法主要有支持向量机[3]、决策树[4]、贝叶斯[5]、最近邻[6]、神经网络[7]和基于关联规则[8]的分类等。支持向量机是Vapnik提出的一种新学习方法,根据结构风险最小化原则,以最大化分类间隔构造最优分类超平面,非常好的解决了数据中存在的非线性、高维性、局部极小点等问题。

分类后样本可能含有噪声数据,把这些数据加入有标识样本重新训练,一是会加大训练时间,二是噪声样本会影响分类精度,在半监督分类模式下,循环加入有噪声样本会加剧降低预测准确率。

本文采用半监督支持向量机算法来训练分类器,在已标记样本少的情况下,用大量的未标记样本提高分类器性能,并对分类后的数据提出了加权去噪的方法,建立了最优分类器。

1 支持向量机的构建

支持向量机通过确定最优分类面实现数据分类,可分别对线性和非线性数据进行分类,对于非线性的数据,需要通过核函数把数据映射到高维空间,让数据在高维空间线性可分,从而实现对数据进行类别预测,实现分类。

以两个类别的训练样本数据为例,设给定的样本数据集D为[(X1,Y1),(X2,Y2),…,(XD,YD)],其中[Xi]是训练元组,[yi]是相关联的类标号,[yi∈{+1,-1},i=1,2,...,n]代表样本类别,[K(?)]为核函数。

2 噪声过滤机制

2.1 噪声数据的影响

由于受到噪声的干扰,影响支持向量机的性能。为获得高精度的分类结果,必须减少噪声干扰,提高训练样本正确率,消除噪声因素对分类结果的影响。在此基础上,提出了对预测好的样本去噪的方法,减少数据中存在的噪声样本数量,避免对重新生成的分类器有较大影响,提高分类准确率。

在所有算法中,新产生的已标识数据直接加入到已标识样本集合中,会加入正确的数据,同样也会给训练集带来噪声数据,随着循环次数不断增加,积累的噪声数据会影响更新后的分类器的性能[9]。在已标识样本少的情况下,分类器不是最优的,机器自动分类时,可能会错分未标记样本,把分类后的样本直接加入到训练集重新训练,会使分类器精度下降。引入噪声过滤机制,提高分类精度。

2.2 基于信息熵权值的确定

2.4 基于加权欧氏距离的去噪方法

每个类为一个簇,分类后结果簇内的相似度高,而簇间的相似度低。基本思想是:选择[k]个对象为初始点,每个初始对象代表一个簇的中心或平均值,对于剩余的对象,用加权欧氏距离计算每个对象到簇中心的距离,最小的属于该簇则分类正确,如果距离大于到其他簇中心的距离,则该对象不属于该簇即分类错误,是噪声数据。

传统的方法中,没有考虑对象中每个属性所体现的不同作用,而是将它们等同看待,用欧氏距离只能计算数据间相隔的远近,不能准确地表示簇间相似度,因为相似不仅依赖样本间的相近程度,而且还依赖于样本间的内在性质[10]。

3 实验结果

实验所用数据从UCI标准数据集中选取,选用四个数据集来进行实验,为了避免不平衡数据对分类性能的影响,在每个数据集的类别中选取两类样本数据,样本数目平衡且比较多,对构造的支持向量机分类器训练和测试。所用实验详细数据集如表1所示:

分别选取每个数据集中大致选取80%的样本作为训练集,剩余20%数据作为测试集。用支持向量机构建分类器,做测试时,把每个数据集分为N等份。在80%的训练集中首先选取20%作为初始已标识样本用来训练分类器,剩余60%数据分为6等分。把类标号去掉,作为训练时的未标识样本。数据集Abalone有1323个数据,选取324个数据作为初始训练集,把其中800个数据分为4分作为训练分类器时所用数据,留取200个数据作为测试集。在数据集bank有1042个数据,选取242个作为已标识样本训练分类器,在训练过程中,每次对100个数据进行分类,对分类后的数据进行加权去噪后加入训练集,直到未标识样本分类完成。对20%的数据测试后加入人工反馈的方法,把分类错误的样本数据人为的加入正确的类别。表2给出了支持向量法算法在加权去噪前后的比较。

实验结果表明用加权去噪的半监督支持向量机训练方法提高了分类精度,优于只使用支持向量机算法,初始已标记样本少的情况下,在训练分类器过程中用去噪的半监督思想多次加入未标识样本来扩大训练集,优化分类器性能,提高分类精度。

4 结论

该文提出一种信息熵加权去噪的方法,删除分类有误的数据,现实数据中,存在大量的未标识数据,而已标识数据较少的情况下,不利于对数据进行分类,该文用半监督思想,先用已标识样本训练分类器,然后用大量的未标识样本来提高分类器性能,由于分类后的样本中可能存在噪声数据,用基于加权欧氏距离算法对样本进行去噪,选取置信度较高的样本加入训练集重新训练。在四个UCI数据集上的实验结果表明,该文提出的方法效果明显,具有良好的预测精度。

参考文献:

[1] David R Anderson,Dennis J Sweeney.Statistics for business and economics[M].Beijing:China Machine press,2010:327-330.

[2] 门昌骞,王文剑.一种基于多学习器标记的半监督SVM学习方法[J].广西师范大学学报,2008,26(1).

[3] Zhang Xuewen,Li Yangjun. Self-adjusted particle swarm optimization algorithm based economic load dispatch of power system[J].Power System Technology,2006,30(18):8-13.

[4] Bissantz N,Hagedorn J.Data mining [J].Business and Information Systems Engineering,2009(1):118-122.

[5] Jing Y,Pavlovic V,Rehg J.Boosted Bayesian network classifiers[J].Machine Learning,2008,73(1):155-184.

[6] 陈黎飞,郭躬德.最近邻分类的多代表点学习算法[J].模式识别与人工智能,2011,24(6).

[7] Janssens D,Wets G,Brijs T,et al.Improving the performance of a multi-agent rule-based model for activity pattern decisions using Bayesian networks[J].Journal of the Transportation Research Board,2004,1894(1):75-83.

[8] 张扬,周子勇.基于关联规则的面向对象高分辨率影像分类[J].遥感技术与应用,2012,27(3).