发布时间:2023-03-02 15:05:52
序言:写作是分享个人见解和探索未知领域的桥梁,我们为您精选了8篇的语音识别系统样本,期待这些样本能够为您提供丰富的参考和启发,请尽情阅读。
自上世纪中期以来,语音教学在语言教学中逐步受到重视,教育部《高等学校英语专业英语教学大纲》对学生的语音能力提出明确的要求,即要求发音正确,语调比较自然,以此目标指导语音教学。语音教学随同外语教学理论、模式的演变也在经历着一系列的变革,教学重点从初期的音素和单词发音,发展到目前着重超切分音,如中信、节奏和语调等(罗立胜,2002)。而语言教学方式也由机械的模仿、重复、跟读、单音纠正发展到今天交际性的练习和自主练习。但是在对新生的语音情况调查中发现,往往这种交际性练习和自主练习存在以下几方面问题:学生水平参差不齐,受母语影响程度不一,大部分中学学习过英语语音但不系统,也不够重视。中学教师因受应试教育的影响,少有时间教授语音发音,经调查,80%的学生称中学学习过程中惟一的语音输入来自英语教师。仅有30%的学生称听过磁带、看过英文电影。语音学习双层面的脱节性和去语境化学习97%学生因高考需要背记过国际音标及其在英语单词中的读音,但80%的学生表示没有进行过系统的语音训练,缺乏语境化教学。自主语音学习效果欠佳,孤立的语音练习很难在实际语言交流中应用。目前,语音课上教师主要帮助学生一对一,对比模仿练习发音,缩小学生在语音认知上母语和目标语之间的差异。课后学生仅能通过模仿有声资料提高语音。标准程度往往由学生自行判断,由于学生听说能力的差异,自行判断发音是否准确是不确定的。本文试图以现代的语音教学技术Reading Assistant语音识别系统的引入探讨语音教学模式的改革。
二、对Reading Assistant语音识别系统有效手段的分析
Reading Assistant语言学习系统由美国科学学习公司研发的,以语言学习理论和过程为基础,旨在通过朗读提高语音、词汇、语法等语言综合技能即“以读促学”,笔者所在西安外国语大学英文学院于2008年9月开始使用该系统,拥有600个账号,仅供一年级新生使用。目前主要用于配合语音课程,辅助完善语音自主学习。根据上述语音教学中存在的问题和应该坚持的教学原则,和以下Reading Assistant的教学特点作一对照,就不难理解该语音识别系统对英语语音学习及语言学习的可行性了。
1.根据Reading Assistant(语音识别)系统的(以下简称语音识别)的设计。实行学生每人拥有一个使用账号,便于展开个性化的、有针对性的指导。满足不同层次学生的要求,在语音教学中众多语言教师发现模仿是提高语音的最有效方法之一,但是模仿什么语音材料,模仿哪种语音,怎样模仿和自主学习能否模仿后是否准确仍有很大的困难,在使用语音识别系统时,学生首先要根据其设定的不同级别,和原有的测试级别自行测试,从精选的不同层次的150篇文章中选择适合自己水平和类别的进行朗读。
每次朗读后根据语音发音有成绩记录,每篇文章可以朗读10次。语音识别系统是建立在建构主意语音教学模式的理论智商,学生是学习的主体,不是被动地接受知识,而是主动地在原有的知识体系中,通过不断地积极实践,构建自己的新的知识和经验。因此在这种长期的语音练习过程中,学生可以根据自己的学习需要“建构”语音学习材料,提高自主学习能力。
2.导入语音练习的语境化,模仿对象的本土化。在实际交往活动中,听、说、读、写不是以孤立的因素和单词为单位进行思想交流的,取而代之的是以综合的句子和更高层次的话语单位进行的,孤立的因素和单词的发音在综合运用中会产生很大的变异,如连读、失去爆破、弱读等影响,因此,语音识别系统通过不同类别的文章(包括科技、生活、文艺、人物传记)等等构建不同的语境,除了传统意义对话中包含的语境外,文章中还涉及各个年龄段,男声、女声等读音。录音及文章内容的选择全部出自母语国家。确保模仿对象发音的准确性。
3.判读过程的准确性和可调节性。根据语音识别系统读音匹配程度的设计,学生在阅读过程中分别会出现完全正确发音、误读、不会读、不准确等情况,并以不同颜色标注。每次阅读完成后,学生可以查看有哪些单词不准确。开始阅读后,每读一个单词就会有不同颜色显示。而在本身阅读中如果出现严重的错读,该识别系统会停止前进,并随机开始正确读音,要求练习者跟读。教师也可以根据自己的界面监控学生朗读过程,随时抽听不同学生的朗读情况。过度的纠错会挫伤部分水平较低学生的学习积极性,因此在开始学习阶段教师可以根据学生各个层次的学习调整不同的匹配度以提高学生学习兴趣。
三、学生对语音识别使用情况及存在的问题
经过对英文学院2008级540名学生一学年使用情况的调查,86%的学生表示自己经常去RA实验室,80%的学生认为RA有助于阅读水平的提高,95%的学生认为RA对语音语调有帮助,90%的学生认为RA对听力有帮助,85%的学生认为RA对整体学习有提高。对于语音识别系统进一步的学习和开发,学生表示除英语专业学生初期应用在语音教学以外,还应考虑继续辅助阅读、写作等课程。而语音识别系统中文章内容选择可以适当考虑本土化,多针对中国学生发音中存在的问题进一步涉及文章和练习。
综上所述,外语语音教学目标不再是僵硬的单音、音素教学,而是融合更多语言交际任务的综合教学,而随着计算机、数字化和语音识别技术的发展,充分利用现代教育技术不仅可以丰富教学内容,更重要的是注意到学生的情感因素,培养学生自主学习能力,让语音教学改变以往依赖性、单一性、枯燥性,使其更具创造性,让以读促学全方位体现在英语学习中。
参考文献
[1]罗立胜等.英语语音教学的回顾及对目前英语语音教学的几点意见.外语与外语教学,2002(10).
[2]顾佩娅等.基于构建主义的计算机辅助项目教学实践.外语与外语教学,2003(7).
[3]陈爱勤,石春熙.英语专业新生语音教学的语境论研究.长春师范学院学报(人文社会科学版),2008(1).
论文关键词:VC,Matlab,实时语音识别,MFCC,DTW,非特定人,MEX
1引言
VC和Matlab的混合编程共同运用于语音识别,可以借助VC实现对语音信号的采集,同时通过Matlab强
大的矩阵计算功能,简便化的编程方法,实现对语音
信号的识别处理。
其中,VC主要做语音信号的采集,通过借助于微
软提供的WindowsMultimedia API 开发了在线实时语
音采集程序,实现了人机在线实时交互。
2 语音识别系统概述
语音信号的一般处理过程如图 1所示,其中首先对语音信号进行预处理DTW,其中预处理包括预滤波、采样和量化、加窗、端点检测、预加重等。然后是信号特征量的提取,本文对信号的特征量进行Mel 频率倒谱系数(Mel-Frequency Cepstrum Coefficients)处理。最后通过对已经建立好的参数模板进行对比,测试的依据是失真度最小准测,如本文用到的动态时间规整: DTW(DynamicTime Warping)。
图 1 语音识别过程基本流程图
3 语音信号的采集
语音信号的两个过程为:对语音信号进行实时
的采集,对采集的语音信号做出识别。本文对语音信号的采集是通过VC调用Microsoft的Windows系统中提供了多媒体应用程序接口(Multimedia API)实现。
3.1 用VC生成动态链接库供Matlab调用
通过mex文件来实现VC与Matlab的混合编程。mex
代表 MatlabExecutable。Matlab中可以调用的C或
Fortran语言程序称为mex文件。mex文件是一种特殊的动态连接库函数,它能够在MATLAB里像一般的M函数那样来执行。
VC编译的时候应该包含头文件mex.h。与C中的主函数main()函数一样,mex程序中的开始函数为:
void mexFunction(int nlhs,mxArray *plhs[], int nrhs, const mxArray *prhs[])其中
nlhs指的是在调用函数时返回值的个数;
plhs[]是每个返回值(在MATLAB中都是矩阵)的指针;
nrhs指的是调用函数时的参数个数;
prhs[]是每个参数的指针。
对mexFunction的参数是进行指针操作的,不能用单纯的return返回值。mex程序传送回来的整数数据要变为双精度型数据,才能为其它函数所处理。
3.2 Multimedia API函数介绍
API(ApplicationProgramming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件的以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。
MultimediaAPI 函数主要有以下几个:获取音频设备信的函数waveInGetNumDevs(),该函数用于获取当前系统中所安装的音频输入设备的数目。
查询音频设备的能力函数waveInOpen(),该函数的作用是打开波形输入输入设备。
通过CALLBACK_FUNCTION命令来打开设备。录音缓冲区的组织WAVEHDR结构, 一般都是设置双缓存区对语音信号进行平稳缓冲站。开始和停止录音时用到waveInStart()和waveInStop()两个函数。
4 用Matlab实现语音识别过程
4.1 端点检测
从背景噪声中找出语音的开始和终止点这是在很多语音处理应用中的基本问题。端点检测对于语音识别有着重要的意义。本文主要采用短时能量与短时平均过零率双门限结合的方式,来对汉语语音的起止点进行检测。短时能量和过零率分别确定两个门限, 信号必须达到比较高的强度, 该门限才可能被超过。且低门限被超过未必就是语音的开始, 有可能是由短时间的噪声引起; 高门限被超过则可以基本确定是由于语音信号引起的。
%每帧过零率
4.2 特征函数的提取
语音信号完成分帧处理和端点检测后,下一步就是特征参数的提取。目前在语音识别中较为常用的特征参数是线性预测倒谱系数(LPCC,LinearPredictive Cepstrum Coefficients)和Mel频率倒谱系数(MFCCDTW,Mel-FrequencyCepstrum Coefficients),这两种特征参数都是将语音信号从时域变换到倒频域上。LPCC从人的发声模型角度出发,利用线性预测编码(LPC,LinearPredictive Coding)技术求出倒谱系数,而MFCC则是构造人的听觉模型,把通过该模型(滤波器组)的语音输出为声学特征,直接通过离散傅立叶变换(DFT,DiscreteFourier Transform)进行变换。本文采用MFCC方法。Mel频率倒谱系数,即MFCC为:
其中,S(m)为语音信号通过预加重、离散傅里叶变换、通过MEL滤波器、并通过对数能量处理等得到的对数频谱。
4.3 非特定人孤立词语音识别算法
通常,语音识别的方法可以大致分为三类,即模板匹配法、随机模型法、和概率语法分析法。这三类方法都属于统计模式识别方法。其中模板匹配法是将测试语音与参考模板的参数逐一进行比较和匹配,判决的依据是失真测度最小准测,随机模型法是使用隐马尔可夫模型(HMM,HiddenMarkov Model)来对似然函数进行估计与判决,从而得到相应的识别结果。而概率语法分析法利用连续语音中的语法约束知识来对似然函数进行估计和判决,更适用于大规模连续语音识别。本文用小词汇量的DTW方法。动态时间规整(DTW)是采用动态规划(DP,DynamicProgramming)技术,将一个复杂的全局最优化问题转化为许多局部最优化问题DTW,一步一步地进行决策。假设时间规整函数为:其中,表示时间规整函数中的第个匹配点对
这个匹配点对是由待测语音的第个特征矢量和参考模板第个特征矢量构成的,其中两者之间的距离(或失真值)称为局部匹配距离,记做,处于最优时间规整情况下两矢量的距离称为全局匹配距离,记做,表达式如下所示:
由于DTW不断地计算两矢量的距离以寻找最优的匹配路径,所以得到的两矢量的匹配距离是累计距离最小的规整函数,这就保证了它们之间存在最大的声学相似特性。
5 结束语
在本语音识别系统中, 设定采样率为11025Hz,帧数为300帧,帧长为240点,则最长的语音段长度不会超过300*240/11025=6.5秒。采样样本为男女各5个人的数码语音资料, 实验表明, 系统达到了较好的实时性和较高的识别率。由于Matlab功能强大, 在处理中可直接利用许多现成的函数, 编程方便, 结果可视化也容易实现。
参考文献
[1]杨熙,苏娟,赵鹏.MATLAB环境下的语音识别系统[J].电声技术,2007,31(2): 51-53.
[2]龙银东,刘宇红,敬岚,等.在MATLAB环境下实现的语音识别[J]
关键词:语音识别;文本识别;多线程浏览器
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)21-4949-02
语音识别,也被称为自动语音识别Automatic Speech Recognition(ASR),是一门跨越多门学科的技术。早在计算机的发明之前,语音识别就被人们所提出,早期的声码器可以认为是语音识别及合成的雏形。最早的语音识别器是产生于20世纪20年代生产的“Radio Rex”玩具狗,当人们呼唤该产品的名字的时候,它能够从底座上自动弹出来。而最早的基于计算机的语音识别系统是由AT&T 贝尔实验室开发的Audrey语音识别系统,该系统的正确率达到98%。
1 C#语言的语音识别及合成的接口
C#是一种安全的、稳定的、简单的、优雅的,由C和C++衍生出来的面向对象的编程语言。C#实现语音识别功能的主要接口有:IsRecoContext接口、IspRecognizer接口、IsRecoGrammar接口、IspVoice接口。
1)IsRecoContext接口:是主要的用于语音识别的接口,能关注不同的语音识别事件,安装或者卸载识别时使用的语法文件。
2)IspRecognizer接口:一个程序拥有两种不同的语音识别引擎(ISpRecognizer)类型。一个是共享的语音识别引擎,需要建立一个采用共享语音识别引擎的识别环境(IspRecoContext),应用程序需要调用COM接口位于CoCreateInstance结构上的CLSID_SpSharedRecoContext。然后SAPI会设立一个音频输入流,并把这个音频输入流定义为默认的SAPI音频输入流。由于它可以与其他语音识别应用程序共享其程序资源,所以在大多数场合中被推荐使用。另一个是非共享的语音识别引擎的语音识别环境,应用程序首先需要调用COM接口位于CoCreateInstance结构上的CLSID_SpInprocRecoIns-
tance。然后,应用程序必须调用IspRecognizer的SetInput方法来设立一个音频输入流。最后,应用程序通过调用IspRecognizer的CreateRecoContext方法来建立它自己的识别环境。
C#语言的语音合成的主要接口有:Voice Commands 接口,Voice Dictation接口,Voice Text,Voice Telephone接口,Audio Objects接口。
1)Voice Commands API。对应用程序进行控制,一般用于语音识别系统中。识别某个命令后,会调用相关接口是应用程序完成对应的功能。如果程序想实现语音控制,必须使用此组对象。
2)Voice Dictation API。听写输入,即语音识别接口。
3)Voice Text API。完成从文字到语音的转换,即语音合成。
4)Voice Telephone API。语音识别和语音合成综合运用到电话系统之上,利用此接口可以建立一个电话应答系统,甚至可以通过电话控制计算机。
5)Audio Objects API。封装了计算机发音系统。
其中Voice Text API,就是微软TTS引擎的接口,通过它我们可以很容易地建立功能强大的文本语音程序。
2 系统设计与实现
2.1 系统功能概述
根据对系统需求进行分析,本系统需要完成操作、工具、用户管理、皮肤管理和帮助功能。这些功能将分成五个功能模块。操作功能:朗读、命令识别、文本识别、生成语音文件、添加操作命令、网页浏览;工具功能:训练、开机自动运行、取消开机自动运行;用户管理:添加用户、删除用户、修改用户;皮肤管理功能:皮肤的修改功能;帮助功能:帮助文档、关于作者
2.2 语音识别功能的实现
语音识别的原理就是将人发出的语音通过麦克风传到电脑的声卡,然后语音引擎对对语音信息进行采取,最后和语音库里面的信息匹配从而识别出相应的语音信息输出到电脑屏幕进行各种各样的操作。
语音识别的一个最大的难点就在于不能正确地对语音信息进行正确的识别,这里在系统开发的时候需要做两个处理工作。
第一是对语音库进行大量的语音训练,可以通过windows内置的语音识别训练系统进行训练,该功能集成与微软的XP系统的控制面板的语音选项里面。鉴于每个人的发音都是有所差异的,使用人必须先对语音引擎进行大量持久的语音训练,这样才能不断地提高语音识别的正确率,以方便计算机正确地识别出来需要操作的动作和需要对电脑输入的文字。在进行对语音库训练的前提是要安装微软提供的语音引擎Speech SDK 5.1,在安装了该引擎之后方能对语音进行训练,可以支持中英日三种语言的使用。
第二是对语音识别的结果进行模糊处理,也就是说,在不可能实现100%的识别率的情况下,要尽可能地考虑到语音识别出来的错误信息,比如本来要识别的信息是:open,但是电脑识别出来的是opened,这时候就要“将错就错”,通过数据库将识别出来的opened告诉电脑这是一个open。如此进行常用字的多次测试,并通过微软的sql server2000进行海量的数据识别模糊处理,最大化地考虑到所出现的错误来更正。
2.3文本识别功能的实现
文本识别功能的实现是要借助于微软的TTS(Test To Speech)引擎进行来实现。TTS是“文本到语音(Text To Sound)”的简称,TTS语音引擎为我们提供清晰和标准的发音,所用的关键技术就是语音合成(SpeechSynthesis)。
该文本识别引擎可以支持中英日三种语言。要使用该功能是只需要进入文本识别界面并启动文本识别按钮,然后将要识别的文字通过键盘输入到编辑框里面,再单击朗读按钮,这就可以将文本信息转化为语音信息通过音响发出。
2.4多标签的语音识别浏览器功能的实现
首先是多标签浏览器功能的实现。由于C#有自带的WebBrowser浏览器控件,使用其自带的方法。而对于多标签功能的实现则要使用C#的多线程的技术,也就是说支持多个线程同时不互相干扰的工作。
其次是具有语音识别功能浏览器的实现。这个过程可以参照之前所制作的语音识别制作的过程,只需要的浏览器里面添加一个开启语音识别和关闭语音识别功能的按钮即可。当单击开启语音识别功能时,系统将会提示已经开启语音识别功能,这个时候就可以使用语音识别功能进行网上冲浪;当单击关闭语音识别功能是,系统将会提示已经关闭语音识别功能,这个时候系统会系统语音识别功能已经关闭,此时的浏览器就和传统的多标签浏览器如360安全浏览器一样。
3 结论
本系统主要研究了用语音控制电脑的技术,成功地利用微软新一代开发平台.NET Framework开发了语音识别系统的新产品。本系统打破了传统的人机交互方式,实现的使用语音对计算机进行操作。使用微软的TTS语音引擎可以使系统具备识别中英日三种语言,并且添加了国内的捷通语音公司的语音引擎,可以识别粤语,闽南语等方言,对于文本识别的功能的实现,提高了语言学习者的学习效率,这给广大的语言学习者带来了福音。设计实现具有语音识别功能的多标签浏览器技术。主要是方便一些不会使用键盘打字的人群,使得这类人群可以通过语音控制就可以上网冲浪。
参考文献:
[1] ZHANG Jinsong, Takatoshi Jitsuhir.An Introduction to the Chinese Speech Recognition Front—End of the NICT/ATR Multi-·Lingual Speech Translation System [J].O'Reilly. 2008.
[2] Arun Krishnaraj, Joseph K. T. Lee. Voice Recognition Software: Effect on Radiology Report Turnaround Time at an Academic Medical Center [J]. 2010.
[3] wu Zhiyong. CAO Guangqi. Voice Recognition Software: Effect on Radiology Report Turnaround Time at an Academic Medical Center [J]. 2008.
[4] Jing Li. Thomas Fang Zhen91. A Dialectal Chinese Speech Recognition Framework [J]. 2006.
[5] 国玉晶,刘刚,刘健,郭军.基于环境特征的语音识别置信度研究[J].清华大学学报,2009,49(S1).
[6] 林琳,王树勋,郭纲. 短语音说话人识别新方法的研究[J].系统仿真学报,2007(10).
[7] 姚琳,梁春霞,张德干.基于实例推理的人机对话系统的设计与实现[J].计算机应用,2007(03)
[8] 林茜,欧建林,蔡骏.基于Microsoft Speech SDK的语音关键词检出系统的设计和实现[J].心智与计算,2007,12-30:433.
[9] 韩纪庆,张磊,郑铁然.网络环境下的语音识别方法[J]. 计算机科学,2005(01).
1 项目建设目标
1.1 项目背景
目前,固网用户拨打电话,必须先查出被叫的号码,并按键进行拨叫。而随着通信业的发展,要记的电话号码越来越多,而目前大部分的固定电话都没有号码存储的功能,所以很多时候使用固话打电话时,要么从手机上查找被叫的电话,或者是从纸制电话簿去查找,既不方便,又浪费时间。
“语音电话本”完全可以帮助用户解决以上问题,用户只需拨打一个号码接入系统平台,说出联系人的姓名,系统就可以自动将话路转到该人的电话上。整个过程通过自然的语音方式交互,即感到亲切自然方便快捷,又节省时间,提高工作效率。
从服务管理的角度来看,随着信息通信客服业务受理的不断发展,座席客服话务量越来越多,用户对服务的质量要求也越来越高,传统客服系统在传统语音信息处理上的局限性制约了系统服务和管理能力的提升。
服务方面,由于业务的多样性和复杂性带来的海量数据信息不能得到快速、有效的关联处理而产生的问题,影响了客户服务体验。
运营管理方面,雇佣人工座席每天接听大量的信息查询电话,座席业务人员的更替带来的培训,消耗了部分运维成本,影响了服务质量。
1.2 建设目标
本项目通过研究智能语音技术在国网辽宁公司信息通信客服系统中的应用,将语音识别及客服查号业务相结合,使用先进的语音识别技术来代替繁重的人工劳动,提高省公司内部沟通的效率。目前,语音电话本技术实现主要包含:ASR 、TTS 、IVR 三项技术,其中TTS和IVR技术对于语音电话本业务来说已经非常成熟。
ASR语音识别技术近年来发展十分迅速,其应用也逐步得到推广,佳都新太也一直开发、调试、应用这项重要的语音技术,自2001年以来佳都新太先后在广西、天津、广东、河北、湖北、江苏、辽宁等省的多个项目中使用了ASR 自动语音识别系统,佳都新太通过对ASR测试、改进,自动语音识别率达到95%以上。
语音电话本业务可以说是CTI平台上的典型应用,佳都新太把ASR语音自动识别技术、TTS语音合成技术与CTI 的IVR技术三者融合为一体,为语音电话本业务的技术实现提供了可靠的保障。
本项目可以达到目标:
1.2.1 对语音信息的自动化处理
通过建立具备智能语音分析能力的语音识别平台,实现对用户查号业务的语音实时识别及关联处理,同时实现对语音文件的统一分析,提供支撑客服业务受理的有效工具。
1.2.2 文件分析处理
通过语音分析引擎对送入的语音进行文字转写、维度结合后生成索引文件,这些结构化的索引文件中包含了语音中的所有信息。索引文件存储到数据仓库中,通过对有效的海量录音文件、音频文件进行分析处理。
1.2.3 实现自助查号功能
通过实现语音中的知识挖掘和语音文件的快速检索,实现自动语音查号功能。
2 项目技术方案
2.1 项目设计原则
本次项目是对省公司固定电话语音自动查号系统的功能完善,使用先进的语音识别技术来代替繁重的人工劳动,提高省公司内部沟通的效率。
本次项目的关键点和技术难点在于语音识别,因此在方案设计过程中我们着重考虑了这个问题,选用了国内领先的智能语音技术来作为语音识别引擎,结合座席客服系统的需求提供定制化专业服务。
2.2 整体架构设计
如图1,用户通过拨打查号服务电话,系统为用户播放自动语音并引导用户按键选择功能和需要查号的人名,系统根据语音分析出内容,并在数据库中查询对应的号码,系统将查到的号码以自动语音方式播报给用户。
系统部署需新增接入网关1台,用于与电力内部电话程控交换机对接,实现平台电话呼入呼出。采用电信级语音接入网关Dialogic DMG2030,接入规模1E1(即30路通话),PRI信令,通过电路中继上联到辽宁电力内部程控交换机。辽宁电力内部程控交换系统为语音电话本系统分配一个内部接入服务号码和一个外部接入服务号码。同时网关接入虚拟资源池虚机网络。
新增虚拟资源池虚机1台,用于部署媒体处理软件、CTI平台、语音电话本业务应用软件、科大讯飞ASR软件和TTS软件、Oracle数据库。
新增核心网络交换机1台,用于系统组网。
2.3 系统逻辑结构
IVR与TTS、ASR通过语音引擎实现整个语音交互过程的自动识别、自动播放功能。系统采用B/S结构,方便用户对电话本的修改,也便于各营业网点的开户、受理以及对用户的电话本进行维护等。整个系统采用模块化结构,具有很高的可靠性和可扩充性。
逻辑结构见图2。
2.4 系统建设方案
新建“语音电话本”业务平台,其网络拓扑结构如图3所示。
设备组成说明:
系统平台需要以下设备:
(1)IPS数字排队机;
(2)信令网关节点;
(3)数据库服务器: 实现用户数据的存储和系统认证等功能;
(4)TTS服务器: 通过IPS平台的MS模块来实现资源调用;
(5)ASR服务器:通过IPS平台的MS模块来实现资源调用;
(6)WEB服务器:实现用户通过互联网对电话簿的维护管理功能;
(7)业务处理服务器:用于处理个人语音电话本业务流程;
(8)管理维护节点;
(9)路由器和防火墙等网络设备;
2.5 配置计算依据
2.5.1 中继和语音的配置比例
语音电话本业务,用户报出要找的人的姓名后,ASR进行识别,系统根据ASR识别出的名字,找出对应的电话号码并进行外呼,被叫接通后,主被叫进行通话的过程中,语音资源即可释放。整个业务实现和呼叫卡类业务的资源配置非常相似,根据200业务的实际运行经验数据,建议中继和语音的比例为4:1。
2.5.2 中继和ASR的配置比例
在一个呼叫的过程中,用户说出要找人的姓名,ASR资源进行识别,在识别完成系统呼通被叫后,ASR资源释放,主被叫双方进行通话,按平均呼叫时长为150秒,其中ASR识别的时间大概为30秒,而在一次通话中占用一入一出两个通道,按上面的估算数据,中继和ASR的配比大约为 2×150/30=10:1。
2.5.3 中继容量和所能支持的用户数的比例
假设一些呼叫参数如下:
系统中继容量A
用户数 B
每用户每天使用次数C:8次
每次呼叫时长D:150秒
忙时集中系统E:10%
忙时中继Erl数F:0.8
根据公式:A=B*C*D*E/F/3600
则 A:B=8×150×10%/0.8/3600=1:24
因为语音电话本业务每次呼叫要占用一入一出两个端口,所以中继容量和所支持的用户数的比例约为1:10。
2.5.4 数据库处理能力计算
忙时TPMC=(忙时呼叫次数×(平均每次呼叫数据库访问次数+其他应用模块平均每次呼叫事务访问处理次数))/60
按4.3.3假设的数据,当使用语音电话本的用户数为10,000用户时,系统的忙时呼叫次数为 10000×8×10%=8000次/小时
按每次呼叫对数据库的访问操作次数为10次来计算,则10,000用户时,对数据库的TPMC值的要求为:
TPMC=8000×10/60=1333
2.6 业务系统功能
2.6.1 业务流程(如图4)
2.6.2 声控拨号
用户使用绑定电话拨打接入号码“***”进入系统后,系统直接会提示用户报出用户想找的人的姓名,并进行呼叫。
(1)“联系人名字” 选中默认呼叫号码:
(2)用户拨打“语音电话本”服务号码;
(3)说出对方姓名,如:张三;
(4)系统识别语音,查询对应的默认电话号码;
(5)系统通过语音播报查询到的电话号码。
(6)“联系人名字+电话类型” 精确查询:
(7)用户拨打“语音电话本”服务号码;
(8)说出对方姓名+电话类型,如:张三 手机;
(9)系统识别语音,查询对应的电话类型的号码;
系统通过语音播报查询到的电话号码。用户通过绑定电话使用语音电话本业务流程如图5所示。
用户使用非绑定电话使用语音电话本业务时,必须先通过输入帐号和密码,经过系统鉴权后才能使用。
2.6.3 原始通讯录的录入
语音电话业务开展的一个关键问题,就是用户申请该业务后首批通讯录的录入问题,首批通讯录相对来说量比较大,录入的方式建议采用营业厅前台填表录入、通过WEB录入的方式,也可以采用电话、传真、信函的方式进行录入。在首批通讯录录入后,用户在使用过程中做一些号码本的修改和维护,维护量都比较小,可以通过WEB方式、电话、短消息、传真等多种方式进行修改。
批量导入电话本:
通过Excel文件导入企业通讯录,可以参考如表1格式。
可以根据实际需求增加其他列。
2.6.4 电话本维护(Web)
系统提供后台管理界面,管理员登录后台对电话本进行管理,如图6。
个人电话本资料可通过Web、人工坐席、电话、传真、短消息等多种方式进行电话本资料的维护管理,包括修改用户密码等。
业务流程如图7所示。
“增加、删除、修改”用户记录:
系统提供对单个记录的“增加”、“删除”、“修改”功能,方便对电话本进行灵活管理。
2.6.5 多个号码优先呼功能
当用户录入的某个联系人有多个通讯号码时,如有手机、小灵通、固定电话,可以把这些号码都录入在系统中,在呼叫时,用户可以自行设置优先呼叫的号码,在号码不通时再按设置的优先策略逐一呼叫被叫其他的联系方式。
2.6.6 信息查询(Web)
系统提供电话本查询界面给座席和管理员使用。
座席和管理员可根据联系人姓名,查询联系人对应的所有电话信息。
该功能主要在座席提供人工服务时使用。
3 技术创新点
本次项目采用国内领先的智能语音识别技术(ASR)结合客服后台定制化查询需求,在满足用户传统的查询基础上,语音定制化为用户报出相关信息,由用户按键选择即可,大大方便了用户的操作和客服的工作时间。
4 总体性能指标
通过研究智能语音技术在信息通信客服系统中的应用,实现客服查号业务的自能化,实现语音的自动识别及数据分析,减少人工运维成本,提高客服服务质量及服务效率。
5 技术展望
随着科学技术的飞速发展。信息技术领域未来必然是智能化,自动化的主流方向。在语音识别领域将大有可为,传统的人工繁琐的操作将被解放。系统语音智能识别,自动处理将是主流趋势。该项目正是在这样主流的发展趋势下不断完善提升,用专业的技术实现客户的需求,达到节省人力物力目的。
论文关键词:CIS;高职学生;自我识别;探索
CIS,全称“Corporate Identity System”,即“企业识别系统”,分为理念识别MI(Mind Identity)、行为识别BI(Behavior Identity)和视觉识别VI(Visual Identity)。MI是核心和原动力,BI是动态识别形式,VI是静态识别系统。CIS源起于西方,由IBM公司首次导入企业并加以全面推广。20世纪70年代,日本开始引进CIS并大量融入东方文化内涵,使其得到深化和丰富。20世纪80年代末,太阳神、健力宝等企业CIS系统的成功建立和推广引发了中国企业界导入CIS的热潮。
经济领域中任何事物的出现,都有其客观必然性,CIS的产生及运用是由其自身的文化性(Culture)、活动性(Activity)和可识别性(Distinction),即其CAD特征所决定的。通过CIS的运作,可以强化企业文化建设、提升企业凝聚力、扩大企业知名度,获取消费者的认同。
培养目标为高素质技能型人才的高等职业教育与企业的发展息息相关。1996年9月,《职业教育法》确立了高等职业教育在中国的合法地位;2005年国务院颁布了《关于大力发展职业教育的决定》,提出“到2010年高等职业教育招生规模占高等教育招生规模的一半以上”,进一步推进了我国高等职业院校在数量和招生规模上的突飞猛进。
作为未来的企业职工,高职大学生的素质直接影响着企业的发展,目前很多企业反映新进员工普遍存在着缺乏实际工作能力、难以融入团队、工作热情不能持久等问题,究其原因主要有三点:一是从“学生”到“职工”的身份转变未做好;二是从“学校”到“企业”的环境转变未做好;三是从“学习”到“社会”的责任转变未做好。究其深层次原因,很关键的一点来自于高职学生自我识别的普遍弱化上。
PIS,“Personal Identity System”,是CIS主要理念在个体上的运用和体现,通过价值观建设、知识性构建、自我意识能力、自觉行为导向等方面的努力,塑造个体的特定形象,以期得到社会的广泛了解、认同和接纳。强化高职学生的自我识别,塑造高职学生的全新形象,才能提升高职信息的传递能力和形象诉求,从而大幅提升高职学生的就业率和就业质量。据此,四川电力职业技术学院在以下领域做了一些积极的探索。
一、在理念上强化高职学生的自我识别
1.在学生思想政治教育中融入企业元素
学院坚持“以人为本,德育为先”,将学生的思想政治教育与职业教育紧密结合,在人才培养过程中始终以“责任”、“诚信”、“创新”、“感恩”等为主题。在全校学生中评选“十佳爱岗敬业明星”、“自强之星”、“感恩之星”,树立意志坚定、积极向上、心态阳光的健康形象;组织学生参加国网系统的“青春光明行”志愿服务,先后参与“电力天路”图书馆捐书、“电力三下乡”等活动;组织学生学习爱岗敬业模范吕清森、职业道德标兵江小金等先进人物及行业中涌现出的“抗冰保电”、“抗震救灾”等先进事迹,让学生在感动之余深刻领悟优秀的电力企业文化和企业精神。
2.企业优秀员工到校兼职教育
为了让学生对企业文化和企业精神有更直接的感悟,学院聘请电力企业优秀员工到校参与学生的教育。这些来自一线工作岗位的优秀职工,不仅将丰富的实践经验和行业发展的最新成果带进课堂,提升了学生的专业技能;同时也以自身吃苦耐劳、爱岗敬业、诚实守信等优秀品质潜移默化的影响学生,让学生形成企业所需的优秀职业道德。
二、在行为上强化高职学生的自我识别
1.教学班引进企业班组建制
高职教学班身着统一的工作装,借鉴企业的班组建制,采取学生自愿、教师指导的方式将全班分成若干个班组,各班组民主选举班组长、制定班组制度和共同愿景;班组将学院、班级事务下放、划拨到每个班组成员,成员间既有共同目标,又有各自不同的任务。利用看板定时呈现各班组的学习和生活情况,为每位成员建立个人成长记录,根据目标实现程度及任务推进情况定期评选优秀班组和班组之星,为学生树立勤学守纪的典型,引导正确的发展方向。该项举措既强化了班组成员间的团结协作,又加强了班组间的良性竞争意识。
2.教室、寝室、实训场地的5S企业现场管理
借助于5S企业现场管理的方法,要求学生对教室、寝室、实训场地进行整理,区分要与不要的物品,把不需要的杂物清除掉;教室里的桌椅、清洁工具,寑室里的洗漱用品、生活用具,实训场地里的设备、工具、图纸、资料等全部按规定合理、规范放置;各种标示一目了然、物品放置易于取用、区域划线清晰分明,定期进行清扫,制定相应的规章制度,通过不间断的检查来确保改善的持续深入推进。企业优秀管理方法的实施,不仅能够使校园保持清洁,更能使高职学生养成良好的生活和工作习惯,提高个人素养,从而更好地适应现代企业精益化、标准化的管理要求。
3.校园内的企业文化活动
在学院“素质拓展训练基地”对学生开展攀岩、跨越、求生等训练,强化学生的良好心理素质,增强学生的竞争意识和团队精神;举办“电力安全知识竞赛”、“水利工程中的CAD应用”、“电能计量装置误接线判断”、“登杆作业”、“全站仪控制测量及放样”、“触电救护”等各类技能训练和技能比赛,在校园中创设企业的仿真环境,进行岗位适应性训练,让学生把所学理论转化为实际的动手能力。
4.校外社会实践活动
在学生中大力开展党团建设,端正学生的人生观、价值观、世界观;对学生干部实行素质拓展认证制度;组织青年志愿者参与社区服务;组织学生到偏远地区调研水利、电力、教育等情况,开展电力科技、农村安全用电等科普宣传,建立“社会实践服务基地”,完成调研论文上报省电机工程学会。
5.校外企业顶岗实习
学院与四川省电力公司、国电集团川渝公司、中国水电五局、中国水电七局等多家企业建立了长期的合作关系,为学生提供用电检查、电力营销、架控线路施工、电能计量等专业对口的企业岗位实践,让学生进入企业、下到车间,以企业职工的身份代班代岗。通过顶岗实习,学生们熟悉了企业环境、工作流程、生产要求,也清晰了自身与工作岗位间的差距,既促进学生对自身高职角色的认知,更有利于学生向企业职工的角色转换。
三、在视觉上强化高职学生的自我识别
视觉识别独具直观性和形象性,对人有最直接的冲击力和感染力,最容易被感知、记忆和认同,学院特别注意强化学生对自己高职身份的识别。
1.基础视觉识别
作为国家电网下属的高职院校,学院在基础视觉方面呈现出与企业相同的风格:使用国家电网徽记,标准色统一为深绿色,在标志外环的企业名称下加注学院名称。这种集标志、标准字、标准色于一体的徽记,在向学生传达国家电网为社会提供洁净能源,与客户建立互惠和谐关系的企业服务理念的同时,也体现了学院植根电力,与光明同行的办学方针。
2.应用视觉识别
【关键词】语音识别 音频文字自动提取
一、引言
由于计算机技术近年来发展非常迅速,使人们用语言与计算机进行通信与交流已成为可能,而起草文稿、撰写文章、准备教案、会议记录等都需要文字整理,对比传统的键盘和鼠标输入方式,语音识别技术在速度上要提高2~4倍。
从音频中自动提取文字是以语音识别系统为核心,对参考文本和对应语音进行强制对准的过程,其目的在于将音频信息转换为文本文字。作为语音识别领域中一种常见的预处理技术,音频文字自动提取广泛应用在政府机关、企事业单位的会议记录;网络文字直播;媒体采访速记;录像文字整理;广播电视媒体;录音文字整理;大量文字的录入排版、打印输出,计算机辅助语言教学等方面,此外,还可为现场直播的新闻、演讲、会议等生成字幕;为语言教学、游戏娱乐、电影制作等生成多媒体库;为歌曲制作同步的歌词显示等。
由此可见,音频中提取文字这项技术的用处很大,而目前能实现自动翻译的语音识别同生速记系统还正在研究之中。市场上要将录音转换成文字的方法就是找专业的速记公司,进行人工翻译,工作量大,效率慢,而且收费很高,一般每小时录音收费为200元左右。
二、背景及发展现状
语音识别技术的研究工作起始于20世纪50年代,贝尔实验室通过提取语音特征参数,第一个实现了可以识别10个英文数字的语音识别系统。20世纪80年代,人工神经网络技术引入语音识别,HMM模型和人工神经元网络ANN被成功应用,进入90年代后语音识别系统从实验室逐步走向实用。我国语音识别研究工作起步于20世纪80年代,从1987年开始执行国家863计划后,以清华大学电子工程系与中科院自动化研究所为代表的研究机构,得到了国家自然科学基金重大和重点项目等基金的支持,取得了丰硕的研究成果。目前市场上主要产品有北京阳宸电子技术公司的 VS-99 语音自动识别系统、科大讯飞的 InterVeri 系列等开发的语音自动识别系统等。
三、语音识别原理
自动语音识别技术(Auto Speech Recognize,简称ASR),在整个构建过程中包括两个阶段:训练阶段和识别阶段。在训练阶段,ASR系统进行语音收集,然后对收集的语音进行降噪处理,消除部分噪音和发音者的个性特点,为了使处理后的信号更清晰,可以将发音者语音中的词汇内容转换为数字格式,即计算机可读的输入,例如二进制编码,然后ASR系统将提取的每个语音单位的特征矢量进行一定的处理,然后存入到模板库中。
在模式匹配(即识别)过程中,ASR系统通过学习算法产生特征矢量,在识别时将输入语音的特征矢量与模板库征矢量相比较,找到最匹配的单词序列。目前最具有代表性的ASR技术有动态时间环绕技术、隐马尔科夫(markov)模型(HMM)和人工神经网(ANN)模型。其中基于HMM的技术最为流行且语音识别性能最好。
四、 音频文字自动提取的设计与实现
通常音频素材所占的容量都比较大,为了节省工作量,在使用素材之前,一般使用goldwave将音频素材分割成所需要的长度。再配合使用Windows 7系统中的语音识别功能,通过该功能,可以让我们彻底抛开鼠标和键盘,只用语音控制电脑,特别是配合word软件,还能实现文本的语音输入,识别的准确性也较高。为了使win7语音识别系统获得更清晰的语音素材,需要在播放音频素材的同时使用内录功能,文本软件会记录下提取到的音频文字内容,创建文本文档,也可在文档中进行修改或更正错误。
尽管win7系统可以实现音频文字的自动提取,由于环境噪声、使用者的语音差别等等因素,所以其最终识别率并不高。所以,我们还需要对win7语音识别系统进行模型训练。通过不断纠正其错误识别文字,在数据库中加入生僻名词,反复使用音频素材对模型进行训练,使语音识别系统最终能完全识别音频素材,以此来优化模型,提高语音系统的识别率。
五、总结和展望
如今计算机语音识别技术作为一股潜在的发展技术极大提高人们的现实生活需要,不仅转变了人们的生活方式,提高了工作效率,更加推动了社会的进步和文明的发展,所以从音频中自动提取文字具有广阔的应用前景,由于语音自动识别的局限性,使得这项技术任重而道远,。
在今后的科研中,音频中自动提取文字将被更加广泛的应用,各种具有音频自动提取文字的产品也将渐渐在市场上出现,随着计算机信息技术的不断发展创新,语音识别系统将会引领我们的信息技术革命到一个新的台阶。
关键词:语音识别;动态时间规整算法;人工神经元网络
中图分类号:H017文献标识码:A文章编号:1672-3198(2008)02-0199-02
1 背景介绍
语言是人类特有的功能,是人们思维最重要的寄托体,是人类交流最主要的途径。语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类社会科学文化发展紧密相连。
语音识别技术是让机器接收,识别和理解语音信号,并将其转换成相应的数字信号的技术。它是一门交叉学科,涉及到语音语言学、数理统计、计算机、信号处理等一系列学科。
2 发展历史
1952年贝尔实验室的Davis等人研制成功了能识别十个英文数字发音的Audry系统,标志着语音识别技术研究工作开始。20世纪60年代计提出了动态规划(Dynamic programming)和线性预测分析技术(Liner Predictive)等重要成果。20世纪70年代,语音识别领域取得了突破。实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。20世纪80年代语音识别研究进一步走向深入, 基于特定人孤立语音技术的系统研制成功, 隐马尔可夫模型和人工神经元网络(Artificial Neural Network)在语音识别中的成功应用。进入20世纪90年代后语音识别系统开始从实验室走向实用。我国对语音识别的研究开始于20世纪80年代,近年来发展迅速,并取得了一系列的成果。
3 具体应用
随着计算机技术、模式识别等技术的发展,适应不同场合的语音识别系统相继被开发出来,语音识别及处理技术已经越来越突现出其强大的技术优势。近三十年来,语音识别在计算机、信息处理、通信与电子系统、自动控制等领域的应用越来越广泛。
在许多政府部门、商业机构,语音识别技术的应用,可免除大量操作人员的重复劳动,既经济又方便。如:语音邮件、IP电话和IP传真、电子商务、自动语音应答系统、自动语音信箱、基于IP的语音、数据、视频的CTI系统、综合语音、数据服务系统、自然语音识别系统、专家咨询信息服务系统、寻呼服务、故障服务、秘书服务、多媒体综合信息服务、专业特别服务号(168自动信息服务系统,112、114、119等信息查询系统)等。许多特定环境下,如工业控制方面,在一些工作环境恶劣、对人身有伤害的地方(如地下、深水及辐射、高温等)或手工难以操作的地方,均可通过语音发出相应的控制命令,让设备完成各种工作。
当今,语音识别产品不仅在人机交互中,占到的市场比例越来越大,而且在许多领域都有了广阔的应用前景,在人们的社会生活中起着举足轻重的作用。
4 语音识别系统原理
语音识别一般分为两个步骤:学习阶段和识别阶段。学习阶段的任务是建立识别基本单元的声学模型以及语言模型。识别阶段是将输入的目标语音的特征参数和模型进行比较,得到识别结果。
语音识别过程如图所示。下面对该流程作简单介绍:
(1)语音采集设备如话筒、电话等将语音转换成模拟信号。
(2)数字化一般包括预滤波、采样和A/D变换。该过程将模拟信号转变成计算机能处理的数字信号。
(3)预处理一般包括预加重、加窗分帧。经预处理后的信号被转换成了帧序列的加窗的短时信号。
(4)参数分析是对短时信号进行分析,提取语音特征参数的过程,如时域、频域分析,矢量量化等。
(5)语音识别是目标语音根据特征参数与模型库中的参数进行匹配,产生识别结果的过程。一般有模板匹配法、随机模型法和神经网络等。
(6)应用程序根据识别结果产程预定动作。
(7)该过程是语音模型的学习过程。
5 现有算法介绍
语音识别常用的方法有:模板匹配法、人工神经网络法。
(1)模板匹配法是语音识别中常用的一种相似度计算方法。模板匹配法一般将语音或单词作为识别单元,一般适用于词汇表较小的场合。在训练阶段,对用户语音进行特征提取和特征维数的压缩,这个过程常用的方法是采用矢量量化(VQ)技术。然后采用聚类方法或其他方法,针对每个模式类各产生一个或几个模板。识别阶段将待识别的语音模式的特征参数与各模板进行相似度的计算,将最高相似者作为识别结果。但由于用户在不同时刻发同一个音的时间长度有较大随意性,所以识别时必须对语音时间进行伸缩处理。研究表明,简单的线性伸缩是不能满足要求的。由日本学者板仓在70年代提出的动态时间伸缩算法(DTW)很好的解决了这一问题。DTW算法能够较好地解决小词汇量、孤立词识别时说话速度不均匀的难题。DTW算法示意图如图所示。
设测试的语音参数共有M帧矢量,而参考模板有N帧矢量,且M≠N,则DTW 就是寻找一个时间归整函数tn=f(tm),它将测试矢量的时间轴tm非线性地映射到模板的时间轴tn上,并使该函数满足第k帧(k=1,2,…M)测试矢量I和第f(k)帧(f(k)=1,2…N)模板矢量J之间的距离测度之和最小:
Distance=min∑Mk=1d[I(k)-J(f(k))]
另外,在实际识别系统中,语音的起点或终点由摩擦音构成,环境噪声也比较大,语音的端点检测会存在较大的误差。DTW 算法起点点可以固定在(tm,tn)=(1,1),称为固定起点;也可以选择在(1,2)、(2,1)等点,称为松驰起点。同样,中止点可以选择在(M,N)点,称为固定终点;也可以选择在(N一1,M)、(N,M一1)等点,称为松弛终点。松弛的DTW 算法的起始点从(1,1)、(1,2)、(2,1)等点中选择一最小值,终止点从(M,N)、(M,N-1)、(M-1,N)等点中选择一最小值,两语音样本之间的相互距离在相应的点放松后选择一最小距离。松弛DTW可以克服由于端点检测不精确引起的误差,但运算量加大。
(2)人工神经网络法。现实世界的语音信号会随着许多特征如:说话人语速、语调以及环境的变化而动态变化的,想要用传统的基于模板的方法建立一个适应动态变化的语音识别系统是非常困难的。因此需要设计一个带有自学习能力的自适应识别系统,以便可以适应语音的动态变化。
人工神经网络由神经元、网络拓朴和学习方法构成。人工神经网络拓朴结构可分为反馈型和非反馈型(前馈型)。学习方法可分为监督型和非监督型。各种人工神经网络模型中应用得最典型的是采用反向传播(Back Propagation)学习算法的多层前馈网络。多层前馈型网络如图所示。
除上述介绍的几种常用的方法外,还有许多其它的识别方法以及改进算法。
6 尚未解决的问题及值得研究的方向
(1)就算法模型方面而言,需要有进一步的突破。声学模型和语言模型是听写识别的基础。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展。
(2)语音识别的自适应性也有待进一步改进。同一个音节或单词的语音不仅对随着的讲话者的不同而变化,而且对同一个讲话者在不同场合,不同上下文环境中也会发生变化。这意味着对语言模型的进一步改进。
(3)语音识别技术还需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或噪音。要在嘈杂环境中使用语音识别技术必须有特殊的抗噪麦克风才能进行,这对多数用户来说是不现实的。在公共场合中,如何让语音识别技术能有摒弃环境嗓音并从中获取所需要的特定声音是一个艰巨的任务。
虽然在短期内还不可能造出具有和人相比拟的语音识别系统,但在未来几年内,语音识别系统的应用将更加广泛,各种语音识别系统产品将陆续进入我们的生活。语音识别各个方面的技术正在不断地进步,一步步朝着更加智能化的方向发展。
参考文献
[1]杨尚国,杨金龙.语音识别技术概述[J].福建电脑,2006,(8).
[2]孙宁,孙劲光,孙宇. 基于神经网络的语音识别技术研究[J]. 计算机与数字工程,2006.
[3]Phil Woodland. Speech Recognition. Speech and Language Engineering-State of the Art (Ref. No. 1998/499).
两种识别技术的应用模式
汇丰银行的系统兼容两种安全模式。首先,汇丰银行面向 iPhone 5S、iPhone 6以及 iPhone 6S 的应用将会利用手机的内置指纹识别器以确认用户的身份,这一点和手机进行解锁及支付等操作中的指纹验证并无二致。而在语音方面,语音识别系统将会用超过 100 个识别码对用户的语音进行比对,包括节奏、口音、发音等等。除此以外,语音识别系统还可以辨别由不同的喉咙结构、鼻道以及声道所发出的语音。
这两种技术是否会让生活更为便利?汇丰银行希望通过语音识别技术为用户免除需要记忆密码之苦,现阶段,电话银行系统所使用的密码、密令等验证信息给用户造成了较大的不便。此外,Touch ID的整合无疑也会加快手机银行应用的登录速度,用户账户的安全性也有了保证。
声音识别系统的工作原理
由声音识别企业“Nuance”公司所提供的技术内置有所谓的“Voice ID”(即声音密匙)功能,它可以记录并分析用户的说话方式,进而辨别用户口部、舌头、喉部和呼吸的特有发音方式,用户仅需经过快捷的训练环节即可正常使用。在后续登录时,用户将会被要求读出特定单词的发音,系统会对发音进行比对。
有一个问题,模仿者有可能骗过系统吗?
计算机接受声音的方式和人耳接受声音的方式非常不一样。模仿他人的声音也许是可能的,但想要在超过 100 个识别码上骗过计算机几乎是不可能的,况且计算机还会辨识用户的体征和行为模式。
如果那天我碰巧因为感冒而声线有所不同会怎么样?
即便是在因感冒而出现声线不同的情况下,Voice ID 系统还是能够识别出用户的声音,因为它所分析的声音构成因素有许多。即便是在感冒的情况下,你的口音、节奏、发音以及其他体征状况还是不会发生变化。
另外,在信号不好的情况下也会是一样,除非你的通话出现了中断等情况。
如果我身处大街等较为嘈杂的地方又如何?
绝大多数智能手机都内置有噪音消除技术,这项技术可以阻隔绝大多数的外界噪音。而 Nuance 公司和 Voice ID 系统则会对剩余的噪音进行处理。除非你在登录的时候碰巧遇上防空警报等显著的噪音,日常生活的正常噪音不会影响你的登录操作。
其他银行有没有使用语音识别技术?事实上,以巴克莱银行(Barclays)为首的其他银行在数年前已经开始面向少量用户使用语音识别技术,其中巴克莱银行的语音识别技术仅对少量优质的富裕客户开放。截至目前,我们尚未获悉这些银行有被非法入侵的纪录。
指纹识别是否足够安全
iPhone 在主页按钮上整合了 Touch ID 传感器,而你的指纹则被苹果公司保存在一个加密的模块当中。每当用户用手指接触主页按钮的时候,iPhone 会将 Touch ID 所读取的指纹和储存在加密模块当中的指纹进行比对,进而给出允许或拒绝接入的判断。用户的指纹数据不会被外泄给任何公司,包括苹果公司在内。
有可能用断指进行解锁吗?
回答是不可能的,只要罪犯了解Touch ID的工作原理,你的手指都会非常安全。
Touch ID 传感器会通过两种方式读取指纹。首先它会通过电容传感器检测由人体皮肤所释放出来的电荷,这一点和触摸屏检测触屏动作时的工作原理一样。此外,它还会使用无线电频率扫描仪来读取活体皮下组织的指纹。由于第二种方式只对活体皮下组织有效,因此断指并不能通过扫描,除非罪犯能以某种方式让其保持鲜活状态。
Touch ID
有没有被入侵的可能
如果非要说Touch ID 有没有被入侵的可能,确实有。
但尽管如此,想要入侵 Touch ID 也绝非易事,首先你需要一套价值超过 1000 英镑的设备和材料,你还需要掌握犯罪现场侦察人员的技能,并收集到需要原用户完整、清晰的指纹。入侵条件非常苛刻,一般的犯罪组织难以满足。
尚未使用其他生物体征识别技术
语音和指纹仅仅是生物识别种类的其中两项,其他目前正在使用或开发的技术包括:
1.心率识别技术,这项技术所使用的是每个人独特的心率模式;
2.血管分布模式识别技术,这项技术会检测每个人特有的皮下血管分布情况,最常用的是手掌、手腕以及手臂等部位;
3.虹膜识别技术,这项技术会通过设备的摄像头辨认用户的虹膜;
4.视网膜识别技术,和虹膜识别技术相似,这项技术会通过设备的摄像头辨认用户的视网膜。
我们曾经在电影中看到过有人通过取出他人眼球的方式来解锁保险库,这个怎么解释?
除了语音和指纹识别技术外,其他生物体征识别技术皆尚未得到广泛应用,因为这些技术在易用性、速度以及可靠性等维度上仍然有所欠缺。
有些识别系统甚至能够辨别用户使用键盘、鼠标、触摸屏等输入设备的模式,每个用户在使用这些设备时的速度、模式、压力以及习惯都有所不同,因此也可被用于用户登录的辨别工作上。但目前这类识别系统尚不会被银行等严肃的机构采纳。
这种情况也不会发生。首先,想要在保存眼球完整度的情况下取出眼球非常困难,而且想要通过视网膜扫描仪的验证,被扫描的视网膜需要保存在有血液流动的鲜活状态。虹膜扫描仪通常也会检测用户的虹膜是否发生运动,失活的眼球显然不符合这个条件。
相关链接