科技圈熱點之語音識別原理及係統分類
發布時間:2015-01-06 責任編輯:echolady
【導讀】yuyinshibiejishukeyishuoshidangzhiwukuidekejiredian。henduodedianzikejichanpindouyuyuyinshibiedabian,jianeryanzhi,yuyinshibiejishujiushijiangyuyinxinhaozhuanhuanchengwenbenxinxihuomingling。yuyinshibiejishufugaimianjiqiguangfan,benwenjiuzheyikejiredianhuatiweidajiajiexi。
語音識別的基本原理
語音識別係統本質上是一種模式識別係統,包括特征提取、模式匹配、參考模式庫等三個基本單元。
未wei知zhi語yu音yin經jing過guo話hua筒tong變bian換huan成cheng電dian信xin號hao後hou加jia在zai識shi別bie係xi統tong的de輸shu入ru端duan,首shou先xian經jing過guo預yu處chu理li,再zai根gen據ju人ren的de語yu音yin特te點dian建jian立li語yu音yin模mo型xing,對dui輸shu入ru的de語yu音yin信xin號hao進jin行xing分fen析xi,並bing抽chou取qu所suo需xu的de特te征zheng,在zai此ci基ji礎chu上shang建jian立li語yu音yin識shi別bie所suo需xu的de模mo板ban。而er計ji算suan機ji在zai識shi別bie過guo程cheng中zhong要yao根gen據ju語yu音yin識shi別bie的de模mo型xing,將jiang計ji算suan機ji中zhong存cun放fang的de語yu音yin模mo板ban與yu輸shu入ru的de語yu音yin信xin號hao的de特te征zheng進jin行xing比bi較jiao,根gen據ju一yi定ding 的de搜sou索suo和he匹pi配pei策ce略lve,找zhao出chu一yi係xi列lie最zui優you的de與yu輸shu入ru語yu音yin匹pi配pei的de模mo板ban。然ran後hou根gen據ju此ci模mo板ban的de定ding義yi,通tong過guo查zha表biao就jiu可ke以yi給gei出chu計ji算suan機ji的de識shi別bie結jie果guo。顯xian然ran,這zhe種zhong最zui優you的de結jie果guo與yu特te征zheng的de選xuan擇ze、語音模型的好壞、模板是否準確都有直接的關係。
語音識別的方法
目前具有代表性的語音識別方法主要有動態時間規整技術(DTW)、隱馬爾可夫模型(HMM)、矢量量化(VQ)、人工神經網絡(ANN)、支持向量機(SVM)等方法。
動態時間規整算法(Dynamic Time Warping,DTW)是shi在zai非fei特te定ding人ren語yu音yin識shi別bie中zhong一yi種zhong簡jian單dan有you效xiao的de方fang法fa,該gai算suan法fa基ji於yu動dong態tai規gui劃hua的de思si想xiang,解jie決jue了le發fa音yin長chang短duan不bu一yi的de模mo板ban匹pi配pei問wen題ti,是shi語yu音yin識shi別bie技ji術shu中zhong出chu現xian較jiao早zao、較常用的一種算法。在應用DTW算(suan)法(fa)進(jin)行(xing)語(yu)音(yin)識(shi)別(bie)時(shi),就(jiu)是(shi)將(jiang)已(yi)經(jing)預(yu)處(chu)理(li)和(he)分(fen)幀(zhen)過(guo)的(de)語(yu)音(yin)測(ce)試(shi)信(xin)號(hao)和(he)參(can)考(kao)語(yu)音(yin)模(mo)板(ban)進(jin)行(xing)比(bi)較(jiao)以(yi)獲(huo)取(qu)他(ta)們(men)之(zhi)間(jian)的(de)相(xiang)似(si)度(du),按(an)照(zhao)某(mou)種(zhong)距(ju)離(li)測(ce)度(du)得(de)出(chu)兩(liang)模(mo)板(ban)間(jian)的(de)相(xiang)似(si)程(cheng)度(du)並(bing)選(xuan)擇(ze)最(zui)佳(jia)路(lu)徑(jing)。
隱馬爾可夫模型(HMM)是語音信號處理中的一種統計模型,是由Markov鏈 演(yan)變(bian)來(lai)的(de),所(suo)以(yi)它(ta)是(shi)基(ji)於(yu)參(can)數(shu)模(mo)型(xing)的(de)統(tong)計(ji)識(shi)別(bie)方(fang)法(fa)。由(you)於(yu)其(qi)模(mo)式(shi)庫(ku)是(shi)通(tong)過(guo)反(fan)複(fu)訓(xun)練(lian)形(xing)成(cheng)的(de)與(yu)訓(xun)練(lian)輸(shu)出(chu)信(xin)號(hao)吻(wen)合(he)概(gai)率(lv)最(zui)大(da)的(de)最(zui)佳(jia)模(mo)型(xing)參(can)數(shu)而(er)不(bu)是(shi)預(yu)先(xian)儲(chu)存(cun)好(hao)的(de)模(mo)式(shi)樣(yang)本(ben),且(qie)其(qi)識(shi)別(bie)過(guo)程(cheng)中(zhong)運(yun)用(yong)待(dai)識(shi)別(bie)語(yu)音(yin)序(xu)列(lie)與(yu)HMM參數之間的似然概率達到最大值所對應的最佳狀態序列作為識別輸出,因此是較理想的語音識別模型。
矢量量化(Vector Quantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用於小詞彙量、gulicideyuyinshibiezhong。qiguochengshijiangruogangeyuyinxinhaoboxinghuotezhengcanshudebiaoliangshujuzuchengyigeshiliangzaiduoweikongjianjinxingzhengtilianghua。bashiliangkongjianfenchengruogangexiaoquyu,meigexiaoquyuxunzhaoyigedaibiaoshiliang,lianghuashiluoruxiaoquyudeshiliangjiuyongzhegedaibiao 矢(shi)量(liang)代(dai)替(ti)。矢(shi)量(liang)量(liang)化(hua)器(qi)的(de)設(she)計(ji)就(jiu)是(shi)從(cong)大(da)量(liang)信(xin)號(hao)樣(yang)本(ben)中(zhong)訓(xun)練(lian)出(chu)好(hao)的(de)碼(ma)書(shu),從(cong)實(shi)際(ji)效(xiao)果(guo)出(chu)發(fa)尋(xun)找(zhao)到(dao)好(hao)的(de)失(shi)真(zhen)測(ce)度(du)定(ding)義(yi)公(gong)式(shi),設(she)計(ji)出(chu)最(zui)佳(jia)的(de)矢(shi)量(liang)量(liang)化(hua)係(xi)統(tong),用(yong)最(zui)少(shao)的(de)搜(sou)索(suo)和(he)計(ji)算(suan)失(shi)真(zhen)的(de)運(yun)算(suan)量(liang)實(shi)現(xian)最(zui)大(da)可(ke)能(neng)的(de)平(ping)均(jun)信(xin)噪(zao)比(bi)。
在實際的應用過程中,人們還研究了多種降低複雜度的方法,包括無記憶的矢量量化、有記憶的矢量量化和模糊矢量量化方法。
人工神經網絡(ANN)是20世紀80年代末期提出的一種新的語音識別方法。其本質上是一個自適應非線性動力學係統,模擬了人類神經活動的原理,具有自適應性、並行性、魯棒性、容錯性和學習特性,其強大的分類能力和輸入—輸出映射能力在語音識別中都很有吸引力。其方法是模擬人腦思維機製的工程模型,它與 HMM正好相反,其分類決策能力和對不確定信息的描述能力得到舉世公認,但它對動態時間信號的描述能力尚不盡如人意,通常MLP分類器隻能解決靜態模式分 類問題,並不涉及時間序列的處理。
盡管學者們提出了許多含反饋的結構,但它們仍不足以刻畫諸如語音信號這種時間序列的動態特性。由於ANN不能很好地描述 語音信號的時間動態特性,所以常把ANN與傳統識別方法結合,分別利用各自優點來進行語音識別而克服HMM和ANN各自的缺點。近年來結合神經網絡和隱含 馬(ma)爾(er)可(ke)夫(fu)模(mo)型(xing)的(de)識(shi)別(bie)算(suan)法(fa)研(yan)究(jiu)取(qu)得(de)了(le)顯(xian)著(zhu)進(jin)展(zhan),其(qi)識(shi)別(bie)率(lv)已(yi)經(jing)接(jie)近(jin)隱(yin)含(han)馬(ma)爾(er)可(ke)夫(fu)模(mo)型(xing)的(de)識(shi)別(bie)係(xi)統(tong),進(jin)一(yi)步(bu)提(ti)高(gao)了(le)語(yu)音(yin)識(shi)別(bie)的(de)魯(lu)棒(bang)性(xing)和(he)準(zhun)確(que)率(lv)。
支持向量機(Support vector machine)是應用統計學理論的一種新的學習機模型,采用結構風險最小化原理(Structural Risk Minimization,SRM),有效克服了傳統經驗風險最小化方法的缺點。兼顧訓練誤差和泛化能力,在解決小樣本、非線性及高維模式識別方麵有許多優越的性能,已經被廣泛地應用到模式識別領域。
語音識別係統的分類
語音識別 係統可以根據對輸入語音的限製加以分類。如果從說話者與識別係統的相關性考慮,可以將識別係統分為三類:特定人語音識別係統。僅考慮對於專人的話音 進行識別;非特定人語音係統。識別的語音與人無關,通常要用大量不同人的語音數據庫對識別係統進行學習;多人的識別係統。通常能識別一組人的 語音,或者成為特定組語音識別係統,該係統僅要求對要識別的那組人的語音進行訓練。
如果從說話的方式考慮,也可以將識別係統分為三類: 孤立詞語音識別係統。孤立詞識別係統要求輸入每個詞後要停頓;連接詞語音識別係統。連接詞輸入係統要求對每個詞都清楚發音,一些連音現象開始出現;連續語音識別係統。連續語音輸入是自然流利的連續語音輸入,大量連音和變音會出現。
如果從識別係統的詞彙量大小考慮,也可以將識別係統分為三類:小詞彙量語音識別係統。通常包括幾十個詞的語音識別係統;中等詞彙量的語音識別係統。通常包括幾百個詞到上千個詞的識別係統;大da詞ci彙hui量liang語yu音yin識shi別bie係xi統tong。通tong常chang包bao括kuo幾ji千qian到dao幾ji萬wan個ge詞ci的de語yu音yin識shi別bie係xi統tong。隨sui著zhe計ji算suan機ji與yu數shu字zi信xin號hao處chu理li器qi運yun算suan能neng力li以yi及ji識shi別bie係xi統tong精jing度du的de提ti高gao,識shi別bie係xi統tong根gen據ju詞ci彙hui量liang大da小xiao進jin行xing分fen類lei也ye不bu斷duan進jin行xing變bian化hua。目mu前qian是shi中zhong等deng詞ci彙hui量liang的de識shi別bie係xi統tong,將jiang來lai可ke能neng就jiu是shi小xiao詞ci彙hui量liang的de語yu音yin識shi別bie係xi統tong。這zhe些xie不bu同tong的de限xian製zhi也ye確que定ding了le語yu音yin識shi別bie係xi統tong的de困kun難nan度du。
現如今,語音識別係統在便攜設備上的應用最為廣泛。從手機到智能手環、zhinengshoubiao,douyouyuyinshibiexitongdeshenying。danshi,xuyaozhichudeshi,xunzhaodaoyuyinshibiedezhengquetupokouhenzhongyao,jiangliliangjizhongdaozuiyoukenengqudechenggongdeshichangdangzhong,buyaomangmudetouzi,zheyangcainengshidezhexiangjishuzhenzhengdededaochangzudefazhan。
相關閱讀:
家庭監護機器人有突破!語音識別係統“箭在弦上”
專家親授:基於DSP原理的漢子語音識別係統的實現
技術達人:ARM的非特定人語音識別係統的設計
特別推薦
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
技術文章更多>>
- 貿澤EIT係列新一期,探索AI如何重塑日常科技與用戶體驗
- 算力爆發遇上電源革新,大聯大世平集團攜手晶豐明源線上研討會解鎖應用落地
- 創新不止,創芯不已:第六屆ICDIA創芯展8月南京盛大啟幕!
- AI時代,為什麼存儲基礎設施的可靠性決定數據中心的經濟效益
- 築基AI4S:摩爾線程全功能GPU加速中國生命科學自主生態
技術白皮書下載更多>>
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索





