專家親授:基於DSP原理的漢子語音識別係統的實現
發布時間:2014-11-04 責任編輯:echolady
【導讀】語(yu)音(yin)識(shi)別(bie)是(shi)機(ji)器(qi)通(tong)過(guo)識(shi)別(bie)理(li)解(jie)之(zhi)後(hou)將(jiang)語(yu)音(yin)信(xin)號(hao)轉(zhuan)化(hua)成(cheng)文(wen)本(ben)文(wen)件(jian)的(de)高(gao)科(ke)技(ji)。這(zhe)一(yi)領(ling)域(yu)現(xian)如(ru)今(jin)已(yi)成(cheng)為(wei)研(yan)究(jiu)的(de)焦(jiao)點(dian),並(bing)且(qie)在(zai)某(mou)些(xie)領(ling)域(yu)已(yi)取(qu)得(de)了(le)突(tu)破(po)成(cheng)就(jiu)。本(ben)文(wen)由(you)專(zhuan)家(jia)從(cong)原(yuan)理(li)入(ru)手(shou),深(shen)入(ru)解(jie)析(xi)語(yu)音(yin)識(shi)別(bie)係(xi)統(tong)的(de)實(shi)現(xian)過(guo)程(cheng)。
作為專門的研究領域,語音識別又是一門交叉學科,它與聲學、語音學、語言學、數字信號處理理論、信息論、計算機科學等眾多學科緊密相連。本漢語語音識別係統是一個非特定人的、孤立音語音識別係統。其中孤立音至少包括漢語的400多個調音節(不考慮聲調)以及一些常用的詞組。識別係統主要用於手持設備,如手機、掌上電腦。這些設備的CPU一般是DSP,硬(ying)件(jian)資(zi)源(yuan)十(shi)分(fen)有(you)限(xian),而(er)且(qie)大(da)多(duo)不(bu)支(zhi)持(chi)浮(fu)點(dian)運(yun)算(suan)。那(na)麼(me),對(dui)係(xi)統(tong)各(ge)個(ge)部(bu)分(fen)的(de)設(she)計(ji)首(shou)要(yao)考(kao)慮(lv)的(de)是(shi)係(xi)統(tong)對(dui)硬(ying)件(jian)資(zi)源(yuan)的(de)開(kai)銷(xiao)必(bi)須(xu)盡(jin)量(liang)的(de)小(xiao),不(bu)能(neng)超(chao)過(guo)這(zhe)些(xie)設(she)備(bei)的(de)限(xian)製(zhi)。硬(ying)件(jian)資(zi)源(yuan)的(de)開(kai)銷(xiao)包(bao)括(kuo)存(cun)儲(chu)模(mo)型(xing)參(can)數(shu)的(de)開(kai)銷(xiao),以(yi)及(ji)識(shi)別(bie)過(guo)程(cheng)中(zhong)對(dui)內(nei)存(cun)、DSP的運行時間的開銷。
語音識別係統的實現流程

圖1:語音識別係統處理框圖
在語音識別係統中,模擬的語音信號在完成A/Dzhuanhuanhouchengweishuzixinhao,danshiyushangdeyuyinxinhaohennanzhijieyongyushibie,yincixuyaocongyuyinxinhaozhongtiquyuyindetezheng,yifangmiankeyihuodeyuyindebenzhitezheng,lingyifangmianyeqidaoshujuyasuodezuoyong。shurudemoniyuyinxinhaoshouxianyaojinxingyuchuli,baokuoyulvbo、采樣和量化、加窗、端點檢測、預yu加jia重zhong等deng。語yu音yin識shi別bie係xi統tong的de模mo型xing通tong常chang由you聲sheng學xue模mo型xing和he語yu言yan模mo型xing兩liang部bu分fen組zu成cheng,分fen別bie對dui應ying於yu語yu音yin到dao半ban音yin節jie概gai率lv的de計ji算suan和he半ban音yin節jie到dao字zi概gai率lv的de計ji算suan。
語音識別係統的特征提取
目mu前qian通tong用yong的de特te征zheng提ti取qu方fang法fa是shi基ji於yu語yu音yin幀zhen的de,即ji將jiang語yu音yin信xin號hao分fen為wei有you重zhong疊die的de若ruo幹gan幀zhen,對dui每mei一yi幀zhen提ti取qu語yu音yin特te征zheng。由you於yu本ben技ji術shu方fang案an采cai用yong的de語yu音yin庫ku采cai樣yang率lv為wei8 kHz,因此采用幀長為256個采樣點(即32 ms),幀步長或幀移(即每一幀語音與上一幀語音不重疊的長度)為80個采樣點(即10 ms)。
現有語音識別係統采用的最主要的兩種語音特征包括:
線性預測倒譜參數(Linear Prediction Cepstrum Coefficient,LPCC),該特征是基於語音信號為自回歸信號的假設,利用線性預測分析獲得倒譜參數。LPCC參數的優點是計算量小,對元音有較好的描述能力,其缺點在於對輔音的描述能力較差,抗噪聲性能較差。
Mel 頻標倒譜參數(Mel Frequency Cepstrum Coefficient,MFCC),該特征考慮了人耳的聽覺特性,將頻譜轉化為基於Mel頻標的非線性頻譜,然後轉換到倒譜域上。由於充分模擬了人的聽覺特性,而且沒有任何前提假設,MFCC參數具有識別性能和抗噪能力,實驗證明在漢語數碼語音識別中MFCC 參數的性能明顯優於LPCC參數,因此本技術方案采用MFCC參數為語音特征參數。
求MFCC參數的大致過程為:
對輸入語音幀加Hamming窗後做快速傅裏葉變換(Fast Fourier Transformation,FFT),將時域信號轉化為頻域信號。
將線性頻標轉化為Mel頻標。轉化方法是將頻域信號通過24個三角濾波器,其中中心頻率在1 000 Hz以上和以下的各12個。濾波器的中心頻率間隔特點是在1000Hz以下為線性分布,1 000 Hz以上為等比數列分布。三角濾波器的輸出為:

用離散餘弦變換(Discrete Cosine Transformation,DCT)將濾波器輸出變換到倒譜域:

為體現語音的動態特性,在語音特征中加入了一階差分倒譜,其計算方法如下式所示:

[page]
MFCC參數計算的要點是將線性功率譜S(n)轉換成為Mel頻率下的功率譜,這需要在計算之前先在語音的頻譜範圍內設置若幹個帶通濾波器Hm(n),m= 0,1,2,…,M - 1,n = 0,1,2,…,N/2 - 1。M為濾波器個數,N為一幀語音信號的點數。每個濾波器具有三角形特性,其中心頻率為fm,它們在Mel頻率軸上是均勻分布的。在線性頻率上,當m 較小時相鄰的fm間隔很小,隨著m的增加相鄰的fm間隔逐漸拉開。Mel頻率和線性頻率的轉換關係如下:

圖2:利用人耳仿生學特性設計的Mel尺度濾波器組
測度估計技術可以采用動態時間彎折DTW、隱馬爾可夫模型HMM或人工神經網ANN等算法,本項目采用國際上最先進的HMM,這樣能夠比較容易的實現非特定人,而且係統結構也比較靈活、一致。
根據描述的語音單位的大小,HMM可分為:基於整詞模型的HMM(Word based HMM)。其優點為可以很好地描述詞內音素協同發音的特點,建模過程也較為簡單。因此很多小詞彙量語音識別係統均采用整詞模型HMM。但在大詞彙量語音識別中由於所需建立的模型太多而無法使用。
基於子詞模型的HMM(Sub Word based HMM)。該類HMM描(miao)述(shu)的(de)語(yu)音(yin)單(dan)位(wei)比(bi)詞(ci)小(xiao),如(ru)英(ying)語(yu)語(yu)音(yin)識(shi)別(bie)中(zhong)的(de)基(ji)本(ben)音(yin)素(su),漢(han)語(yu)語(yu)音(yin)識(shi)別(bie)中(zhong)的(de)半(ban)音(yin)節(jie)等(deng)。其(qi)優(you)點(dian)為(wei)模(mo)型(xing)總(zong)數(shu)少(shao),所(suo)以(yi)在(zai)大(da)詞(ci)彙(hui)量(liang)語(yu)音(yin)識(shi)別(bie)中(zhong)得(de)到(dao)了(le)廣(guang)泛(fan)的(de)應(ying)用(yong)。其(qi)缺(que)點(dian)在(zai)於(yu)其(qi)描(miao)述(shu)詞(ci)內(nei)協(xie)同(tong)發(fa)音(yin)的(de)能(neng)力(li)劣(lie)於(yu)整(zheng)詞(ci)模(mo)型(xing),但(dan)由(you)於(yu)子(zi)詞(ci)模(mo)型(xing)已(yi)經(jing)得(de)到(dao)了(le)非(fei)常(chang)充(chong)分(fen)的(de)研(yan)究(jiu),所(suo)以(yi)近(jin)年(nian)來(lai)在(zai)很(hen)多(duo)小(xiao)詞(ci)表(biao)應(ying)用(yong)識(shi)別(bie)係(xi)統(tong)中(zhong)也(ye)用(yong)了(le)子(zi)詞(ci)模(mo)型(xing)。本(ben)技(ji)術(shu)方(fang)案(an)采(cai)用(yong)基(ji)於(yu)半(ban)音(yin)節(jie)(即聲、韻母)的語音建模方法,其識別模型拓撲結構如圖3 所示,其中靜音HMM采用1個狀態,每一聲母模型采用2個狀態,每一韻母模型采用4個狀態。

圖3:語音模型拓撲結構
離散HMM(Discrete HMM,DHMM)。其(qi)輸(shu)出(chu)概(gai)率(lv)是(shi)基(ji)於(yu)一(yi)套(tao)碼(ma)本(ben)的(de)離(li)散(san)概(gai)率(lv)分(fen)布(bu),其(qi)優(you)點(dian)在(zai)於(yu)由(you)於(yu)實(shi)現(xian)了(le)存(cun)儲(chu)量(liang)和(he)計(ji)算(suan)量(liang)都(dou)較(jiao)小(xiao),所(suo)需(xu)的(de)訓(xun)練(lian)語(yu)音(yin)也(ye)較(jiao)少(shao),但(dan)其(qi)矢(shi)量(liang)量(liang)化(hua)的(de)過(guo)程(cheng)會(hui)造(zao)成(cheng)性(xing)能(neng)的(de)損(sun)失(shi)。
連續HMM(Continuous Density HMM,CDHMM)。其輸出概率是連續概率密度函數(一般是高斯混合密度函數)。其所需的訓練語音較多,模型參數存儲量和計算量都較大,在訓練語音足夠時,其性能優於DHMM。
半連續HMM(Semi Continuous HMM,SCHMM)。SCHMM是DHMM和CDHMM的折衷,與DHMM相似,其輸出為一套碼本,但每個碼字均為一個連續概率密度分布函數,這一點與CDHMM相近。其性能和所需的訓練語音等均介於DHMM和CDHMM之間。
考慮到漢語數碼語音所需的模型較少,很容易獲得足夠多的訓練語音,因此本技術方案采用了CDHMM為語音模型。
狀態輸出概率分布為混合高斯密度函數。其各分量計算如下:


該算法利用Viterbi譯碼的過程進行幀同步的搜索,易於實時實現,也容易納入語法信息。考慮到係統的實時實現性,本技術方案采用Viterbi譯碼作為係統的搜索算法。
係統試驗結果
在漢語全音節與詞組混合的語音識別任務中,得到的初步實驗結果為:PC微機浮點算法條件下正確覆蓋率不低於98%,定點算法的正確覆蓋率不低於97%。DSP嵌入係統定點條件下正確覆蓋率不低於96%。係統的響應時間滿足實時識別的要求。通過測試組嚴格的檢查及抽樣測試,證明上述結果真實可靠,該輸入法基本達到實用化要求。
總結
漢(han)字(zi)語(yu)音(yin)識(shi)別(bie)是(shi)科(ke)技(ji)領(ling)域(yu)的(de)重(zhong)要(yao)課(ke)題(ti),本(ben)文(wen)介(jie)紹(shao)的(de)方(fang)案(an)設(she)計(ji)采(cai)用(yong)孤(gu)立(li)語(yu)音(yin)的(de)全(quan)音(yin)階(jie)和(he)詞(ci)組(zu)的(de)混(hun)合(he)識(shi)別(bie)模(mo)式(shi),使(shi)用(yong)連(lian)續(xu)概(gai)率(lv)分(fen)布(bu)非(fei)特(te)定(ding)人(ren)的(de)聲(sheng)學(xue)模(mo)型(xing),並(bing)輔(fu)以(yi)多(duo)候(hou)選(xuan)的(de)人(ren)機(ji)交(jiao)互(hu)方(fang)式(shi),漢(han)子(zi)語(yu)音(yin)的(de)輸(shu)入(ru)。相(xiang)信(xin)未(wei)來(lai)在(zai)語(yu)音(yin)識(shi)別(bie)的(de)方(fang)向(xiang)上(shang)還(hai)會(hui)取(qu)得(de)更(geng)大(da)的(de)突(tu)破(po)。
相關閱讀:
技術達人:ARM的非特定人語音識別係統的設計
智能手機的超性能語音識別技術
技術分享:基於DSP和OZ890的電池管理係統電路設計
特別推薦
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
技術文章更多>>
- 一秒檢測,成本降至萬分之一,光引科技把幾十萬的台式光譜儀“搬”到了手腕上
- AI服務器電源機櫃Power Rack HVDC MW級測試方案
- 突破工藝邊界,奎芯科技LPDDR5X IP矽驗證通過,速率達9600Mbps
- 通過直接、準確、自動測量超低範圍的氯殘留來推動反滲透膜保護
- 從技術研發到規模量產:恩智浦第三代成像雷達平台,賦能下一代自動駕駛!
技術白皮書下載更多>>
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索
按鈕開關
白色家電
保護器件
保險絲管
北鬥定位
北高智
貝能科技
背板連接器
背光器件
編碼器型號
便攜產品
便攜醫療
變容二極管
變壓器
檳城電子
並網
撥動開關
玻璃釉電容
剝線機
薄膜電容
薄膜電阻
薄膜開關
捕魚器
步進電機
測力傳感器
測試測量
測試設備
拆解
場效應管
超霸科技


