非特定人車載音響語音控製係統的設計
發布時間:2012-03-06
中心議題:
- 語音控製器硬件設計
- 語音控製係統軟件設計
- 實驗結果及結論分析
解決方案:
- 采用Infineon公司的SDA80D51芯片
- 非特定人語音識別模塊和邏輯控製模塊設計方案
suizhexiandaidianzijishuzaiqichexitongzhongdebuduanyingyong,yuelaiyueduodechezaidianqijiarudaocheshendianzixingliezhong,shideqichedegezhongxingnengdoudedaolejidadegaishan,danqichejiashishide開關也越來越多, 這就為駕駛員行車中對車載電器的操作提出了更高的要求,同時也給行車過程帶來了不安全的隱患。隨著語音識別算法的改進和新一代Soc專(zhuan)用(yong)語(yu)音(yin)處(chu)理(li)芯(xin)片(pian)的(de)問(wen)世(shi),使(shi)用(yong)語(yu)音(yin)命(ming)令(ling)控(kong)製(zhi)汽(qi)車(che)電(dian)器(qi)的(de)操(cao)作(zuo)能(neng)夠(gou)部(bu)分(fen)用(yong)口(kou)代(dai)替(ti)手(shou)的(de)功(gong)能(neng),從(cong)而(er)減(jian)輕(qing)駕(jia)駛(shi)員(yuan)操(cao)作(zuo)負(fu)擔(dan),提(ti)高(gao)行(xing)車(che)安(an)全(quan)係(xi)數(shu)。
目mu前qian我wo國guo的de車che身shen電dian子zi語yu音yin控kong製zhi主zhu要yao集ji中zhong在zai汽qi車che導dao航hang係xi統tong的de應ying用yong上shang,沒mei有you充chong分fen發fa揮hui語yu音yin識shi別bie技ji術shu在zai車che身shen電dian子zi中zhong的de應ying用yong價jia值zhi。本ben文wen提ti出chu了le一yi種zhong的de以yi專zhuan用yong語yu音yin處chu理li芯xin片pianUniSpeech-SDA80D51為核心控製車載音響操作的設計方案,並在SL1102C1型車載音響上實現了對非特定人的語音識別與控製。
語音控製器硬件
車載語音控製器係統由定向拾音器、語音識別模塊、控製模塊和音響模塊組成。係統的功能是:由(you)拾(shi)音(yin)器(qi)采(cai)集(ji)駕(jia)駛(shi)員(yuan)發(fa)出(chu)的(de)語(yu)音(yin)命(ming)令(ling),利(li)用(yong)語(yu)音(yin)識(shi)別(bie)模(mo)塊(kuai)將(jiang)拾(shi)音(yin)器(qi)輸(shu)出(chu)的(de)語(yu)音(yin)物(wu)理(li)聲(sheng)音(yin)信(xin)號(hao)轉(zhuan)變(bian)成(cheng)語(yu)音(yin)數(shu)字(zi)信(xin)號(hao),並(bing)識(shi)別(bie)出(chu)語(yu)音(yin)命(ming)令(ling)對(dui)應(ying)的(de)漢(han)字(zi)或(huo)詞(ci)語(yu),之(zhi)後(hou)由(you)控(kong)製(zhi)模(mo)塊(kuai)產(chan)生(sheng)與(yu)之(zhi)對(dui)應(ying)的(de)詞(ci)條(tiao)編(bian)碼(ma)指(zhi)令(ling),通(tong)過(guo)係(xi)統(tong)I/O口線將控製命令傳達給音響,車載音響接收到控製指令產生動作,響應駕駛員的語音命令,比如快進、快退或音量調節等。係統結構及原理框圖如圖1 所示:

語音識別模塊主要由UniSpeech-SDA80D51芯片及外圍電路組成。本模塊主要實現對輸入的非特定人語音信號的識別和處理功能,輸出與語音命令對應的詞條編碼。
SDA80D51是Infineon公司專為語音識別和語音處理應用領域新推出的專用芯片,采用高集成度的Soc係統結構以0.18μm半導體工藝製造,擁有8位高速增強型M8051核心(25MIPS)和16位定點DSP核心OAK(100MIPS)的雙核架構,片內集成了直接雙訪問快速SRAM、2路ADC和2路DAC(有效精度為12Bit)、多種通信接口和通用GPIO等設備,外部隻需擴展Flash存儲器等少量外圍電路即可構成完整應用係統。
控製模塊由MCU和模擬開關電路構成,本模塊主要完成對語音識別模塊輸出的識別結果--詞條編碼信號進行邏輯分析和處理,通過模擬開關電路產生對應功能的控製信號輸出到音響,控製音響的操作。其中MCU選用美國ATMEL公司產品AT89S51,由於車載音響SL1102C1上的按鍵控製麵板為電阻式分流鍵盤電路,采用電壓采樣識別模式,對不同鍵值進行識別,綜合SDA80D51芯片輸出的I/O電壓特性,確定使用繼電器模擬SL1102C1控製麵板按鍵的閉合和斷開動作。
本設計是基於安徽森力公司的SL1102C1汽車音響。SL1102C1是專門為中檔轎車設計的汽車音響,具有MP3播放、收音機和顯示時間等功能,目前大量使用在江淮同悅轎車上。SL1102C1前板共有15個按鍵和一個用來調節音量的編碼開關。分別為開關機/靜音、音效設置、6個台位、播放/暫停、隨機播放、重複播放、瀏覽播放、選擇下曲(快進)、選擇上曲(快退)、向下搜台/上一曲、向上鎖台/下一曲、模式轉換、電台瀏覽/自動存儲台、波段切換、顯示時間/時間設置和複位等功能。
音響前板上的按鍵為電壓采樣識別方式,按鍵包含短按(延時小於0.2s)和長按(延時大於1s)兩種動作,控製模塊MCU(AT89S51)的輸出電壓為TTL電平,直接采用MCU信號驅動音響按鍵動作容易引起誤識別,造成係統誤操作,因此本文采用模擬開關電路,很好地解決了上述問題。當AT89S51接jie收shou到dao語yu音yin模mo塊kuai輸shu出chu的de一yi個ge語yu音yin命ming令ling識shi別bie結jie果guo編bian碼ma信xin號hao後hou,立li即ji進jin行xing邏luo輯ji分fen析xi並bing輸shu出chu對dui應ying的de控kong製zhi信xin號hao驅qu動dong相xiang應ying繼ji電dian器qi吸xi合he模mo擬ni按an鍵jian動dong作zuo,按an鍵jian的de短duan按an和he長chang按an功gong能neng是shi通tong過guo軟ruan件jian實shi現xian的de。
[page]
係統軟件設計
係統的軟件包括:非特定人語音識別模塊和邏輯控製模塊。
非特定人語音識別模塊基於HMM moxingsuanfa。gaisuanfatongguoduidaliangyuyinshujujinxingshujutongji,jianlishibiecitiaodetongjimoxingyuyinku,ranhoucongdaishibieyuyinzhongtiqutezheng,yumoxingkujinxingpipei,youbijiaopipeifenshudedaoshibiejieguo,bingtongguoSDA80D51的GPIO口輸出識別結果對應的詞條編碼信號。語音識別模塊主要由信號預處理、特征參數提取、模型匹配和Viterbi算法部分組成。
信號預處理部分主要完成輸入語音信號的采樣、 模/數轉換功能。A/D變換由SDA80D51內嵌12位A/D變換器實現,采樣頻率固定為8 kHz.
特征參數提取基於語音幀,采用分幀提取特片。先對語音信號進行重疊分幀,前一幀和後一幀重疊一半(幀信號重疊是體現相鄰兩幀數據之間的相關性),幀長為25ms,對每幀提取一次語音特片。
MFCC參數屬於感知頻域倒譜參數,反映了語音信號短時幅度譜的特征。p維MFCC參數的提取過程如圖1所示。
其中:m是幀號,N是單位幀內的采樣點數。
HMM是描述語音信號的一種概率統計模型,使用 MarKov鏈來模擬語音信號統計特性的變化,HMM模型是在Markov鏈的基礎上發展起來的。
Viterbi算法是一種幀同步動態規整算法,在給定觀察值序列和模型時,Viterbi算法給出了一個概率密度P(Q,O | λ)最大的狀態序列。
控製模塊的主要功能是:在zai單dan片pian機ji查zha詢xun到dao語yu音yin模mo塊kuai輸shu出chu的de語yu音yin詞ci條tiao信xin號hao後hou,查zha表biao獲huo得de詞ci條tiao編bian碼ma,根gen據ju編bian碼ma判pan斷duan對dui應ying按an鍵jian是shi長chang按an或huo短duan按an,分fen別bie進jin入ru相xiang應ying的de子zi程cheng序xu處chu理li,長chang按an子zi程cheng序xu延yan時shi1s,短按子程序延時0.2s.在子程序中,輸出語音命令所對應的I/O控製信號驅動繼電器吸合模擬按鍵或編碼開關動作,並及時複位I/O口。為了避免語音控製和手動控製之間衝突,語音控製模塊可以完全兼容於手動控製,在語音控製操作時,同時可以進行手動控製。
實驗結果及結論
本係統的樣機實驗主要是測試非特定人的語音識別率和模擬開關動作的準確率。由於汽車音響的語音詞條為2~4個字,語音識別率實驗內容為車載音響常用2字詞條指令18條、3字詞條指令12條、4字詞條指令10條,實驗對象為6人4男、2女(普通話和方言),實驗環境為噪聲幹擾環境和相對安靜環境,樣機測試結果如表1所示。

由表1可知,係統的識別率與語音指令詞條字數、麥克接收距離、說話人方言及環境有關。4字詞識別率高於2字詞,相對安靜環境下識別率可以達到90%以上,男聲和女聲的識別率接近。有噪聲幹擾環境中識別率下降。為了提高係統的識別率,係統樣機采用奧林巴斯 ME52定向麥克(在表中沒有反映),提高了麥克接收範圍,使係統總體的識別率上升到95%.
在係統樣機控製電路實驗中,模擬開關動作達到了較高的準確率,測試結果為98%以上,隻要控製程序運行正常,各路繼電器就能按照程序安排執行閉合和斷開模擬手動開關操作。
實現汽車電器的語音控製是未來車載電器的發展趨勢,越來越多的解決方案在不斷的被提出和驗證。本文提出的設計是在SL1102C1型車載音響上使用SDA80D51芯(xin)片(pian),實(shi)現(xian)了(le)車(che)載(zai)音(yin)響(xiang)非(fei)特(te)定(ding)人(ren)的(de)語(yu)音(yin)識(shi)別(bie)與(yu)控(kong)製(zhi)。由(you)於(yu)該(gai)芯(xin)片(pian)集(ji)成(cheng)度(du)高(gao),需(xu)要(yao)外(wai)圍(wei)模(mo)塊(kuai)少(shao),設(she)計(ji)的(de)硬(ying)件(jian)電(dian)路(lu)簡(jian)單(dan),便(bian)於(yu)調(tiao)試(shi)檢(jian)測(ce)。該(gai)設(she)計(ji)得(de)到(dao)的(de)樣(yang)機(ji),有(you)較(jiao)高(gao)的(de)識(shi)別(bie)率(lv)、工作穩定、可擴展性強,達到預期的設計目標,整個設計方案和實現方法是可行的。由於語音識別率隨著環境,說話人不同而變化,雖然HMM在zai噪zao聲sheng很hen少shao的de環huan境jing下xia可ke以yi獲huo得de很hen高gao的de識shi別bie率lv,但dan當dang測ce試shi語yu音yin或huo者zhe環huan境jing中zhong含han有you不bu同tong程cheng度du的de噪zao聲sheng汙wu染ran時shi,語yu音yin識shi別bie係xi統tong的de性xing能neng會hui很hen快kuai地di下xia降jiang。提ti高gao係xi統tong的de抗kang噪zao性xing和he魯lu棒bang性xing是shi語yu音yin識shi別bie係xi統tong走zou向xiang實shi用yong化hua的de關guan鍵jian之zhi一yi。
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
- 算力爆發遇上電源革新,大聯大世平集團攜手晶豐明源線上研討會解鎖應用落地
- 築基AI4S:摩爾線程全功能GPU加速中國生命科學自主生態
- 一秒檢測,成本降至萬分之一,光引科技把幾十萬的台式光譜儀“搬”到了手腕上
- AI服務器電源機櫃Power Rack HVDC MW級測試方案
- 突破工藝邊界,奎芯科技LPDDR5X IP矽驗證通過,速率達9600Mbps
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall





