智能手機的超性能語音識別技術
發布時間:2011-12-20
中心議題:
當語音識別技術應用到計算機桌麵的時候,這看起來似乎是一個好主意。但是,對於大多數人來說,語音識別還不能取代鍵盤和鼠標。現在,語音技術正用於一個全新的環境:shouji。yuyinshibiejishuzaishoujizhongdeyingyongjiangjinyibutuidongzhezhongjishuxiangxindefangxiangfazhanheyingyong。zheshiyuyinshibiejishuzaitaishidiannaoyingyongzhongconglaimeiyoushezudefangxiang。
IBM今年將紀念其創建100周年。IBM在60年代初期創建了一個名為“Shoebox”的試驗性的語音識別係統。這個係統解決了口語算法問題。語音識別技術是在50年代作為一項早期的技術第一次出現的,當時主要是由於好奇。在60年代初,IBM的“Shoebox”設備能夠識別出16個口語單詞並且能夠回答簡單的數學問題,如“3 + 4 =?”。
Dragon Systems在80年代初為DOS計算機推出的DragonDictate可ke能neng是shi第di一yi個ge語yu音yin識shi別bie應ying用yong程cheng序xu。這zhe個ge應ying用yong程cheng序xu隻zhi能neng識shi別bie單dan個ge單dan詞ci,每mei次ci隻zhi說shuo一yi個ge單dan詞ci。隨sui著zhe時shi間jian的de推tui移yi,這zhe個ge應ying用yong程cheng序xu已yi經jing發fa展zhan成cheng為wei名ming為wei“Dragon NaturallySpeaking”(目前是第11個版本,由Nuance通訊公司所有)的產品。這個應用程序能夠翻譯以正常的會話語音和速度讀出的文本。
語yu音yin識shi別bie技ji術shu在zai台tai式shi電dian腦nao中zhong的de應ying用yong有you兩liang個ge製zhi約yue因yin素su。第di一yi,為wei了le使shi這zhe個ge應ying用yong程cheng序xu以yi更geng高gao的de準zhun確que性xing工gong作zuo,這zhe個ge應ying用yong程cheng序xu必bi須xu要yao進jin行xing訓xun練lian以yi便bian識shi別bie用yong戶hu的de語yu音yin特te征zheng。Windows Vista和Windows 7操作係統中的本地語音轉換文本技術和Dragon NaturallySpeaking等第三方產品仍然都需要一個用戶訓練期才能使用。
第二個製約因素是鍵盤的流行程度。大多數人已經習慣於鍵盤打字而不是講話,因此,語音控製麵臨Dvorak鍵盤布局同樣的應用障礙。當簡單的老式QWERTY鍵盤供貨充足並且工作的很好的時候,為什麼要學習使用Dvorak鍵盤呢?
微軟TellMe團隊是負責為多媒體環境開發語音識別技術的部門。TellMe團隊高級產品經理Abhi Rele指出,在台式電腦環境,用戶有方便的人機交流模式,如鍵盤和鼠標。因此,語音的使用主要是針對語音愛好者的。
語音控製的計算更廣泛的應用需要兩件事情:更好的方便的應用和主要使用語音的地方。手機正是很長時間以來一直在增長的這種地方。
Nuance負責產品管理和營銷的副總裁Matt Revis解釋說,台式電腦和移動環境的區別是這樣的:台式電腦是一個固定的環境,重點完全在於台式電腦的使用情況。因此,台式電腦的語音技術主要執行如下任務:支持辦公應用程序、網絡瀏覽、通訊等。在移動方麵,語音更多地用於支持各種生活方式方麵:移動中的專業人員、戶外的有趣活動、免提電話等等。
Gartner分析師Tuong Nguyen讚同這個觀點:語音在移動環境中更有意義。他說,從使用的角度看,掌上設備的語音識別功能價值更大。它增加了用戶友好的、方便的輸入方式。
Nguyenbuchongshuo,ruguobuyongyuyinjishushuochuyigejiandandeshuomingyuju,ershifandongxuduocaidanhuozhenulidizaixiaoxianshipingjianpanshangjinxingshuru,yuyinshibiedejiazhijiuxianxianchulaile。suizhechumopingshebei(沒有物理鍵盤)應用的增長,語音識別技術將用來增強數據輸入和輸出。語音識別還支持免提要求或者法律要求。
[page]
在移動設備方麵
因為移動設備一般僅支持台式電腦的一部分存儲和處理功能,語音處理需要一些時間才能以基本的形式出現在手機中。
語音處理Springer手冊解釋了手機在2000年nian代dai初chu的de情qing況kuang。盡jin管guan那na時shi還hai有you一yi些xie局ju限xian性xing,但dan是shi,手shou機ji經jing過guo編bian程cheng之zhi後hou能neng夠gou識shi別bie逐zhu個ge數shu字zi的de撥bo號hao語yu音yin,在zai某mou種zhong程cheng度du上shang還hai能neng識shi別bie人ren的de名ming字zi。主zhu要yao問wen題ti是shi內nei存cun,因yin此ci,大da多duo數shu手shou機ji一yi次ci隻zhi能neng識shi別bie10個數字或者名字。但是,這些作者指出的另一個問題是這個功能使用的比較少,可能是因為手機廠商在這方麵的營銷很糟糕。
隨著手機的增加內存和增強處理能力,普通手機的識別能力也增強了。三星電子在2005年發布的售價99美元的SCH-p-207型手機增加了語音至文本的聽寫功能和語音撥號功能。隨著內存達到數百MB和存儲容量達到數GB,目前這一代智能手機很少受到限製。
另ling一yi個ge關guan鍵jian的de進jin步bu是shi網wang絡luo速su度du。速su度du更geng快kuai的de無wu線xian網wang絡luo浪lang潮chao抬tai高gao了le許xu多duo大da船chuan,包bao括kuo最zui新xin一yi代dai的de語yu音yin處chu理li技ji術shu。速su度du更geng快kuai的de網wang絡luo能neng夠gou把ba語yu音yin處chu理li任ren務wu從cong網wang絡luo遷qian移yi到dao遠yuan程cheng服fu務wu器qi。
穀歌語音搜索產品經理Amir Mane解jie釋shi了le速su度du更geng快kuai的de網wang絡luo是shi如ru何he幫bang助zhu穀gu歌ge語yu音yin應ying用yong程cheng序xu的de。他ta說shuo,由you於yu所suo有you繁fan重zhong的de處chu理li任ren務wu都dou是shi由you穀gu歌ge服fu務wu器qi在zai網wang絡luo上shang處chu理li的de,我wo們men減jian少shao了le掌zhang上shang設she備bei計ji算suan能neng力li的de限xian製zhi。
目前的應用程序
手(shou)機(ji)語(yu)音(yin)識(shi)別(bie)技(ji)術(shu)目(mu)前(qian)的(de)狀(zhuang)態(tai)不(bu)僅(jin)僅(jin)局(ju)限(xian)於(yu)語(yu)音(yin)撥(bo)號(hao)。語(yu)音(yin)啟(qi)動(dong)的(de)功(gong)能(neng)實(shi)際(ji)上(shang)就(jiu)包(bao)括(kuo)語(yu)音(yin)撥(bo)號(hao)。這(zhe)是(shi)手(shou)機(ji)上(shang)出(chu)現(xian)的(de)第(di)一(yi)個(ge)語(yu)音(yin)識(shi)別(bie)功(gong)能(neng)。目(mu)前(qian),甚(shen)至(zhi)許(xu)多(duo)低(di)端(duan)手(shou)機(ji)都(dou)有(you)這(zhe)個(ge)功(gong)能(neng),盡(jin)管(guan)這(zhe)個(ge)功(gong)能(neng)處(chu)理(li)手(shou)機(ji)電(dian)話(hua)簿(bu)中(zhong)一(yi)些(xie)不(bu)常(chang)用(yong)的(de)名(ming)字(zi)的(de)時(shi)稍(shao)差(cha)一(yi)些(xie)。
Gartner分析師Nguyen指zhi出chu,比bi較jiao新xin的de一yi代dai語yu音yin功gong能neng是shi更geng開kai放fang的de。不bu用yong編bian程cheng執zhi行xing某mou些xie功gong能neng的de具ju體ti的de語yu音yin指zhi令ling,應ying用yong程cheng序xu可ke識shi別bie語yu音yin並bing且qie執zhi行xing適shi當dang的de行xing動dong。更geng高gao端duan的de、更強大的設備使這些應用更可行。換句話說,不僅僅是能夠使用這個短語“呼叫888-555-1212”撥打一個電話號碼,用戶還可以說“呼叫媽媽”或者“給我媽媽打電話”。
穀(gu)歌(ge)語(yu)音(yin)搜(sou)索(suo)擁(yong)有(you)比(bi)以(yi)前(qian)的(de)語(yu)音(yin)識(shi)別(bie)技(ji)術(shu)更(geng)少(shao)的(de)限(xian)製(zhi),因(yin)為(wei)所(suo)有(you)的(de)繁(fan)重(zhong)任(ren)務(wu)都(dou)是(shi)由(you)網(wang)絡(luo)服(fu)務(wu)器(qi)完(wan)成(cheng)的(de)。這(zhe)使(shi)穀(gu)歌(ge)語(yu)音(yin)搜(sou)索(suo)等(deng)語(yu)音(yin)驅(qu)動(dong)的(de)應(ying)用(yong)程(cheng)序(xu)更(geng)可(ke)行(xing)。例(li)如(ru),如(ru)果(guo)你(ni)說(shuo)“創戰紀電影時間”,你會看到一個網頁列出地區編號或者位置。這個應用程序不僅能夠識別出這個短語的意思,而且還能提供你的手機(你當前的位置)和網站(上映時間)的信息。
這個應用程序還非常熟悉英語,不用進行訓練就能自動分辨出一些詞彙的差別。如果我說“摩特裏褲(Motley Crue)樂隊”,這個應用程序甚至能在搜索詞彙方便使用這個樂隊的獨特的拚寫,盡管它會漏掉變音符號。搜索“Motley''''s Crew”,你會得到一個喜劇片。
這zhe就jiu是shi說shuo穀gu歌ge語yu音yin識shi別bie的de限xian製zhi明ming顯xian地di表biao明ming將jiang使shi你ni進jin一yi步bu脫tuo離li主zhu流liu的de英ying語yu。外wai國guo人ren的de名ming字zi是shi沒mei有you幫bang助zhu的de。語yu音yin識shi別bie應ying用yong程cheng序xu的de另ling一yi個ge問wen題ti是shi環huan境jing的de噪zao音yin。移yi動dong用yong戶hu受shou環huan境jing噪zao音yin的de影ying響xiang通tong常chang比bi台tai式shi電dian腦nao用yong戶hu多duo。Nuance公司的Revis稱,在充滿噪音的戶外環境中,語音識別的準確性是一個問題。
自從2005年三星的那款手機推出以來,聽寫功能已經取得了長足的進步。由Dragon NaturallySpeaking驅動的iPhone的Dragon聽寫功能允許用戶聽寫從備忘錄、電子郵件到Twitter更新等一切內容。用於電子郵件的Dragon軟件為黑莓設備提供了類似的功能。
對於Android手機來說,Nuance提供了FlexT9軟件。這個軟件把Dragon聽寫功能與三種類型的觸摸屏輸入方式結合在了一起。還有一個Handcent短信應用程序。這個應用程序集成了Android本地語音識別技術以幫助你用語音發短信。
文本之間的翻譯目前已經推出多年(如通過知名的Babel Fish網站進行翻譯)。同聲翻譯功能現在還沒有,不過,這種軟件很快會推出。例如,用於iPhone的Jibbigo軟件可翻譯單詞、短語和合理的簡單句子,讓雙方交替地講話。
[page]
未來的方向
詢問參加開發語音技術的每一個人下一個巨大的步驟是什麼。他們一般會給你一個答案:自然語言處理。
Revis把ba它ta解jie釋shi為wei理li解jie你ni的de意yi思si的de係xi統tong,它ta不bu僅jin僅jin知zhi道dao你ni說shuo什shen麼me。在zai會hui話hua式shi的de互hu動dong模mo式shi中zhong,用yong戶hu說shuo自zi己ji要yao說shuo的de話hua,沒mei有you限xian製zhi用yong戶hu如ru何he說shuo這zhe個ge話hua。他ta提ti供gong了le指zhi令ling或huo者zhe要yao求qiu得de到dao信xin息xi的de例li子zi,如ru“我在什麼地方能夠買到100美元以下的尼康照相機?”或者“給傑尼發個短信說我晚到20分鍾”或者“今天晚上在Morton''''s訂三個人的地方”。
穀歌的Mane稱cheng,在zai口kou語yu對dui話hua中zhong提ti供gong自zi然ran的de語yu言yan處chu理li是shi一yi個ge雙shuang重zhong挑tiao戰zhan。首shou先xian,你ni必bi須xu識shi別bie這zhe些xie單dan詞ci,然ran後hou,你ni必bi須xu理li解jie這zhe個ge意yi思si。第di一yi部bu分fen變bian得de更geng加jia容rong易yi了le。但dan是shi,第di二er部bu分fen仍reng然ran很hen難nan解jie決jue:意思是根據上下文確定的和難以應付的,人類做的語法分析也不是總是成功的。
微軟的Rele認為,手機提供的額外的服務(如羅盤或者GPS)能夠增強自然語言處理的有用性。他說,你可以為兩個人安排吃飯和看電影,方法是利用不同來源的數據把這個任務分開,如使用日曆、飯店排名、電影評論和位置等數據。
此外,手機的服務能夠用於提供講話的環境。Relebiaoshi,yonghudeyuyinshuruyijicongqitayouguanyonghujiyonghuhuanjingdechuanganqihezhuangtaihuodedezhinengxinxikeyitigonggengfengfudehegengxiangguandejieguo。liru,ruguoniganggangshiyongFoursquare網站查看有關飯店,一些含糊的語音指令就會傾向於外出吃飯、訂膳宿和要一輛出租車等事情。
多平台應用程序Vlingo自稱是“虛擬助手”,已經能夠提供這些方麵的功能。這個軟件插入到OpenTable和Fandango等服務中以完成許多任務:訂飯店、訂電影票等等。
Nguyen認為未來語音識別技術改善的另一個領域是遊戲。他說,在遊戲中可以使用語音以增加玩遊戲的不同氛圍。例如,你可以把Kirk-style船長的命令傳遞給恒星飛船或者在在一個神秘的事情中審訊疑犯。
是你嗎?已經應用的另一個功能是自動地把語音識別適用於單個用戶。這是台式電腦語音識別技術所要求的免提版語音訓練。
例如,最新版本的穀歌語音搜索有一個選擇性加入功能,允許隨著時間的推移建立一個用戶的客戶化語音特征。Mane解釋說,當用戶選擇使用客戶化語音識別的時候,我們在用戶和用戶的語調方麵畫一個界限,這使我們能夠建立一個初步的、個性化的語音識別模式。
然而,個性化識別並不是一個能夠解決一切問題的技術,它隻是實現語音識別更加無縫化的一個過渡步驟。Mane稱,我們沒有把個性化識別看作一個唯一的解決方案,因為還會有更多的一係列的技術創新。Mane認為,這種技術未來的改進需要我們的用戶更積極的參與。
結論
shoujiyizhishixuduojishudefuhuaqihetuidongyinsu,zhebaokuoyingjianheruanjianjishu。daomuqianweizhi,zaizhegezuhezhongzengjiayuyingongnengjinchanshenglezhubudegaishan,gugeyuyinyingyongchengxudehenhaodegongneng。
但dan是shi,這zhe些xie改gai進jin正zheng逐zhu步bu地di為wei更geng重zhong要yao的de進jin步bu鋪pu平ping道dao路lu。移yi動dong技ji術shu為wei如ru何he聚ju集ji這zhe些xie新xin技ji術shu提ti供gong了le一yi個ge全quan新xin的de舞wu台tai。下xia一yi步bu也ye許xu不bu是shi一yi個ge理li解jie你ni說shuo的de一yi切qie事shi情qing的de手shou機ji,而er是shi能neng夠gou充chong分fen理li解jie你ni說shuo的de事shi情qing的de一yi個ge更geng有you用yong的de手shou機ji。
- 學習智能手機的超性能語音識別技術
- 手機提供的羅盤或者GPS能夠增強自然語言處理的有用性
- 在移動設備方麵設計
- 硬件和軟件技術
當語音識別技術應用到計算機桌麵的時候,這看起來似乎是一個好主意。但是,對於大多數人來說,語音識別還不能取代鍵盤和鼠標。現在,語音技術正用於一個全新的環境:shouji。yuyinshibiejishuzaishoujizhongdeyingyongjiangjinyibutuidongzhezhongjishuxiangxindefangxiangfazhanheyingyong。zheshiyuyinshibiejishuzaitaishidiannaoyingyongzhongconglaimeiyoushezudefangxiang。
IBM今年將紀念其創建100周年。IBM在60年代初期創建了一個名為“Shoebox”的試驗性的語音識別係統。這個係統解決了口語算法問題。語音識別技術是在50年代作為一項早期的技術第一次出現的,當時主要是由於好奇。在60年代初,IBM的“Shoebox”設備能夠識別出16個口語單詞並且能夠回答簡單的數學問題,如“3 + 4 =?”。
Dragon Systems在80年代初為DOS計算機推出的DragonDictate可ke能neng是shi第di一yi個ge語yu音yin識shi別bie應ying用yong程cheng序xu。這zhe個ge應ying用yong程cheng序xu隻zhi能neng識shi別bie單dan個ge單dan詞ci,每mei次ci隻zhi說shuo一yi個ge單dan詞ci。隨sui著zhe時shi間jian的de推tui移yi,這zhe個ge應ying用yong程cheng序xu已yi經jing發fa展zhan成cheng為wei名ming為wei“Dragon NaturallySpeaking”(目前是第11個版本,由Nuance通訊公司所有)的產品。這個應用程序能夠翻譯以正常的會話語音和速度讀出的文本。
語yu音yin識shi別bie技ji術shu在zai台tai式shi電dian腦nao中zhong的de應ying用yong有you兩liang個ge製zhi約yue因yin素su。第di一yi,為wei了le使shi這zhe個ge應ying用yong程cheng序xu以yi更geng高gao的de準zhun確que性xing工gong作zuo,這zhe個ge應ying用yong程cheng序xu必bi須xu要yao進jin行xing訓xun練lian以yi便bian識shi別bie用yong戶hu的de語yu音yin特te征zheng。Windows Vista和Windows 7操作係統中的本地語音轉換文本技術和Dragon NaturallySpeaking等第三方產品仍然都需要一個用戶訓練期才能使用。
第二個製約因素是鍵盤的流行程度。大多數人已經習慣於鍵盤打字而不是講話,因此,語音控製麵臨Dvorak鍵盤布局同樣的應用障礙。當簡單的老式QWERTY鍵盤供貨充足並且工作的很好的時候,為什麼要學習使用Dvorak鍵盤呢?
微軟TellMe團隊是負責為多媒體環境開發語音識別技術的部門。TellMe團隊高級產品經理Abhi Rele指出,在台式電腦環境,用戶有方便的人機交流模式,如鍵盤和鼠標。因此,語音的使用主要是針對語音愛好者的。
語音控製的計算更廣泛的應用需要兩件事情:更好的方便的應用和主要使用語音的地方。手機正是很長時間以來一直在增長的這種地方。
Nuance負責產品管理和營銷的副總裁Matt Revis解釋說,台式電腦和移動環境的區別是這樣的:台式電腦是一個固定的環境,重點完全在於台式電腦的使用情況。因此,台式電腦的語音技術主要執行如下任務:支持辦公應用程序、網絡瀏覽、通訊等。在移動方麵,語音更多地用於支持各種生活方式方麵:移動中的專業人員、戶外的有趣活動、免提電話等等。
Gartner分析師Tuong Nguyen讚同這個觀點:語音在移動環境中更有意義。他說,從使用的角度看,掌上設備的語音識別功能價值更大。它增加了用戶友好的、方便的輸入方式。
Nguyenbuchongshuo,ruguobuyongyuyinjishushuochuyigejiandandeshuomingyuju,ershifandongxuduocaidanhuozhenulidizaixiaoxianshipingjianpanshangjinxingshuru,yuyinshibiedejiazhijiuxianxianchulaile。suizhechumopingshebei(沒有物理鍵盤)應用的增長,語音識別技術將用來增強數據輸入和輸出。語音識別還支持免提要求或者法律要求。
[page]
在移動設備方麵
因為移動設備一般僅支持台式電腦的一部分存儲和處理功能,語音處理需要一些時間才能以基本的形式出現在手機中。
語音處理Springer手冊解釋了手機在2000年nian代dai初chu的de情qing況kuang。盡jin管guan那na時shi還hai有you一yi些xie局ju限xian性xing,但dan是shi,手shou機ji經jing過guo編bian程cheng之zhi後hou能neng夠gou識shi別bie逐zhu個ge數shu字zi的de撥bo號hao語yu音yin,在zai某mou種zhong程cheng度du上shang還hai能neng識shi別bie人ren的de名ming字zi。主zhu要yao問wen題ti是shi內nei存cun,因yin此ci,大da多duo數shu手shou機ji一yi次ci隻zhi能neng識shi別bie10個數字或者名字。但是,這些作者指出的另一個問題是這個功能使用的比較少,可能是因為手機廠商在這方麵的營銷很糟糕。
隨著手機的增加內存和增強處理能力,普通手機的識別能力也增強了。三星電子在2005年發布的售價99美元的SCH-p-207型手機增加了語音至文本的聽寫功能和語音撥號功能。隨著內存達到數百MB和存儲容量達到數GB,目前這一代智能手機很少受到限製。
另ling一yi個ge關guan鍵jian的de進jin步bu是shi網wang絡luo速su度du。速su度du更geng快kuai的de無wu線xian網wang絡luo浪lang潮chao抬tai高gao了le許xu多duo大da船chuan,包bao括kuo最zui新xin一yi代dai的de語yu音yin處chu理li技ji術shu。速su度du更geng快kuai的de網wang絡luo能neng夠gou把ba語yu音yin處chu理li任ren務wu從cong網wang絡luo遷qian移yi到dao遠yuan程cheng服fu務wu器qi。
穀歌語音搜索產品經理Amir Mane解jie釋shi了le速su度du更geng快kuai的de網wang絡luo是shi如ru何he幫bang助zhu穀gu歌ge語yu音yin應ying用yong程cheng序xu的de。他ta說shuo,由you於yu所suo有you繁fan重zhong的de處chu理li任ren務wu都dou是shi由you穀gu歌ge服fu務wu器qi在zai網wang絡luo上shang處chu理li的de,我wo們men減jian少shao了le掌zhang上shang設she備bei計ji算suan能neng力li的de限xian製zhi。
目前的應用程序
手(shou)機(ji)語(yu)音(yin)識(shi)別(bie)技(ji)術(shu)目(mu)前(qian)的(de)狀(zhuang)態(tai)不(bu)僅(jin)僅(jin)局(ju)限(xian)於(yu)語(yu)音(yin)撥(bo)號(hao)。語(yu)音(yin)啟(qi)動(dong)的(de)功(gong)能(neng)實(shi)際(ji)上(shang)就(jiu)包(bao)括(kuo)語(yu)音(yin)撥(bo)號(hao)。這(zhe)是(shi)手(shou)機(ji)上(shang)出(chu)現(xian)的(de)第(di)一(yi)個(ge)語(yu)音(yin)識(shi)別(bie)功(gong)能(neng)。目(mu)前(qian),甚(shen)至(zhi)許(xu)多(duo)低(di)端(duan)手(shou)機(ji)都(dou)有(you)這(zhe)個(ge)功(gong)能(neng),盡(jin)管(guan)這(zhe)個(ge)功(gong)能(neng)處(chu)理(li)手(shou)機(ji)電(dian)話(hua)簿(bu)中(zhong)一(yi)些(xie)不(bu)常(chang)用(yong)的(de)名(ming)字(zi)的(de)時(shi)稍(shao)差(cha)一(yi)些(xie)。
Gartner分析師Nguyen指zhi出chu,比bi較jiao新xin的de一yi代dai語yu音yin功gong能neng是shi更geng開kai放fang的de。不bu用yong編bian程cheng執zhi行xing某mou些xie功gong能neng的de具ju體ti的de語yu音yin指zhi令ling,應ying用yong程cheng序xu可ke識shi別bie語yu音yin並bing且qie執zhi行xing適shi當dang的de行xing動dong。更geng高gao端duan的de、更強大的設備使這些應用更可行。換句話說,不僅僅是能夠使用這個短語“呼叫888-555-1212”撥打一個電話號碼,用戶還可以說“呼叫媽媽”或者“給我媽媽打電話”。
穀(gu)歌(ge)語(yu)音(yin)搜(sou)索(suo)擁(yong)有(you)比(bi)以(yi)前(qian)的(de)語(yu)音(yin)識(shi)別(bie)技(ji)術(shu)更(geng)少(shao)的(de)限(xian)製(zhi),因(yin)為(wei)所(suo)有(you)的(de)繁(fan)重(zhong)任(ren)務(wu)都(dou)是(shi)由(you)網(wang)絡(luo)服(fu)務(wu)器(qi)完(wan)成(cheng)的(de)。這(zhe)使(shi)穀(gu)歌(ge)語(yu)音(yin)搜(sou)索(suo)等(deng)語(yu)音(yin)驅(qu)動(dong)的(de)應(ying)用(yong)程(cheng)序(xu)更(geng)可(ke)行(xing)。例(li)如(ru),如(ru)果(guo)你(ni)說(shuo)“創戰紀電影時間”,你會看到一個網頁列出地區編號或者位置。這個應用程序不僅能夠識別出這個短語的意思,而且還能提供你的手機(你當前的位置)和網站(上映時間)的信息。
這個應用程序還非常熟悉英語,不用進行訓練就能自動分辨出一些詞彙的差別。如果我說“摩特裏褲(Motley Crue)樂隊”,這個應用程序甚至能在搜索詞彙方便使用這個樂隊的獨特的拚寫,盡管它會漏掉變音符號。搜索“Motley''''s Crew”,你會得到一個喜劇片。
這zhe就jiu是shi說shuo穀gu歌ge語yu音yin識shi別bie的de限xian製zhi明ming顯xian地di表biao明ming將jiang使shi你ni進jin一yi步bu脫tuo離li主zhu流liu的de英ying語yu。外wai國guo人ren的de名ming字zi是shi沒mei有you幫bang助zhu的de。語yu音yin識shi別bie應ying用yong程cheng序xu的de另ling一yi個ge問wen題ti是shi環huan境jing的de噪zao音yin。移yi動dong用yong戶hu受shou環huan境jing噪zao音yin的de影ying響xiang通tong常chang比bi台tai式shi電dian腦nao用yong戶hu多duo。Nuance公司的Revis稱,在充滿噪音的戶外環境中,語音識別的準確性是一個問題。
自從2005年三星的那款手機推出以來,聽寫功能已經取得了長足的進步。由Dragon NaturallySpeaking驅動的iPhone的Dragon聽寫功能允許用戶聽寫從備忘錄、電子郵件到Twitter更新等一切內容。用於電子郵件的Dragon軟件為黑莓設備提供了類似的功能。
對於Android手機來說,Nuance提供了FlexT9軟件。這個軟件把Dragon聽寫功能與三種類型的觸摸屏輸入方式結合在了一起。還有一個Handcent短信應用程序。這個應用程序集成了Android本地語音識別技術以幫助你用語音發短信。
文本之間的翻譯目前已經推出多年(如通過知名的Babel Fish網站進行翻譯)。同聲翻譯功能現在還沒有,不過,這種軟件很快會推出。例如,用於iPhone的Jibbigo軟件可翻譯單詞、短語和合理的簡單句子,讓雙方交替地講話。
[page]
未來的方向
詢問參加開發語音技術的每一個人下一個巨大的步驟是什麼。他們一般會給你一個答案:自然語言處理。
Revis把ba它ta解jie釋shi為wei理li解jie你ni的de意yi思si的de係xi統tong,它ta不bu僅jin僅jin知zhi道dao你ni說shuo什shen麼me。在zai會hui話hua式shi的de互hu動dong模mo式shi中zhong,用yong戶hu說shuo自zi己ji要yao說shuo的de話hua,沒mei有you限xian製zhi用yong戶hu如ru何he說shuo這zhe個ge話hua。他ta提ti供gong了le指zhi令ling或huo者zhe要yao求qiu得de到dao信xin息xi的de例li子zi,如ru“我在什麼地方能夠買到100美元以下的尼康照相機?”或者“給傑尼發個短信說我晚到20分鍾”或者“今天晚上在Morton''''s訂三個人的地方”。
穀歌的Mane稱cheng,在zai口kou語yu對dui話hua中zhong提ti供gong自zi然ran的de語yu言yan處chu理li是shi一yi個ge雙shuang重zhong挑tiao戰zhan。首shou先xian,你ni必bi須xu識shi別bie這zhe些xie單dan詞ci,然ran後hou,你ni必bi須xu理li解jie這zhe個ge意yi思si。第di一yi部bu分fen變bian得de更geng加jia容rong易yi了le。但dan是shi,第di二er部bu分fen仍reng然ran很hen難nan解jie決jue:意思是根據上下文確定的和難以應付的,人類做的語法分析也不是總是成功的。
微軟的Rele認為,手機提供的額外的服務(如羅盤或者GPS)能夠增強自然語言處理的有用性。他說,你可以為兩個人安排吃飯和看電影,方法是利用不同來源的數據把這個任務分開,如使用日曆、飯店排名、電影評論和位置等數據。
此外,手機的服務能夠用於提供講話的環境。Relebiaoshi,yonghudeyuyinshuruyijicongqitayouguanyonghujiyonghuhuanjingdechuanganqihezhuangtaihuodedezhinengxinxikeyitigonggengfengfudehegengxiangguandejieguo。liru,ruguoniganggangshiyongFoursquare網站查看有關飯店,一些含糊的語音指令就會傾向於外出吃飯、訂膳宿和要一輛出租車等事情。
多平台應用程序Vlingo自稱是“虛擬助手”,已經能夠提供這些方麵的功能。這個軟件插入到OpenTable和Fandango等服務中以完成許多任務:訂飯店、訂電影票等等。
Nguyen認為未來語音識別技術改善的另一個領域是遊戲。他說,在遊戲中可以使用語音以增加玩遊戲的不同氛圍。例如,你可以把Kirk-style船長的命令傳遞給恒星飛船或者在在一個神秘的事情中審訊疑犯。
是你嗎?已經應用的另一個功能是自動地把語音識別適用於單個用戶。這是台式電腦語音識別技術所要求的免提版語音訓練。
例如,最新版本的穀歌語音搜索有一個選擇性加入功能,允許隨著時間的推移建立一個用戶的客戶化語音特征。Mane解釋說,當用戶選擇使用客戶化語音識別的時候,我們在用戶和用戶的語調方麵畫一個界限,這使我們能夠建立一個初步的、個性化的語音識別模式。
然而,個性化識別並不是一個能夠解決一切問題的技術,它隻是實現語音識別更加無縫化的一個過渡步驟。Mane稱,我們沒有把個性化識別看作一個唯一的解決方案,因為還會有更多的一係列的技術創新。Mane認為,這種技術未來的改進需要我們的用戶更積極的參與。
結論
shoujiyizhishixuduojishudefuhuaqihetuidongyinsu,zhebaokuoyingjianheruanjianjishu。daomuqianweizhi,zaizhegezuhezhongzengjiayuyingongnengjinchanshenglezhubudegaishan,gugeyuyinyingyongchengxudehenhaodegongneng。
但dan是shi,這zhe些xie改gai進jin正zheng逐zhu步bu地di為wei更geng重zhong要yao的de進jin步bu鋪pu平ping道dao路lu。移yi動dong技ji術shu為wei如ru何he聚ju集ji這zhe些xie新xin技ji術shu提ti供gong了le一yi個ge全quan新xin的de舞wu台tai。下xia一yi步bu也ye許xu不bu是shi一yi個ge理li解jie你ni說shuo的de一yi切qie事shi情qing的de手shou機ji,而er是shi能neng夠gou充chong分fen理li解jie你ni說shuo的de事shi情qing的de一yi個ge更geng有you用yong的de手shou機ji。
特別推薦
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
技術文章更多>>
- 一秒檢測,成本降至萬分之一,光引科技把幾十萬的台式光譜儀“搬”到了手腕上
- AI服務器電源機櫃Power Rack HVDC MW級測試方案
- 突破工藝邊界,奎芯科技LPDDR5X IP矽驗證通過,速率達9600Mbps
- 通過直接、準確、自動測量超低範圍的氯殘留來推動反滲透膜保護
- 從技術研發到規模量產:恩智浦第三代成像雷達平台,賦能下一代自動駕駛!
技術白皮書下載更多>>
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索
按鈕開關
白色家電
保護器件
保險絲管
北鬥定位
北高智
貝能科技
背板連接器
背光器件
編碼器型號
便攜產品
便攜醫療
變容二極管
變壓器
檳城電子
並網
撥動開關
玻璃釉電容
剝線機
薄膜電容
薄膜電阻
薄膜開關
捕魚器
步進電機
測力傳感器
測試測量
測試設備
拆解
場效應管
超霸科技




