久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

語音識(shí)別技術(shù)

來自站長百科
跳轉(zhuǎn)至: 導(dǎo)航、? 搜索

語音識(shí)別技術(shù),也被稱為自動(dòng)語音識(shí)別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識(shí)別及說話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。


簡介[ ]

  • 語音識(shí)別技術(shù)的應(yīng)用包括語音撥號(hào)、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識(shí)別技術(shù)與其他自然語言處理]技術(shù)如機(jī)器翻譯語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語音到語音的翻譯。
  • 語音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。

發(fā)展史[ ]

  • 早在計(jì)算機(jī)發(fā)明之前,自動(dòng)語音識(shí)別的設(shè)想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語音識(shí)別及合成的雛形。而1920年代生產(chǎn)的"Radio Rex"玩具狗可能是最早的語音識(shí)別器,當(dāng)這只狗的名字被呼喚的時(shí)候,它能夠從底座上彈出來。最早的基于電子計(jì)算機(jī)的語音識(shí)別系統(tǒng)是由AT&T貝爾實(shí)驗(yàn)室開發(fā)的Audrey語音識(shí)別系統(tǒng),它能夠識(shí)別10個(gè)英文數(shù)字。其識(shí)別方法是跟蹤語音中的共振峰。該系統(tǒng)得到了98%的正確率。到1950年代末,倫敦學(xué)院(College of London)的Denes已經(jīng)將語法概率加入語音識(shí)別中。
  • 1960年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語音識(shí)別。這一時(shí)代的兩大突破是線性預(yù)測(cè)編碼Linear Predictive Coding (LPC), 及動(dòng)態(tài)時(shí)間彎折Dynamic Time Warp技術(shù)。
  • 語音識(shí)別技術(shù)的最重大突破是隱含馬爾科夫模型Hidden Markov Model的應(yīng)用。從Baum提出相關(guān)數(shù)學(xué)推理,經(jīng)過Labiner等人的研究,卡內(nèi)基梅隆大學(xué)的李開復(fù)最終實(shí)現(xiàn)了第一個(gè)基于隱馬爾科夫模型的大詞匯量語音識(shí)別系統(tǒng)Sphinx。[1]。此后嚴(yán)格來說語音識(shí)別技術(shù)并沒有脫離HMM框架。
  • 盡管多年來研究人員一直嘗試將“聽寫機(jī)”推廣,語音識(shí)別技術(shù)在目前還無法支持無限領(lǐng)域,無限說話人的聽寫機(jī)應(yīng)用。



國內(nèi)外研究歷史及現(xiàn)狀[ ]

國外研究歷史及現(xiàn)狀

  • 語音識(shí)別的研究工作可以追溯到20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng),它是第一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。
  • 但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開展研究則是在60年代末70年代初。這首先是因?yàn)橛?jì)算機(jī)技術(shù)的發(fā)展為語音識(shí)別的實(shí)現(xiàn)提供了硬件和軟件的可能,更重要的是語音信號(hào)線性預(yù)測(cè)編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù)的提出,有效的解決了語音信號(hào)的特征提取和不等長匹配問題。這一時(shí)期的語音識(shí)別主要基于模板匹配原理,研究的領(lǐng)域局限在特定人,小詞匯表的孤立詞識(shí)別,實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立詞語音識(shí)別系統(tǒng);同時(shí)提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
  • 隨著應(yīng)用領(lǐng)域的擴(kuò)大,小詞匯表、特定人、孤立詞等這些對(duì)語音識(shí)別的約束條件需要放寬,與此同時(shí)也帶來了許多新的問題:第一,詞匯表的擴(kuò)大使得模板的選取和建立發(fā)生困難;第二,連續(xù)語音中,各個(gè)音素、音節(jié)以及詞之間沒有明顯的邊界,各個(gè)發(fā)音單位存在受上下文強(qiáng)烈影響的協(xié)同發(fā)音(Co-articulation)現(xiàn)象;第三,非特定人識(shí)別時(shí),不同的人說相同的話相應(yīng)的聲學(xué)特征有很大的差異,即使相同的人在不同的時(shí)間、生理、心理狀態(tài)下,說同樣內(nèi)容的話也會(huì)有很大的差異;第四,識(shí)別的語音中有背景噪聲或其他干擾。因此原有的模板匹配方法已不再適用。
  • 實(shí)驗(yàn)室語音識(shí)別研究的巨大突破產(chǎn)生于20世紀(jì)80年代末:人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,第一次把這三個(gè)特性都集成在一個(gè)系統(tǒng)中,比較典型的是卡耐基梅隆大學(xué)(CarnegieMellonUniversity)的Sphinx系統(tǒng),它是第一個(gè)高性能的非特定人、大詞匯量連續(xù)語音識(shí)別系統(tǒng)。
  • 這一時(shí)期,語音識(shí)別研究進(jìn)一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語音識(shí)別中的成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT&TBell實(shí)驗(yàn)室Rabiner等科學(xué)家的努力,他們把原本艱澀的HMM純數(shù)學(xué)模型工程化,從而為更多研究者了解和認(rèn)識(shí),從而使統(tǒng)計(jì)方法成為了語音識(shí)別技術(shù)的主流。
  • 統(tǒng)計(jì)方法將研究者的視線從微觀轉(zhuǎn)向宏觀,不再刻意追求語音特征的細(xì)化,而是更多地從整體平均(統(tǒng)計(jì))的角度來建立最佳的語音識(shí)別系統(tǒng)。在聲學(xué)模型方面,以Markov鏈為基礎(chǔ)的語音序列建模方法HMM(隱式Markov鏈)比較有效地解決了語音信號(hào)短時(shí)穩(wěn)定、長時(shí)時(shí)變的特性,并且能根據(jù)一些基本建模單元構(gòu)造成連續(xù)語音的句子模型,達(dá)到了比較高的建模精度和建模靈活性。在語言層面上,通過統(tǒng)計(jì)真實(shí)大規(guī)模語料的詞之間同現(xiàn)概率即N元統(tǒng)計(jì)模型來區(qū)分識(shí)別帶來的模糊音和同音詞。另外,人工神經(jīng)網(wǎng)絡(luò)方法、基于文法規(guī)則的語言處理機(jī)制等也在語音識(shí)別中得到了應(yīng)用。
  • 20世紀(jì)90年代前期,許多著名的大公司如IBM、蘋果、AT&T和NTT都對(duì)語音識(shí)別系統(tǒng)的實(shí)用化研究投以巨資。語音識(shí)別技術(shù)有一個(gè)很好的評(píng)估機(jī)制,那就是識(shí)別的準(zhǔn)確率,而這項(xiàng)指標(biāo)在20世紀(jì)90年代中后期實(shí)驗(yàn)室研究中得到了不斷的提高。比較有代表性的系統(tǒng)有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform語音平臺(tái),Microsoft的Whisper,Sun的VoiceTone等。
  • 其中IBM公司于1997年開發(fā)出漢語ViaVoice語音識(shí)別系統(tǒng),次年又開發(fā)出可以識(shí)別上海話、廣東話和四川話等地方口音的語音識(shí)別系統(tǒng)ViaVoice'98。它帶有一個(gè)32,000詞的基本詞匯表,可以擴(kuò)展到65,000詞,還包括辦公常用詞條,具有“糾錯(cuò)機(jī)制”,其平均識(shí)別率可以達(dá)到95%。該系統(tǒng)對(duì)新聞?wù)Z音識(shí)別具有較高的精度,是目前具有代表性的漢語連續(xù)語音識(shí)別系統(tǒng)。
  • 國內(nèi)研究歷史及現(xiàn)狀
  • 我國語音識(shí)別研究工作起步于五十年代,但近年來發(fā)展很快。研究水平也從實(shí)驗(yàn)室逐步走向?qū)嵱?。?987年開始執(zhí)行國家863計(jì)劃后,國家863智能計(jì)算機(jī)專家組為語音識(shí)別技術(shù)研究專門立項(xiàng),每兩年滾動(dòng)一次。我國語音識(shí)別技術(shù)的研究水平已經(jīng)基本上與國外同步,在漢語語音識(shí)別技術(shù)上還有自己的特點(diǎn)與優(yōu)勢(shì),并達(dá)到國際先進(jìn)水平。中科院自動(dòng)化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機(jī)構(gòu)都有實(shí)驗(yàn)室進(jìn)行過語音識(shí)別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動(dòng)化研究所模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室。
  • 清華大學(xué)電子工程系語音技術(shù)與專用芯片設(shè)計(jì)課題組,研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識(shí)別系統(tǒng)的識(shí)別精度,達(dá)到94.8%(不定長數(shù)字串)和96.8%(定長數(shù)字串)。在有5%的拒識(shí)率情況下,系統(tǒng)識(shí)別率可以達(dá)到96.9%(不定長數(shù)字串)和98.7%(定長數(shù)字串),這是目前國際最好的識(shí)別結(jié)果之一,其性能已經(jīng)接近實(shí)用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語音識(shí)別系統(tǒng)的識(shí)別率達(dá)到98.73%,前三選識(shí)別率達(dá)99.96%;并且可以識(shí)別普通話與四川話兩種語言,達(dá)到實(shí)用要求。  *中科院自動(dòng)化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計(jì)算平臺(tái)和應(yīng)用的“天語”中文語音系列產(chǎn)品——PattekASR,結(jié)束了中文語音識(shí)別產(chǎn)品自1998年以來一直由國外公司壟斷的歷史。


分類[ ]

  • 語音識(shí)別系統(tǒng)可以根據(jù)對(duì)輸入語音的限制加以分類。
  • 從說話者與識(shí)別系統(tǒng)的相關(guān)性考慮
  • 可以將識(shí)別系統(tǒng)分為3類:(1)特定人語音識(shí)別系統(tǒng):僅考慮對(duì)于專人的話音進(jìn)行識(shí)別;(2)非特定人語音系統(tǒng):識(shí)別的語音與人無關(guān),通常要用大量不同人的語音數(shù)據(jù)庫對(duì)識(shí)別系統(tǒng)進(jìn)行學(xué)習(xí);(3)多人的識(shí)別系統(tǒng):通常能識(shí)別一組人的語音,或者成為特定組語音識(shí)別系統(tǒng),該系統(tǒng)僅要求對(duì)要識(shí)別的那組人的語音進(jìn)行訓(xùn)練。
  • 從說話的方式考慮
  • 也可以將識(shí)別系統(tǒng)分為3類:(1)孤立詞語音識(shí)別系統(tǒng):孤立詞識(shí)別系統(tǒng)要求輸入每個(gè)詞后要停頓;(2)連接詞語音識(shí)別系統(tǒng):連接詞輸入系統(tǒng)要求對(duì)每個(gè)詞都清楚發(fā)音,一些連音現(xiàn)象開始出現(xiàn);(3)連續(xù)語音識(shí)別系統(tǒng):連續(xù)語音輸入是自然流利的連續(xù)語音輸入,大量連音和變音會(huì)出現(xiàn)。
  • 從識(shí)別系統(tǒng)的詞匯量大小考慮
  • 也可以將識(shí)別系統(tǒng)分為3類:(1)小詞匯量語音識(shí)別系統(tǒng)。通常包括幾十個(gè)詞的語音識(shí)別系統(tǒng)。(2)中等詞匯量的語音識(shí)別系統(tǒng)。通常包括幾百個(gè)詞到上千個(gè)詞的識(shí)別系統(tǒng)。(3)大詞匯量語音識(shí)別系統(tǒng)。通常包括幾千到幾萬個(gè)詞的語音識(shí)別系統(tǒng)。隨著計(jì)算機(jī)與數(shù)字信號(hào)處理器運(yùn)算能力以及識(shí)別系統(tǒng)精度的提高,識(shí)別系統(tǒng)根據(jù)詞匯量大小進(jìn)行分類也不斷進(jìn)行變化。目前是中等詞匯量的識(shí)別系統(tǒng)到將來可能就是小詞匯量的語音識(shí)別系統(tǒng)。這些不同的限制也確定了語音識(shí)別系統(tǒng)的困難度。


語音識(shí)別所面臨的問題[ ]

  • 就算法模型方面而言
  • 需要有進(jìn)一步的突破。目前能看出它的一些明顯不足,尤其在中文語音識(shí)別方面,語言模型還有待完善,因?yàn)檎Z言模型和聲學(xué)模型正是聽寫識(shí)別的基礎(chǔ),這方面沒有突破,語音識(shí)別的進(jìn)展就只能是一句空話。目前使用的語言模型只是一種概率模型,還沒有用到以語言學(xué)為基礎(chǔ)的文法模型,而要使計(jì)算機(jī)確實(shí)理解人類的語言,就必須在這一點(diǎn)上取得進(jìn)展,這是一個(gè)相當(dāng)艱苦的工作。此外,隨著硬件資源的不斷發(fā)展,一些核心算法如特征提取、搜索算法或者自適應(yīng)算法將有可能進(jìn)一步改進(jìn)??梢韵嘈?,半導(dǎo)體和軟件技術(shù)的共同進(jìn)步將為語音識(shí)別技術(shù)的基礎(chǔ)性工作帶來福音。
  • 就自適應(yīng)方面而言
  • 語音識(shí)別技術(shù)也有待進(jìn)一步改進(jìn)。目前,象IBM的ViaVoice和Asiaworks的SPK都需要用戶在使用前進(jìn)行幾百句話的訓(xùn)練,以讓計(jì)算機(jī)適應(yīng)你的聲音特征。這必然限制了語音識(shí)別技術(shù)的進(jìn)一步應(yīng)用,大量的訓(xùn)練不僅讓用戶感到厭煩,而且加大了系統(tǒng)的負(fù)擔(dān)。并且,不能指望將來的消費(fèi)電子應(yīng)用產(chǎn)品也針對(duì)單個(gè)消費(fèi)者進(jìn)行訓(xùn)練。因此,必須在自適應(yīng)方面有進(jìn)一步的提高,做到不受特定人、口音或者方言的影響,這實(shí)際上也意味著對(duì)語言模型的進(jìn)一步改進(jìn)?,F(xiàn)實(shí)世界的用戶類型是多種多樣的,就聲音特征來講有男音、女音和童音的區(qū)別,此外,許多人的發(fā)音離標(biāo)準(zhǔn)發(fā)音差距甚遠(yuǎn),這就涉及到對(duì)口音或方言的處理。如果語音識(shí)別能做到自動(dòng)適應(yīng)大多數(shù)人的聲線特征,那可能比提高一二個(gè)百分點(diǎn)識(shí)別率更重要。事實(shí)上,ViaVoice的應(yīng)用前景也因?yàn)檫@一點(diǎn)打了折扣,只有普通話說得很好的用戶才可以在其中文版連續(xù)語音識(shí)別方面取得相對(duì)滿意的成績。
  • 就強(qiáng)健性方面而言
  • 語音識(shí)別技術(shù)需要能排除各種環(huán)境因素的影響。目前,對(duì)語音識(shí)別效果影響最大的就是環(huán)境雜音或嗓音,在公共場(chǎng)合,你幾乎不可能指望計(jì)算機(jī)能聽懂你的話,來自四面八方的聲音讓它茫然而不知所措。很顯然這極大地限制了語音技術(shù)的應(yīng)用范圍,目前,要在嘈雜環(huán)境中使用語音識(shí)別技術(shù)必須有特殊的抗嗓(NoiseCancellation)麥克風(fēng)才能進(jìn)行,這對(duì)多數(shù)用戶來說是不現(xiàn)實(shí)的。在公共場(chǎng)合中,個(gè)人能有意識(shí)地摒棄環(huán)境嗓音并從中獲取自己所需要的特定聲音,如何讓語音識(shí)別技術(shù)也能達(dá)成這一點(diǎn)呢?這的確是一個(gè)艱巨的任務(wù)。
  • 此外,帶寬問題也可能影響語音的有效傳送,在速率低于1000比特/秒的極低比特率下,語音編碼的研究將大大有別于正常情況,比如要在某些帶寬特別窄的信道上傳輸語音,以及水聲通信、地下通信、戰(zhàn)略及保密話音通信等,要在這些情況下實(shí)現(xiàn)有效的語音識(shí)別,就必須處理聲音信號(hào)的特殊特征,如因?yàn)閹挾舆t或減損等。語音識(shí)別技術(shù)要進(jìn)一步應(yīng)用,就必須在強(qiáng)健性方面有大的突破。
  • 多語言混合識(shí)別以及無限詞匯識(shí)別方面
  • 簡單地說,目前使用的聲學(xué)模型和語音模型太過于局限,以至用戶只能使用特定語音進(jìn)行特定詞匯的識(shí)別。如果突然從中文轉(zhuǎn)為英文,或者法文、俄文,計(jì)算機(jī)就會(huì)不知如何反應(yīng),而給出一堆不知所云的句子;或者用戶偶爾使用了某個(gè)專門領(lǐng)域的專業(yè)術(shù)語,如“信噪比"等,可能也會(huì)得到奇怪的反應(yīng)。這一方面是由于模型的局限,另一方面也受限于硬件資源。隨著兩方面的技術(shù)的進(jìn)步,將來的語音和聲學(xué)模型可能會(huì)做到將多種語言混合納入,用戶因此就可以不必在語種之間來回切換。此外,對(duì)于聲學(xué)模型的進(jìn)一步改進(jìn),以及以語義學(xué)為基礎(chǔ)的語言模型的改進(jìn),也能幫助用戶盡可能少或不受詞匯的影響,從而可實(shí)行無限詞匯識(shí)別。
  • 多語種交流系統(tǒng)的應(yīng)用
  • 最終,語音識(shí)別是要進(jìn)一步拓展我們的交流空間,讓我們能更加自由地面對(duì)這個(gè)世界??梢韵胍?,如果語音識(shí)別技術(shù)在上述幾個(gè)方面確實(shí)取得了突破性進(jìn)展,那么多語種交流系統(tǒng)的出現(xiàn)就是順理成章的事情,這將是語音識(shí)技術(shù)、機(jī)器翻譯技術(shù)以及語音合成技術(shù)的完美結(jié)合,而如果硬件技術(shù)的發(fā)展能將這些算法進(jìn)而固化到更為細(xì)小的芯片,比如手持移動(dòng)設(shè)備上,那么個(gè)人就可以帶著這種設(shè)備周游世界而無需擔(dān)心任何交流的困難,你說出你想表達(dá)的意思,手持設(shè)備同時(shí)識(shí)別并將它翻譯成對(duì)方的語言,然后合成并發(fā)送出去;同時(shí)接聽對(duì)方的語言,識(shí)別并翻譯成已方的語言,合成后朗讀給你聽,所有這一切幾乎都是同時(shí)進(jìn)行的,只是機(jī)器充當(dāng)著主角。
  • 任何技術(shù)的進(jìn)步都是為了更進(jìn)一步拓展我們?nèi)祟惖纳婧徒涣骺臻g,以使我們獲得更大的自由,就服務(wù)于人類而言,這一點(diǎn)顯然也是語音識(shí)別技術(shù)的發(fā)展方向,而為了達(dá)成這一點(diǎn),它還需要在上述幾個(gè)方面取得突破性進(jìn)展,最終,多語種自由交流系統(tǒng)將帶給我們?nèi)碌纳羁臻g。

相關(guān)條目[ ]

參考來源[ ]