語音識別技術(shù)早期的應(yīng)用主要是語音聽寫,用戶說一句,機器識別一句。后來發(fā)展成語音轉(zhuǎn)寫,隨著AI的發(fā)展,語音識別開始作為智能交互應(yīng)用中的一環(huán)。
下面我們就來一一介紹這些應(yīng)用:
語音識別的基本原理
所謂語音識別,就是將一段語音信號轉(zhuǎn)換成相對應(yīng)的文本信息,系統(tǒng)主要包含特征提取、聲學(xué)模型,語言模型以及字典與解碼四大部分,其中為了更有效地提取特征往往還需要對所采集到的聲音信號進(jìn)行濾波、分幀等預(yù)處理工作,把要分析的信號從原始信號中提取出來;之后,特征提取工作將聲音信號從時域轉(zhuǎn)換到頻域,為聲學(xué)模型提供合適的特征向量;聲學(xué)模型中再根據(jù)聲學(xué)特性計算每一個特征向量在聲學(xué)特征上的得分;而語言模型則根據(jù)語言學(xué)相關(guān)的理論,計算該聲音信號對應(yīng)可能詞組序列的概率;最后根據(jù)已有的字典,對詞組序列進(jìn)行解碼,得到最后可能的文本表示。
語音識別技術(shù)的工作流程
一般來說,一套完整的語音識別系統(tǒng)其工作過程分為7步:
1、對語音信號進(jìn)行分析和處理,除去冗余信息。
2、提取影響語音識別的關(guān)鍵信息和表達(dá)語言含義的特征信息。
3、緊扣特征信息,用最小單元識別字詞。
4、按照不同語言的各自語法,依照先后次序識別字詞。
5、把前后意思當(dāng)作輔助識別條件,有利于分析和識別。
6、按照語義分析,給關(guān)鍵信息劃分段落,提取出所識別出的字詞并連接起來,同時根據(jù)語句意思調(diào)整句子構(gòu)成。
7、結(jié)合語義,仔細(xì)分析上下文的相互聯(lián)系,對當(dāng)前正在處理的語句進(jìn)行適當(dāng)修正。
語音識別原理有三點:
1、對語音信號中的語言信息編碼是按照幅度譜的時間變化來進(jìn)行;
2、由于語音是可以閱讀的,也就是說聲學(xué)信號可以在不考慮說話人說話傳達(dá)的信息內(nèi)容的前提下用多個具有區(qū)別性的、離散的符號來表示;
3、語音的交互是一個認(rèn)知過程,所以絕對不能與語法、語義和用語規(guī)范等方面分裂開來。
預(yù)處理,其中就包括對語音信號進(jìn)行采樣、克服混疊濾波、去除部分由個體發(fā)音的差異和環(huán)境引起的噪聲影響,此外還會考慮到語音識別基本單元的選取和端點檢測問題。反復(fù)訓(xùn)練是在識別之前通過讓說話人多次重復(fù)語音,從原始語音信號樣本中去除冗余信息,保留關(guān)鍵信息,再按照一定規(guī)則對數(shù)據(jù)加以整理,構(gòu)成模式庫。再者是模式匹配,它是整個語音識別系統(tǒng)的核心部分,是根據(jù)一定規(guī)則以及計算輸入特征與庫存模式之間的相似度,進(jìn)而判斷出輸入語音的意思。
前端處理,首先對原始語音信號進(jìn)行預(yù)處理,然后對其進(jìn)行特征提取,消除噪音以及說話人之間的發(fā)音差異所造成的影響,使得處理后的信號可以更完整地反映出語音的本質(zhì)特征。