Python知識(shí)分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
AI產(chǎn)品經(jīng)理需了解的技術(shù)知識(shí):語音識(shí)別技術(shù) PDF 下載
匿名網(wǎng)友發(fā)布于:2025-05-04 16:04:38
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒反應(yīng),多刷新兩次就OK!)

AI產(chǎn)品經(jīng)理需了解的技術(shù)知識(shí):語音識(shí)別技術(shù) PDF 下載 圖1

 

 

資料內(nèi)容:

 

 

AI 產(chǎn)經(jīng)理需了解的技術(shù)識(shí)識(shí)別術(shù)
1
本文章主要介紹了語音識(shí)別技術(shù)語的發(fā)展、基本原理、語音特征,目的是幫助 PM 了解語
音技術(shù)方面的知識(shí),有助于語音類相關(guān)產(chǎn)品的設(shè)計(jì)~
 
一、識(shí)別發(fā)
20 世紀(jì) 50 年代,語音識(shí)別的研究工作開始,這時(shí)主要探索和研究聲音和語音學(xué)的基本概
念和原理。
20 世紀(jì) 60 年代,可以解決不等長語音匹配問題。
20 世紀(jì) 70 年代,隨著 NLP 技術(shù)和微電子技術(shù)的深入發(fā)展,語音識(shí)別領(lǐng)域的線性預(yù)測分析
技術(shù)得到廣泛應(yīng)用,HMM 等技術(shù)基本成熟。
20 世紀(jì) 80 年代,語音研究其顯著特征是 HMM 和人工神經(jīng)網(wǎng)絡(luò)(ANN)。
從發(fā)展可以看出:語音識(shí)別技術(shù)最早依靠匹配,尋找單個(gè)音節(jié)、單個(gè)詞和標(biāo)準(zhǔn)語音模板的
最大相似度進(jìn)行匹配。后來伴隨著統(tǒng)計(jì)學(xué)被引入到語音識(shí)別中,將該技術(shù)逐步從模板匹配
技術(shù)轉(zhuǎn)向基于統(tǒng)計(jì)模型技術(shù)。
 
二、識(shí)別的基本原理
對(duì)于不同的語音識(shí)別過程,人們采用的識(shí)別方法和技術(shù)不同,但所用的原理大致相同,即
將經(jīng)過降噪處理后的語音送入特征提取模塊,然后對(duì)語音信號(hào)特征處理后輸出識(shí)別結(jié)果。
在這個(gè)過程中,特征提取是構(gòu)建語音系統(tǒng)的關(guān)鍵,對(duì)識(shí)別結(jié)果起到了重要作用,原理見下
圖:
特征提?。禾崛≌Z音特征參數(shù),形成特征矢量序列。
 
三、音信號(hào)特征
實(shí)現(xiàn)語音識(shí)別,就需要語音參數(shù)來刻畫語音信息。語音原本具有短時(shí)特性,所以描述語音
的單位用幀(一般為 10-40ms),在音頻幀上提取的短時(shí)音頻特征,叫音頻幀特征。相對(duì)
音頻幀較長的時(shí)間間隔成為音頻段,在音頻段上提取的特征叫音頻段特征。
下面列舉一些常用的音頻特征和音頻段特征: