秘密基地免费观看完整版中文-日韩中文在线观看-亚洲精品第一-亚洲免费a-绿帽社区-亚洲在线第一页-裸体免费视频-亚洲人成电影网站-日韩av免费一区-美女四肢被绑在床扒衣-鲁丝片一区二区三区-欧美人妖ⅹxxx极品另类-影院色原网站-国产不卡一区二区在线观看-男人扒开女人的腿操

新聞資訊 News

語音識別芯片的前世今生

日期: 2025-06-17
瀏覽次數(shù): 44

語音識別芯片現(xiàn)在已經(jīng)成為了市場上的主流方案了,幾乎高級一點的產(chǎn)品都要帶上語音識別芯片,主要原因就是語音識別芯片可以做到識別人說話并轉(zhuǎn)化成指定去控制對應(yīng)的功能。下面小編就帶大家一起去了解語音識別芯片的前世今生。

語音識別芯片現(xiàn)在已經(jīng)成為了市場上的主流方案了,幾乎高級一點的產(chǎn)品都要帶上語音識別芯片,主要原因就是語音識別芯片可以做到識別人說話并轉(zhuǎn)化成指定去控制對應(yīng)的功能。下面小編就帶大家一起去了解語音識別芯片的前世今生。  1952 年,埃德瓦爾德(Everett)和科爾特(Kleitman)發(fā)表了《計算機識別人類語音》的論文,開啟了語音識別技術(shù)的研究大門。當(dāng)時的語音識別主要集中在小詞匯量、孤立詞、特定人語音識別方法上,采用簡單的模板匹配方法,如動態(tài)時間規(guī)整(DTW)、支持向量機(SVM)、矢量量化(VQ)等主流算法。這個時期的技術(shù)局限性較大,例如對同一個人,在其感冒等情況下聲音發(fā)生變化就可能無法識別,而且命令詞較多時識別效率很低。  概率統(tǒng)計型方法興起(1993 年 - 2009 年):主流技術(shù)是高斯混合模型 - 隱馬爾可夫模型(GMM - HMM)。HMM 模型在將語音轉(zhuǎn)換為文本的過程中,增加了音素和狀態(tài)兩個轉(zhuǎn)換單位,GMM 則將狀態(tài)的特征分布用概率模型來表述,提升了語音幀到狀態(tài)的準(zhǔn)確率。基于

1952 年,埃德瓦爾德(Everett)和科爾特(Kleitman)發(fā)表了《計算機識別人類語音》的論文,開啟了語音識別技術(shù)的研究大門。當(dāng)時的語音識別主要集中在小詞匯量、孤立詞、特定人語音識別方法上,采用簡單的模板匹配方法,如動態(tài)時間規(guī)整(DTW)、支持向量機(SVM)、矢量量化(VQ)等主流算法。這個時期的技術(shù)局限性較大,例如對同一個人,在其感冒等情況下聲音發(fā)生變化就可能無法識別,而且命令詞較多時識別效率很低。


概率統(tǒng)計型方法興起(1993 年 - 2009 年):主流技術(shù)是高斯混合模型 - 隱馬爾可夫模型(GMM - HMM)。HMM 模型在將語音轉(zhuǎn)換為文本的過程中,增加了音素和狀態(tài)兩個轉(zhuǎn)換單位,GMM 則將狀態(tài)的特征分布用概率模型來表述,提升了語音幀到狀態(tài)的準(zhǔn)確率。基于 GMM - HMM 框架,后續(xù)又提出了許多改進(jìn)方法,如動態(tài)貝葉斯方法、區(qū)分性訓(xùn)練方法、自適應(yīng)訓(xùn)練方法、HMM/NN 混合模型方法等。然而,GMM + HMM 模型在大詞匯量的語音識別情況下,識別準(zhǔn)確率和效率均比較差。


語音識別芯片開始出現(xiàn):早期的語音識別芯片配置等同于通用的低端 MCU,以臺灣新塘為代表的廠商推出了相關(guān)產(chǎn)品。例如,新塘 Nuvoton 在 2011 年推出了 ARM 架構(gòu)的 MCU 芯片 - ISD9160,之后結(jié)合臺灣賽維的語音算法,在 2016 年前后受到家電圈廣泛關(guān)注,但受限于技術(shù)不成熟,出現(xiàn)語音識別率較低、降噪效果差、誤識別率高等問題。


深度神經(jīng)網(wǎng)絡(luò)技術(shù)主導(dǎo):2009 年至今,深度神經(jīng)網(wǎng)絡(luò)識別成為最主流的語音識別技術(shù)類型,包括深度神經(jīng)網(wǎng)絡(luò) / 深信度網(wǎng)絡(luò) - 隱馬爾可夫(DNN/DBN - HMM)、遞歸神經(jīng)網(wǎng)絡(luò) RNN 及其改進(jìn)版 LSTM&BLSTM、卷積神經(jīng)網(wǎng)絡(luò) CNN 等。這些技術(shù)不再需要 HMM 來描述音素內(nèi)部狀態(tài)的變化,而是將語音識別的所有模塊統(tǒng)一成神經(jīng)網(wǎng)絡(luò)模型。國內(nèi)大廠也紛紛推出自己的技術(shù),如科大訊飛的深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN)、阿里的 LFR - DFSMN、百度的 SMLTA、Kaldi 。


以為唯創(chuàng)知音旗下的語音識別芯片系列WTK6900系列為例,這類型的語義識別芯片有多個擴展方案,同時還能實現(xiàn)本地指令+云端指令,幾乎可以覆蓋消費級和工業(yè)級的場景,廣泛應(yīng)用于智能家居和智能工業(yè)設(shè)備。


回到頂部
  • 您的姓名:
  • *
  • 公司名稱:
  • *
  • 地址:
  • *
  • 電話:
  • *
  • 傳真:
  • *
  • E-mail:
  • *
  • 郵政編碼:
  • *
  • 留言主題:
  • *
  • 詳細(xì)說明:
  • *
     
深圳市寶安區(qū)福永街道大洋路90號中糧福
安機器人智造產(chǎn)業(yè)園6棟2/3層 
WT1999@waytronic.com
4008-122-919
  • 手機云網(wǎng)站
  • 微信公眾號
  • ?

    Copyright ?2005 - 2016 深圳唯創(chuàng)知音電子有限公司

    粵公網(wǎng)安備 44030602001141號