語音識(shí)別的出現(xiàn),給我們的生活帶來了很多方便,比如微信中的語音打字、語音通話、電話通話視頻中的語音視頻,甚至是直播平臺(tái)中主播在講的音頻內(nèi)容。語音識(shí)別就是對音頻的識(shí)別,也就是對說話內(nèi)容的識(shí)別,可是說話內(nèi)容會(huì)有很多,除了我們生活方面的內(nèi)容,還會(huì)包括涉政、涉黃、涉賭還是廣告信息等。這就涉及到對語音的審核。下面萌萌客外包客服公司的小編給各位具體介紹一下。
語音在專業(yè)角度劃分為兩種:視頻與音頻
我們先來看一下視頻識(shí)別。
在視頻上,根據(jù)內(nèi)容不同,如直播、短視頻、個(gè)人上傳的視頻,視頻是畫面與音頻組成的以甄別單位的畫面。對于音頻常存在暴恐、淫穢傳播、甚至是音畫不同步等問題。在視頻處理上面,通常采用截幀上傳服務(wù)器數(shù)據(jù)對比來識(shí)別。其審核模式與圖片審核相同,會(huì)判斷場景(外室外還是室內(nèi))、會(huì)判斷人臉(畫面中出現(xiàn)的人是否是明星或者政治)、會(huì)判斷是否色情(根據(jù)畫面圖片的裸露狀態(tài),可為正常、性感、色情等不同唯獨(dú))。如抖音、映客、等以視頻流為主的APP,對視頻內(nèi)容的審核往往通過機(jī)器的方式進(jìn)大量的審核篩檢,畫面中存在的嚴(yán)重血腥、暴恐、色情、政治新聞等危害畫面內(nèi)容會(huì)優(yōu)先被查出,而那些不以直接性的畫面展示的內(nèi)容機(jī)器難以審查出來,所以現(xiàn)在AI技術(shù)還只是輔助,很多還是需要人工審核的。
視頻識(shí)別介紹完了,我們再來看一下音頻識(shí)別。
在音頻技術(shù)識(shí)別方面,針對不同的內(nèi)容有不同識(shí)別技術(shù)。針對說話內(nèi)容有語音識(shí)別、關(guān)鍵詞檢索等;針對語種的判別有語種識(shí)別的技術(shù);針對說話人的識(shí)別有聲紋識(shí)別技術(shù);針對說話內(nèi)容無關(guān)的通常采用音頻比對的技術(shù)來進(jìn)行檢測。通常一般短視頻,直播或者音頻平臺(tái),對音頻對比、聲紋的技術(shù)較為重視,是保證錄音質(zhì)量及外放聲音很有效的一種運(yùn)營手段,但對內(nèi)容語音識(shí)別,則不太關(guān)注,畢竟語音識(shí)別技術(shù)對這些企業(yè)的應(yīng)用場景不是剛需。
基于語音識(shí)別的關(guān)鍵詞檢索是將語音識(shí)別的結(jié)構(gòu)構(gòu)建成一個(gè)索引網(wǎng)絡(luò),然后把關(guān)鍵詞從索引網(wǎng)絡(luò)中找出來。從上圖流程中可以看到,首先把語音進(jìn)行識(shí)別處理,從里面提取索引構(gòu)建索引網(wǎng)絡(luò),進(jìn)行關(guān)鍵詞檢索的時(shí)候,在通過關(guān)鍵詞表在網(wǎng)絡(luò)中進(jìn)行頻率,找到概率最高的,輸出其關(guān)鍵詞匹配結(jié)果(在這一步可通過垃圾文本處理及上下語義分,對轉(zhuǎn)化的文本進(jìn)行處理)。
目前音頻的識(shí)別技術(shù)能力還遠(yuǎn)遠(yuǎn)達(dá)不到準(zhǔn)確階段,比如音頻出現(xiàn)的“嬌喘聲”單靠技術(shù)根本無法識(shí)別,或識(shí)別(轉(zhuǎn)化)出來就是一串亂字。再如在人潮擁擠的雜音中,出現(xiàn)的音頻,也無法準(zhǔn)確的轉(zhuǎn)化成文字識(shí)別。遇到這種隱晦場景下的文本,通常還是需要人工去審核的。
通過萌萌客外包客服公司的小編上面的介紹,各位對語音識(shí)別應(yīng)該有進(jìn)一步的了解了吧。希望上面的內(nèi)容可以對各位有實(shí)際的幫助。
【萌萌客:www.richlegacy2u.com】提供專業(yè)的電商在線客服外包服務(wù)、電話客服及內(nèi)容審核等服務(wù),幫您簡單客服難題。










