隨著互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)絡(luò)安全隱患也逐漸的暴露出來,為了整頓互聯(lián)網(wǎng)環(huán)境,國家的監(jiān)管力度也是不斷提升,內(nèi)容審核的標(biāo)準(zhǔn)也在不斷提升,暴力、血腥、政治、黃賭毒及危機(jī)青少年不良社會導(dǎo)內(nèi)容向已成為重點(diǎn)關(guān)注區(qū)域。
今天,萌萌客外包客服服務(wù)商的小編給大家?guī)淼膬?nèi)容就是——內(nèi)容審核中的文本審核的技術(shù)與邏輯是什么。
文本可能是一個簽名、一個詞組,一段文本甚至是一篇文章,還有些文字附帶在圖片上,如一張海報,一張頭像圖等。從內(nèi)容上分,內(nèi)容應(yīng)該分為三種,文字,圖形與語言。在文字上來說,國內(nèi)圖書有中圖法,國外有亞馬遜分類法,高斯分類等。
對于圖片中存在的文字,識別最多使用的還是OCR(文本識別技術(shù))。對于長短文本及變形變異字體中,會使用到垃圾文本處理技術(shù)(在AI技術(shù)來講:CRF分詞,NLP,n-gram算法,隨機(jī)森林算法)隨機(jī)森林指的是利用多棵樹對樣本進(jìn)行訓(xùn)練并預(yù)測的一種分類器,通過對文本的處理進(jìn)行歸類,自動預(yù)測文本內(nèi)容的形式。
當(dāng)你要做預(yù)測的時候,新的觀察值隨著決策樹自上而下走下來并被賦予一個預(yù)測值或標(biāo)簽。一旦森林中的每棵樹都給有了預(yù)測值或標(biāo)簽,所有的預(yù)測結(jié)果將被歸總到一起,所有樹的投票返回做為最終的預(yù)測結(jié)果。簡單來說,99.9%不相關(guān)的樹做出的預(yù)測結(jié)果涵蓋所有的情況,這些預(yù)測結(jié)果將會彼此抵消。少數(shù)優(yōu)秀的樹的預(yù)測結(jié)果將會脫穎而出,從而得到一個好的預(yù)測結(jié)果。
在對于上下段落中,突然出現(xiàn)的垃圾文本或不相關(guān)的文字或詞組,會采用上下語義識別技術(shù)(LSTM深度神經(jīng)網(wǎng)絡(luò),word-embedding)。此算法技術(shù),會判斷此句話中是否跟上下文結(jié)合,是否是一段無效的垃圾文本,最常見場景是我們在評論區(qū)隨意敲打著一串自己都看不懂的文本。此技術(shù)很適合用于評論區(qū)的灌水,刷屏,甚至辱罵性的文字內(nèi)容。
對于圖片的識別,目前單靠機(jī)器識別,還無法滿足審核的需求,目前機(jī)器識別技術(shù)只能輔助人工審核,暫無法全面機(jī)器審核。AI機(jī)器審核只相當(dāng)于人類三歲的智商,還處于弱智能時代,所以為了增強(qiáng)內(nèi)容審核安全及無延遲的用戶體驗(yàn),還是需要人工團(tuán)隊(duì)來審核的。
內(nèi)容審核除了有文本審核之外,還包括圖像審核、視頻審核、語音審核、直播審核和人臉審核。文本審核的技術(shù)與邏輯相信通過上面萌萌客外包客服服務(wù)商的小編的介紹您已經(jīng)清楚了,下次小編帶您看看內(nèi)容審核中其他幾類的技術(shù)與邏輯都是什么樣的。
【萌萌客:www.richlegacy2u.com】提供專業(yè)的電商在線客服外包服務(wù)、電話客服及內(nèi)容審核等服務(wù),幫您簡單客服難題。










