AI應用實例（三）：音頻審核 | 人人都是產品經理

編輯導語：在互聯網時代，各種各樣的內容類產品層出不窮，那麼相關監管部門對內容的審核環節就顯得十分重要，各方面都需要審核到位，本篇文章講述了AI技術在音頻審核方面的應用，一起來看一下。

音頻審核作為內容安全產品的一個模塊，在內容審核中既需要支持視頻中的音頻審核，還需要能支持單獨的音頻審核，本節將跟大家一起討論關於音頻審核的產品設計與應用。

一、背景

隨著各種各樣的內容類產品發展，當內容管理不到位時，就容易觸犯到國家對內容監管的的政策。

如何避免違規內容的傳播可以說是各大內容廠商最關注的環節之一。

因此，對內容的管理，都需要進行審核到位，但是如果純靠人工審核，估計像頭條號這樣的資訊平台，一天得有上萬人審核了。

目前各家對內容都會接入內容審核平台，基於人工智慧技術實現內容審核，其中根據素材維度可以分為視頻審核、文本審核、圖片審核和音頻審核。

從審核內容角度看又包括色情、涉政、圖文違規、暴恐、違禁、廣告等。

本文將選擇音頻審核的維度展開討論。

二、關鍵技術

關於音頻審核中的關鍵技術，我們可以從兩個方面進行理解，分別是「有語義」和「無語義」。

1. 有語義類型

有語義類型是指待審核的內容中有明確的語義信息。

這裡文本審核一般可以先經過ASR識別後，轉成文本信息進行審核，所以會涉及到以下技術。

語音識別：通過ASR技術將音頻轉換為文本信息；
語種識別：針對部分小語種或者方言進行判別，識別後，再經過語音識別轉換為文字信息；
NLP技術：針對語音識別後的文字信息進行處理，識別違規內容；具體的可以包括廣告詞文本識別、違禁詞識別、辱罵辭彙識別等。

2. 無語音類型

無語義類型識別是指音頻內容中不含語義信息，所以無法通過ASR+NLP進行識別處理。

主要包括嬌喘、呻吟、ASMR 等沒有明確語言含義的音頻內容。

直接提供提取音頻的聲紋特徵進行分類識別，判斷是否違規。

3. 特殊的類型

這裡主要是指違禁歌曲識別，一般這樣的違規內容雖然包含了語義信息，但是可能直接從內容信息上是無法判斷的。

所以需要結合聲紋識別+音頻檢索的技術進行來識別，首先構建違禁歌曲庫，然後再根據音頻聲紋特徵進行識別並檢索。

如果出現在曲庫中則判斷違規，否則放過。

三、產品設計

1. 應用場景

（1）場景：常見的需要應用到音頻審核的場景有語音聊天室、視頻直播間、語音廣場、FM電台、音頻文學等都需要採用音頻審核保證內容的安全性。

（2）審核內容

涉黃審核：色情、低俗、污穢、嬌喘等識別；
廣告審核：手機號等商業推廣內容識別；
涉政審核：涉政人物、反動分裂、恐怖主義等違規音頻；
違禁審核：毒品，賭博，違禁品等違禁內容。

註：其實音頻只是一個載體，以上審核的內容實際上視頻審核也會涉及。

（3）場景發散

這裡多發散下思維，由於目前各個內容審核廠商已經基本是同質化競爭了，所以產品的後續要想繼續保持競爭力。

一方面是技術能力的迭代加強，另一方面也是需要進一步拓展場景。

比如是否支持AR內容的審核，又或者跟當前元宇宙結合，是否開始研究將來元宇宙內的信息審核呢。

2. 業務流程

這裡從宏觀點的角度陳述產品的業務流程，具體的細節可以交流，不在文章中贅述，業務流程中主要包括三塊。

源數據+預處理：通過接入待審核的內容，再進一步做預處理，包括分段等操作；
模型處理：審核的核心，通過輸入預處理后的數據，進行AI分析，輸出機器審核結果，包括確認違規、疑似違規和未違規；
人工複審：對疑似違規內容進行複審，同時也對違規和未違規的內容抽樣審核，盡量確認判斷的準確性，同時在這一步也可以將人工複審出來的badcase做數據迴流用於演算法升級迭代。

註：在實際業務場景中，一般會考慮是先審核再內容發布還是先發布再內容審核。

這裡就需要根據業務進行判斷，因為這同時涉及到內容時間（希望搶佔熱點）和風險的制約。

一般可以考慮將違規風險很低的內容做先發后審（但是要提供及時下架的能力，避免出現擴散風險），比如PGC內容。

3. 產品功能設計

本節的產品功能設計主要從能力平台角度出發進行講解，至於業務結果輸出后涉及到的業務系統這邊不做分析。

一個比較完備的音頻審核產品可以從以下幾個角度進行設計。

（1）功能介面：提供好用的API和SDK能力，包括數據請求分析、數據結果查詢、規則定義介面（比如添加違規詞等）等介面。

在設計時，需要設定好欄位的支持力度，比如對於請求時要支持URL，同時是否需要支持音頻審核模板（模板這裡是指一段音頻全部審核，還是根據模板中選定的審核維度進行審核，比如只審核涉黃）。

（2）可視化界面：建議同步提供可視化界面便於接入的用戶進行數據查看，可視化界面不僅可以提高用戶體驗，也可以輔助用戶進行產品使用。

一般可視化界面可以包括以下幾點。

音頻分析：除了介面外，用戶可以在可視化界面上傳音頻文件進行分析，分析后可以查看分析結果
規則設定：支持用戶自定義設定違規的內容，比如設定違規廣告詞、涉政敏感詞等；
數據統計：可以包括兩個部分，一部分是統計數據分析的量級，以及分析成功失敗的次數等；另一方面以違規類型進行統計違規次數，比如某段時間內廣告違規發生了多少，涉黃內容發生了多少等；

註：除了上述三點，還可以支持用戶管理，比如用戶可以在系統中創建用戶賬號，支持不同業務系統使用等。

4. 評估指標

評估指標需要考核兩個方面。

違規識別準確率：統計機器識別為違規並且人工複核確認違規的數據量/機器識別違規的數據總量；
違規識別召回率：統計機器識別為違規並且人工複核確認違規的數據量/實際存在的違規數量。

音頻審核的發展對音頻市場擴大可以起到很好的輔助作用，對內容發布的監管可以實現降本增效。

但是在實際使用過程中，我們還需要思考業務應用場景，針對場景進一步迭代優化技術，比如車載場景的音頻內容是否可以很好審核呢。

目前還存在很大的難度，因為車載場景的音頻容易受到很多雜訊的影響，所以不利於識別。

因此，總的來說，對於產品，需要能夠結合業務做到場景可控，讓AI真正發揮作用。