AI應用實例(三):音頻審核 | 人人都是產品經理

編輯導語:在互聯網時代,各種各樣的內容類產品層出不窮,那麼相關監管部門對內容的審核環節就顯得十分重要,各方面都需要審核到位,本篇文章講述了AI技術在音頻審核方面的應用,一起來看一下。

音頻審核作為內容安全產品的一個模塊,在內容審核中既需要支持視頻中的音頻審核,還需要能支持單獨的音頻審核,本節將跟大家一起討論關於音頻審核的產品設計與應用。

一、背景

隨著各種各樣的內容類產品發展,當內容管理不到位時,就容易觸犯到國家對內容監管的的政策。

如何避免違規內容的傳播可以說是各大內容廠商最關注的環節之一。

因此,對內容的管理,都需要進行審核到位,但是如果純靠人工審核,估計像頭條號這樣的資訊平台,一天得有上萬人審核了。

目前各家對內容都會接入內容審核平台,基於人工智慧技術實現內容審核,其中根據素材維度可以分為視頻審核、文本審核、圖片審核和音頻審核。

從審核內容角度看又包括色情、涉政、圖文違規、暴恐、違禁、廣告等。

本文將選擇音頻審核的維度展開討論。

二、關鍵技術

關於音頻審核中的關鍵技術,我們可以從兩個方面進行理解,分別是「有語義」和「無語義」。

1. 有語義類型

有語義類型是指待審核的內容中有明確的語義信息。

這裡文本審核一般可以先經過ASR識別後,轉成文本信息進行審核,所以會涉及到以下技術。

  1. 語音識別:通過ASR技術將音頻轉換為文本信息;
  2. 語種識別:針對部分小語種或者方言進行判別,識別後,再經過語音識別轉換為文字信息;
  3. NLP技術:針對語音識別後的文字信息進行處理,識別違規內容;具體的可以包括廣告詞文本識別、違禁詞識別、辱罵辭彙識別等。

2. 無語音類型

無語義類型識別是指音頻內容中不含語義信息,所以無法通過ASR+NLP進行識別處理。

主要包括嬌喘、呻吟、ASMR 等沒有明確語言含義的音頻內容。

直接提供提取音頻的聲紋特徵進行分類識別,判斷是否違規。

3. 特殊的類型

這裡主要是指違禁歌曲識別,一般這樣的違規內容雖然包含了語義信息,但是可能直接從內容信息上是無法判斷的。

所以需要結合聲紋識別+音頻檢索的技術進行來識別,首先構建違禁歌曲庫,然後再根據音頻聲紋特徵進行識別並檢索。

如果出現在曲庫中則判斷違規,否則放過。

三、產品設計

1. 應用場景

(1)場景:常見的需要應用到音頻審核的場景有語音聊天室、視頻直播間、語音廣場、FM電台、音頻文學等都需要採用音頻審核保證內容的安全性。

(2)審核內容

  • 涉黃審核:色情、低俗、污穢、嬌喘等識別;
  • 廣告審核:手機號等商業推廣內容識別;
  • 涉政審核:涉政人物、反動分裂、恐怖主義等違規音頻;
  • 違禁審核:毒品,賭博,違禁品等違禁內容。

註:其實音頻只是一個載體,以上審核的內容實際上視頻審核也會涉及。

(3)場景發散

這裡多發散下思維,由於目前各個內容審核廠商已經基本是同質化競爭了,所以產品的後續要想繼續保持競爭力。

一方面是技術能力的迭代加強,另一方面也是需要進一步拓展場景。

比如是否支持AR內容的審核,又或者跟當前元宇宙結合,是否開始研究將來元宇宙內的信息審核呢。

2. 業務流程

這裡從宏觀點的角度陳述產品的業務流程,具體的細節可以交流,不在文章中贅述,業務流程中主要包括三塊。

  1. 源數據+預處理:通過接入待審核的內容,再進一步做預處理,包括分段等操作;
  2. 模型處理:審核的核心,通過輸入預處理后的數據,進行AI分析,輸出機器審核結果,包括確認違規、疑似違規和未違規;
  3. 人工複審:對疑似違規內容進行複審,同時也對違規和未違規的內容抽樣審核,盡量確認判斷的準確性,同時在這一步也可以將人工複審出來的badcase做數據迴流用於演算法升級迭代。

註:在實際業務場景中,一般會考慮是先審核再內容發布還是先發布再內容審核。

這裡就需要根據業務進行判斷,因為這同時涉及到內容時間(希望搶佔熱點)和風險的制約。

一般可以考慮將違規風險很低的內容做先發后審(但是要提供及時下架的能力,避免出現擴散風險),比如PGC內容。

3. 產品功能設計

本節的產品功能設計主要從能力平台角度出發進行講解,至於業務結果輸出后涉及到的業務系統這邊不做分析。

一個比較完備的音頻審核產品可以從以下幾個角度進行設計。

(1)功能介面:提供好用的API和SDK能力,包括數據請求分析、數據結果查詢、規則定義介面(比如添加違規詞等)等介面。

在設計時,需要設定好欄位的支持力度,比如對於請求時要支持URL,同時是否需要支持音頻審核模板(模板這裡是指一段音頻全部審核,還是根據模板中選定的審核維度進行審核,比如只審核涉黃)。

(2)可視化界面:建議同步提供可視化界面便於接入的用戶進行數據查看,可視化界面不僅可以提高用戶體驗,也可以輔助用戶進行產品使用。

一般可視化界面可以包括以下幾點。

  1. 音頻分析:除了介面外,用戶可以在可視化界面上傳音頻文件進行分析,分析后可以查看分析結果
  2. 規則設定:支持用戶自定義設定違規的內容,比如設定違規廣告詞、涉政敏感詞等;
  3. 數據統計:可以包括兩個部分,一部分是統計數據分析的量級,以及分析成功失敗的次數等;另一方面以違規類型進行統計違規次數,比如某段時間內廣告違規發生了多少,涉黃內容發生了多少等;

註:除了上述三點,還可以支持用戶管理,比如用戶可以在系統中創建用戶賬號,支持不同業務系統使用等。

4. 評估指標

評估指標需要考核兩個方面。

  1. 違規識別準確率:統計機器識別為違規並且人工複核確認違規的數據量/機器識別違規的數據總量;
  2. 違規識別召回率:統計機器識別為違規並且人工複核確認違規的數據量/實際存在的違規數量。

音頻審核的發展對音頻市場擴大可以起到很好的輔助作用,對內容發布的監管可以實現降本增效。

但是在實際使用過程中,我們還需要思考業務應用場景,針對場景進一步迭代優化技術,比如車載場景的音頻內容是否可以很好審核呢。

目前還存在很大的難度,因為車載場景的音頻容易受到很多雜訊的影響,所以不利於識別。

因此,總的來說,對於產品,需要能夠結合業務做到場景可控,讓AI真正發揮作用。