智能語音機器人底層系統設計邏輯 | 人人都是產品經理

編輯導語:未來最大的交互,不是現在的人機交互,而是人與人工智慧的交互。人工智慧行業現今取得了不少的成就,也逐漸進入了千萬家庭,陪伴在了很多人的身邊,其中就包括智能語音機器人。本文筆者將以智能客服領域為出發點,結合自己的工作實踐進行詳細分析。

3 月 4 日,中共中央政治局常務委員會召開會議,指出要加快推進包括5G 網路、人工智慧、數據中心等新型基礎設施建設進度。

結合此前人工智慧賦能技術在疫情防控中發揮的重要作用,加上新基建政策,可以預見的是未來人工智慧必將迎來新一輪的發展。

據艾瑞網發布的《2019年中國人工智慧產業研究報告》中顯示,到2022年中國智能客服業務規模將突破160億元,泛智能客服市場將突破600億,也預示著這一領域依然擁有廣闊的市場空間。

本篇筆者將著重就智能客服這一應用較為成熟的領域,結合自己的工作實踐進行詳細分析。

一、智能客服背景

智能語音客服機器人是在傳統的客服系統基礎上,集成了語音識別、語義理解、知識圖譜、深度學習等多項智能交互技術,能準確理解用戶的意圖或提問,再根據豐富的內容和海量知識圖譜,給予用戶滿意的回答,目前已廣泛應用於金融、保險、汽車、房產、電商、政府等多個領域。

對比於傳統客服,智能客服具有為企業降本增效,提升商機轉化率,提升用戶體驗、更加方便簡潔、移動性及時性社交性能一體化的優點。

智能客服機器人應用場景十分豐富,

  • 從交互模式上來看:可以分為文本客服機器人、語音客服機器人兩大類;
  • 從場景和功能類型來看:又可分為問答機器人、任務機器人、閑聊機器人三大類。

那麼語音外呼機器人這個形態的產品在實際場景中如何應用的呢?

下面我會從語音外呼機器人工作流程、外呼系統搭建、應用案例,應用重難點等4個模塊來做詳細闡述。

二、智能外呼機器人工作流程

AI外呼機器人是集合了自動撥打電話、多輪語音交互、客戶意向智能分級、外呼任務自定義等多功能於一體智能語音對話機器人。

以下是一個基本的智能外呼機器人工作流程:

智能語音機器人底層系統設計邏輯

如上圖所示,一個完整的智能外呼流程(不涉及轉人工)包含了四個環節,各環節會由外呼系統整體串聯起來進行運作:

  1. 用戶接聽:外呼工作流程的開始,外呼系統需識別用戶接聽信號。
  2. 客戶機器人響應:這一環節關鍵在策略輸出,外呼系統需根據用戶應答,識別用戶意圖或動作,根據機器人預設任務流和策略給出響應話術。
  3. 用戶應答/動作:這一模塊主要在外呼系統需對用戶的意圖和動作進行精準識別,做用戶狀態記錄,以便一下步策略的實施。
  4. 用戶/客服機器人掛機:當機器人走完任務流會主動掛斷,或用戶提前自主掛斷,外呼工作流結束。

三、外呼系統設計

以上工作流的實現依賴於外呼系統同時涉及多方技術,下面整體來介紹下外呼系統的底層架構。

智能語音機器人底層系統設計邏輯

上圖為筆者結合所學及所做機器人的實際業務邏輯梳理的呼叫系統架構,如圖,整體上語音外呼系統可分為五大模塊:

1. 通訊管理模塊

由通訊線路和FreeSwith電話系統構成,通過SIP和RTP協議,實現進行各種信令和語音流的傳輸。其中,通訊線路包括三大運營商、各家集成線路商,用於提供線路資源將電話撥打出去。

電話系統採用的是開源的FreeSwith,主要用於處理外呼請求和傳輸SIP信令和語音流。

2. 語音模塊

負責語音相關操作,包括語音識別(ASR)、語音合成(TTS)、錄音播放等。

其中ASR和TTS這塊,目前一般採用阿里雲、科大訊飛等技術較為成熟的供應商服務,主要通過介面形式對接使用。

3. 中控模塊

主要任務是實現與其他模塊之間的通信互聯,負責將ASR識別後的文本傳輸給機器人模塊,將機器人模塊的指令策略轉化為電話系統的執行指令,並將數據同步至Saas後台(中控模塊命名各家公司都有所不同)。

4. 後台管理模塊

負責機器人外呼任務的發起和相關業務操作,主要包括外呼任務的創建,通話流水查詢,客戶管理,數據統計等功能。

5. 機器人管理模塊

此為整個外呼流程中的核心AI模塊,通過自然語言處理(NLP)和對話管理(DM),進行用戶意圖理解,對話狀態追蹤,機器人應答策略匹配等,實現人機對話交互。

關於NLP和DM模塊比較複雜,筆者將會在下一篇文章中單獨對任務機器人對話系統的設計做詳細闡述,這裡就不過多補充了。

四、應用案例

下面以58同城二手車回訪的業務場景,具體分析下外呼機器人是如何通過外呼系統進行作業的,外呼系統各模塊間又是如何耦合實現業務需求的。

智能語音機器人底層系統設計邏輯

1. 對話管理設計

正常情況下,外呼業務場景一旦確定,產品需先梳理出任務場景的主幹流程,選定深度意圖,設置匹配QA,設置槽位,準備話術,設計對話狀態追蹤,設計對話策略等一系列工作。

這裡的對話管理的設計配置,涉及到外呼系統里機器人管理模塊。

如:上圖對話框中機器人話術均為事先根據二手車回訪業務提前設計好的主幹話術。

2.外呼任務創建

對話管理模塊配置完善後,業務人員可在Saas後台創建外呼名單,通訊管理模塊接受任務指令,拉取話單進行電話外呼。

3.撥打流程

撥打流程涉及模塊較多,主要包括通訊管理模塊,語音模塊,中控模塊,機器人管理模塊。

  1. 運營商的通信線路根據業務人員創建的外呼任務,開始逐個撥打用戶電話;
  2. 用戶接通電話后,開始進入對話處理循環流程;
  3. 通訊管理模塊的FS將用戶語音流傳輸給語音模塊進行ASR識別為文本信息,然後將動作/文本信息一起輸送到中控模塊;
  4. 中控模塊將用戶文本/動作信息推送至機器人模塊,並將機器人返回的策略指令轉化成電話系統的執行指令;
  5. 電話系統結合語音模塊,進行語音合成后,執行話術播放或轉人工、掛機等機器人動作策略,隨後開始新一輪對話循環處理流程;
  6. 機器人/用戶掛機后,中控模塊將相關錄音文件、系統信息,狀態信息等數據進行存儲並同步至管理後台。

五、智能外呼機器人應用重難點

我們考慮一個外呼機器人的外呼質量會從兩方面去看,一個是能保證外呼流程的通暢性,另一個是保證外呼任務的完成率。

決定機器人外呼質量的影響因素有很多,筆者從產品的角度去理解,除去目標客戶的精準度、客戶接聽電話的環境、客戶狀態等非可控因素外,主要還受限於以下幾個方面:

1. 電話線路的穩定性

在呼叫失敗的原因中,很大部分是由於供應商提供的線路不穩定。

關於這一點的問題規避,更多的還是申請基礎運營商的線路或尋找到正規渠道的認證供應商,以保證線路質量。

2. FreeSwith的併發量

FreeSwith的具體性能根據實際使用環境差異較大,如果因前期預估不足,設置的FS併發量過低,超過併發則會出現呼叫異常或語音卡頓等現象。

應從系統的實際業務需求去考慮併發數,保證FS的性能穩定。

3. ASR識別準確率

雖然目前很多供應商標明的語音識別率都達到了97%甚至98%,但此指標對環境的要求較高。

而實際環境在噪音較大,口音,語言混合等場景下,ASR識別準確率均有一定程度的下降。

4. 語義理解

在對話機器人中語言理解(NLU)模塊主要包括意圖識別和槽位識別,這兩點直接影響語義理解的效果。

語音場景下,經常出現用戶回復單語氣詞的情況,如「嗯」,「啊」等,或語音特有意圖,如「大點聲」,「說快點」,要求「重說」等,在意圖設計時需考慮到此類特殊場,以及其應答策略。

前面提到的ASR識別錯誤會導致語義理解部分受影響,目前可採用加入多模態學習的優化方案,同時融合音頻特徵,糾正語音識別結果,此方案經驗證對意圖識別模塊準確率會有近2%的提升。

5. 對話管理模塊設計合理性

機器人對話管理模塊設計的合理性,直接決定了整個呼叫任務流程的體驗感和完成率。

對話管理模塊的重點在於對話狀態追蹤(DST)和對話策略設計(DPL)的合理性,如:打斷、無聲等語音特有場景,如何在提升用戶體驗的同時確保外呼任務流的正常正常進行。

6. 話術設計的合理性

話術設計也是語音任務機器人設計中非常重要的一個部分,為提升用戶的體驗。

話術設計可遵循以下幾個原則:

  1. 話術設計更貼合應用場景;
  2. 主幹話術設計精簡有吸引力;
  3. 話術擬人化;
  4. 不同狀態下話術變化。

六、結語

目前,隨著AI技術的不斷進步,市場需求的進一步擴大,智能語音機器人在實際應用場景中的表現也越來越好,逐漸能勝任更多的業務工作。

不過其難點仍然存在,期待未來在更多AI技術的賦能下,智能客服機器人能力有更大程度的提升,能讓我們在生活中體驗到更貼心智能的機器人服務。

以上內容基於筆者結合學習和工作實踐的思考,若有理解不到位之處,還望大家指正,更希望通過這篇文章能與各位多多交流。

參考資料:

  1. IDC《中國人工智慧市場軟體及應用半年度研究報告(2019H2)》
  2. 艾瑞網《2019年中國人工智慧產業研究報告》
  3. 58同城《智能語音機器人助力企業提效增收》