智能外呼系統怎樣更「擬人化」?

隨著AI技術的發展,智能外呼系統正在逐漸解決機械重複的問題,提高人工客服的效率。但在實際工作中,智能外呼系統還是面臨著重重困難。本文作者基於自己的工作經驗,對智能外呼系統設計提出了自己的一點思考。

在AI技術中,基於AI能力的營銷、客服系統算是比較能落地的應用場景。從調研到項目落地,本人也是有幸完整參與了一個智能外呼的項目,當然期間也踩了不少坑。

本文將嘗試著用自己的理解,對系統重新梳理一遍,也算是對這段經歷的復盤和總結。若是寫得淺薄,還望見諒~

一、AI外呼系統的構成

智能外呼業務流程圖(PS:客服系統也類似,只是由用戶主動呼入)

智能外呼、智能客服功能繁多,系統設計複雜,這裡也只能是想到哪,寫到哪。簡單地將系統歸類一下,整個系統圍繞著通話的三條線展開(兩個終端和一個通信過程)。

終端中用戶端的核心是對用戶的管理,也就是常用的CRM系統。而AI端,則是圍繞著AI機器人的設計、優化去設計。

通信過程,由呼叫系統實現,包括通話的撥打、接聽、掛機、轉接等,也包括通話線路的管理、配置。

1. 呼叫系統

呼叫系統是一種針對電話的軟交換解決方案,通過呼叫系統,電話機器人才能與用戶通信設備進行通話。

機器人、呼叫中心、終端間簡單的關係圖

呼叫系統由來已久,經過這麼多年的發展,其功能已經十分完善和穩定。

在AI驅動的公司里,也會採用FreeSwitch之類的開源系統進行自研。但是這個只有在有相應技術棧(C++),對呼叫系統有開發經驗積累時可以去嘗試。

因為,對於呼叫系統的租戶來說,呼叫系統最關鍵的就是高效和穩定。要想進行商業化,就必須保證呼叫系統的高併發和穩定,這是一切的前提條件。

除去FreeSwitch之外,也可以購買第三方成熟的呼叫系統,例如國外比較有名的Genesys等。

購買成熟的呼叫系統,一個是系統本身已經比較穩定、功能齊全,該踩的坑前人已經幫忙全部踩過。還有就是減少研發成本,尤其是對於AI型公司來說,無需為呼叫系統再浪費研發資源和時間。

在呼叫系統中,會有一些專用名稱,不是這個圈子的一般很難理解,例如坐席、線路、併發等。

坐席:

主要是軟電話,一般也叫SIP電話。每個客服人員的賬號會綁定一個坐席,擁有坐席之後,即可通過電腦在線進行撥打、接聽電話。

線路:

可以理解為外呼時用到的主叫號碼,通常為一批號碼的集合,號碼的類型很多,手機卡、中繼線等等,有不同的接入方式。

線路資源會根據運營商時常變動,所以通常由專門的線路商去維護和運營。線路會被很多業務共用,只能外呼,不能呼入。為便於區分,這條線路下的所有號碼會有相同的歸屬地,撥打的是類似的業務。

例如:北京教育線,便表示外顯是北京,主要撥打教育營銷相關的業務。

當然上述主要針對的是外呼場景,呼入場景只需要向運營商購買穩定的線路即可。

併發:

指同時間可以進行幾路通話。併發受限的因素較多:呼叫系統性能、機器人配置數量、線路資源。

  • 呼叫系統性能:這是個技術問題,當高併發時,服務端無法處理,容易造成漏接、無響應等各種問題,並影響接聽率。
  • 機器人配置數量:這個主要是種收費模式,按機器人併發量進行收費。
  • 線路資源限制:簡單理解為線路中實際可外呼的sim卡限制(實際上很多種類型),算是種物理限制,只能多找一些線路,沒有其他辦法。

2. AI機器人

嚴格地來說,AI機器人就是一整套回應的話術,內容包括核心的對話流程和知識庫。根據業務的不同,採用不同的技術方案。

1)兩類業務場景

在業務上粗略地可分為兩種場景:呼出場景、呼入場景。

呼出場景:

主要是電話營銷、通知等業務。

大部分的呼出電話都是陌拜電話,例如教育培訓、股票投資、醫療保險,都是廣撒網的方式大量外呼。這些電話本身就是對用戶時間的一種侵佔,對用戶來說沒有意願來配合進行問答,隨時都可能被用戶提前掛機。

總的來說,呼出場景的特點是:話術簡單,單通價值低,用戶不配合。針對此類場景,機器人採用的堆關鍵詞的方式即可實現。

呼入場景:

主要是業務查詢、預訂等業務。

常見的呼入場景,例如有10086。之前撥打10086,使用的是IVR模式,需要按鍵操作,現在已經可以語音直接查詢話費信息。由於是用戶主動呼入,帶有明確的目的,對電話機器人的容忍度相對較高。而機器人核心價值是幫助用戶完成任務,在無法識別等情況下,可與用戶確認,方便明確意圖。

總結一下,呼入場景的特點是:業務穩定,單通價值高,用戶配合。此類場景,就需要用到Rasa之類的聊天機器人框架,利用意圖識別、實體提取完成任務。PS:呼入場景,類似於智能音箱。

2)電話機器人和在線機器人對比

本質上電話機器人與在線客服機器人相同。區別在於輸入端一個是語音,一個是文本。

語音信息包含著更多無用的信息,文本要比語音更加精準和高效。當然語音中包含的語氣、語速、情緒等也有部分價值,例如可以用來判斷男女。

電話機器人由於需要先ASR(語音識別),轉成文本之後,再NLP(語義理解),而在線機器人是直接進行NLP處理。因此,在最終的理解效果上,電話機器人的準確性會差一些。

3)語音輸入的難點與方案

語音輸入的難題,便是上文中所羅列的,這裡不再贅述。這些難題不是目前技術可以解決的,或者說解決成本很高。這裡就簡要列舉一些方案,具體需要在實際場景中多次嘗試,才能得出最優方案。

方言問題:

最直接的方案是採用方言的ASR識別引擎。針對方言的ASR識別,在科大訊飛、阿里雲等基礎服務商都有提供。

問題是:第一,方言種類多,而一般識別引擎只能識別部分使用範圍廣的方言,如四川話、粵語;第二,不知道該用哪套識別引擎,用戶範圍廣,在接通前都是未知的;第三,比較貴,商用成本高。

另一種是笨辦法,但是也有效。通過人工巡檢,將ASR識別結果中的擬聲詞、錯別字、近似詞都作為關鍵詞積累起來,積累越多,越容易被識別。

噪音識別問題:

噪音可分為人聲噪音和環境噪音。

常見的人聲噪音例如:周圍有人在說話、電視劇的聲音等。由於設備的限制,沒辦法利用麥克風陣列等硬體去判斷遠近場,因此沒有什麼特別好的解決方案,畢竟電話的音頻就只有8000Hz、單聲道、16位。

環境噪音,在呼叫系統中就可以用濾波器、譜減法等方式降噪,還可以聲音切片的長度。

例如:正常說話單個字的時長都大於200ms,過濾掉短促的噪音。此外,在送往ASR之前,還可以利用AI進行一次噪音識別,過濾之後再送往ASR識別。而ASR識別引擎本身也具備過濾噪音的功能。具體的實施方案可根據實際效果、商業化角度去搭配組合。

語氣詞、口頭禪:

例如:嗯——這可能只是在組織語言時的停頓或者是傾聽時禮貌性的反應,但會被識別成肯定的意思。

此類情況比較常見,在人工巡檢過一批錄音后,發現作為語氣詞的情景次數要大於作為肯定的情景次數。

因此,第一步是將單字的「嗯」、「哦」等詞從意圖中剔除,保留「嗯好的…」等更明確表達該意圖的詞。

第二步則是在AI對話時候,盡量不要讓用戶開放式回答,而是引導用戶回答,比如用「是不是」、「可以嗎」等結尾,潛移默化地影響用戶回答「是」、「不是」、「可以」等指令明確的詞。

打斷、表達不清:

這個問題比較難表述,繼續舉個栗子:

假設AI詢問兒童年齡,用戶回答:「噢……我小孩4歲」,中間停頓了一下。在正常邏輯中,為讓AI快速響應,在用戶回答停頓的時候,已經執行下一流程。因此,這時AI可能會忽略用戶後半句有價值的對話。

該問題往往容易使AI漏掉關鍵信息,同時也影響通話體驗,給人生硬的感覺。針對該問題,目前是通過規則去控制,通過人工對通話記錄的總結,制訂處理規則。如什麼情況下允許打斷、什麼條件下替換為上節點意圖,這些都需要在實際場景中不斷總結優化。

4)話術設計

機器人的對話設計有很多配置方式。底層基本都是Taskflow的模式,是類似於流程圖,將多個節點連接起來。這種方式能夠逐漸讓問題的範圍收斂,處理複雜的業務對話。

節點:

節點主要是針對輸入的內容進行意圖判斷,最後根據判斷分流給下一個節點。

在智能設備中經常會提及一個詞叫「技能」,通過技能,可以完成特定的指令。節點也類似於技能,不過在通話場景下,範圍會比技能還要大一點。

  1. 針對語音進行判斷,即「技能」,可通過關鍵詞、實體提取等方式判斷意圖。
  2. 針對按鍵進行判斷,也就是IVR,這是電話獨有的功能,用戶可以準確地輸入數字,不用擔心ASR識別錯誤,在核對用戶身份證信息等場景下特別有用。
  3. 針對系統數據進行判斷,此時不需要用戶輸入,是由系統根據已有信息直接給出判斷結果,如上一條中的身份證信息判斷。

流程組:

在常見的銷售、客服話術中,通常可以分為開場白、業務介紹、業務處理、結束語幾個階段。為了方便話術設計和後期優化,也會根據此類分發去設計節點流程,並用流程組作為階段進行分隔。

5)AI效果優化
衡量一個AI機器人的好壞,要看它最終帶來的收益和成本。

在呼出場景中,需要讓AI最終意向率到達或者略小於人工水平,畢竟每一通電話、每一個號碼都是成本的。

在呼入場景中,則需要關注問題解決率、客戶滿意度等。必要時刻還是得使用人工坐席兜底,因此還需要關注人工介入情況。

優化話術效果,主要通過錄音巡檢和分析每個節點的識別率、掛機率,為節點補充關鍵詞、說法集,也會嘗試不同的說話方式,具體的有時間再細講。

就目前而言,純AI接聽的完成率與人工接聽對比,還是有一定差距。因此真正適合純AI的應用場景還是比較少,適合用在呼叫量大、內容單一的場景,如:電話通知、催收M0。

在其他場景下,還是以AI+人工配合更為合適。AI負責前期簡單的對答,過濾和分流部分用戶,再由人工更靈活地解決問題。等到收集足夠多的說法集,歸納完善的話術之後,由 AI逐步接手,將人工後撤到下一節點,層層後撤,減少人工投入。

3. CRM系統

每一通電話記錄都會經過CRM分析用戶意向、最終通話結果。CRM系統基於業務,主要負責對客戶的管理和跟進,整個CRM系統主要可分為3個方向:

  1. 對人員的管理:包括銷售、客服坐席的增刪改查和業務報表。
  2. 對客戶的管理:涉及到客戶信息、通話的意向度、完整跟進記錄、狀態的流轉。
  3. 對資源的管理:這裡的資源可以包括線路的管理運營、話術設計和優化。CRM系統較為常見,這裡就不再多說,根據實際需求,進行調整和功能擴充即可。

二、主要競爭對手

圖為當時做競品分析時,歸納的競品公司

在智能外呼這個賽道,直接競爭的是兩類企業:傳統的軟體提供商和以AI為核心的科技公司。

客服軟體提供商在客服系統、呼叫中心等產品上深耕多年,有相當完善的產品矩陣和客戶資源,對客戶需求、實施解決方案都是經驗豐富。

AI型科技企業,則是垂直切入外呼場景,依託自身的AI技術,對單一場景進行單點突破,鞏固自身的技術壁壘。只是就目前來看,AI技術的瓶頸還未突破,對智能對話、通話體驗的改變不大。

除了上述兩類企業外,百度雲、阿里雲、騰訊雲之類的雲服務商,利用自身優勢,將技術集成到開放平台中,形成完整的行業解決方案。為企業提供ASR、NLP、TTS、呼叫系統甚至是線路等基礎技術服務,降低了技術門檻,企業不需要特別的技術儲備,即可搭建出自己的系統,可以說是一種降維打擊。

PS:事實上AI驅動的企業,完善自身技術后,也在逐步開放AI能力,提供技術服務,為其他企業賦能。

而研究聊天機器人的企業,在NLP技術的研究和積累頗多,也容易快速切入。

三、核心競爭力

雖然說是AI機器人,核心亮點是AI。但是,在實際應用中真正利用到AI技術的並不多。

  • ASR:除非自身有足夠多的語料和研發能力(還要考慮研發成本、更新維護能力),否則ASR大多都是通過科大訊飛、阿里雲等大平台進行識別。
  • NLP:這個是一個技術核心,不過就目前的提升效果,通過填充關鍵詞之類的笨辦法也能達到相同效果。
  • TTS:在實際語音播放中,除了變數等必須由TTS合成外,大部分話術都可通過提前人工錄音的方式完成,且播放效果比TTS還要好。

個人認為AI機器人的核心,不在於AI,而是基於業務場景的話術。客戶不會關心技術如何先進,而是看最終的接聽效果。當一個話術調整成接近人工坐席效果時,那麼在這個業務場景可以說是形成了壁壘,拓展相似業務會更有優勢。