如何評測語音助手的智能程度(2):服務提供

關於如何評測的問題,筆者從四個維度展開了分析,而本文服務提供維度展開評測點的拆解,考量的是場景理解及整合應用CP和SP的能力。

很多人覺得AI是一個行業,但AI其實並不是行業,真實的情況是行業+AI,即原本的各個行業如何釋放AI的能力促使產業升級,提升運轉效率,創造更多的社會價值。

在前一篇文章里,用戶提出一個需求——「我就想要一個聰明且好用的智能助理,能夠滿足我生活中的各種需求。」

這個「各種需求」的滿足,其實是原本已經存在解決方案的,AI只是試圖去革新體驗。

我們都知道那個著名的公式:用戶價值=(新體驗-舊體驗)-替換成本。

那麼問題來了,用戶原本用得好好的,為什麼要來用你呢?

很多AI創業公司就是理解以及處理不好這個問題,經營不好而半路夭折。

任何一個服務背後的構建,智能助手其實都依賴於CP(內容提供商)和SP(服務提供商)的能力,那麼如何將這些能力巧妙地與AI結合,是非常值得研究的部分。

前一篇文章,筆者重點談了【意圖理解】維度,本篇文章為大家帶來【服務提供】維度的評測點拆解。

在談及這個模塊的時候,評測考量的是場景理解及整合應用CP和SP的能力。

1. 資源/服務的全面性

機器貓有一個百寶袋能夠解決足夠多的問題。

《超能陸戰隊》的大白最初的定位是在醫療健康領域,相對就比較窄一些。當然後續大白經過版本迭代升級,也開發出自己的其他能力,這就是能力拓展。

「你看我家的這隻大白,他又大又圓,能治病救人,還能打,要是能再多做一些事就好了」

所以,智能語音助手的技能服務,能力範圍自然是越多越好?

在理解這個維度之前,我們一定要明白比較的對象。

在前面一篇文章里筆者曾經提到過:「市面上,例如騰訊叮噹、小愛同學、天貓精靈、小度音箱這類大生態的集合的處理方案,屬於最大的開放域。」

這種產品形態的背後,其實是把集團的資源整合進一個智能硬體中,為音箱這個智能硬體提供更多附加價值。

筆者的視角看來,這也是在未來,各CP和SP在未來註定會到來的智能時代,嘗試以音箱這類硬體載體,找到AI為用戶提供服務價值的一種探索性行為。

從這個角度去評判,他們無疑是大而全的。

巨頭們的打法,他們做的是生態。用評價應用商店的角度,去評判智能助手,根本就不對。

故而SIRI的未來,定位一定是基於蘋果的大生態,做一個向用戶提供SP和CP的連接器。它是中介,提供的服務能力是,幫助用戶尋找CP和SP。

而實際上,真正去解決我們生活中的問題的是,各個行業細分領域的CP和SP們。

CP角度:視頻、音樂、音頻內容、文字內容、遊戲等領域。

SP角度:出行、教育、醫療、金融、電商、旅遊、餐飲、客服、線下生活服務等領域。

所以,真正比拼服務全面性的,指的是解決某個具體問題的能力。

例如滴滴的定位是解決用戶的出行問題,如何解決一公里內的出行服務需求,收購一家「自行車」唄。

在實際的業務評測,體驗測試很多市面上的AI助理,就覺得有些服務有,但是服務的覆蓋不夠。

例如很多的AI助手都是訂機票功能的,但是似乎少有的能做到整個服務鏈條的全覆蓋。比如:

  • 能定國內的機票,沒法定海外的機票;
  • 買機票的同時,不能買出行相關的保險;
  • 乘坐飛機相關的各種FAQ服務問題能不能答得上來;
  • 行程單郵寄以及發票報銷,解決得是否到位;
  • 預約送機和接機的服務需求如何解決;
  • 商旅人士定酒店的服務是不是也得加上;

……

定位可大可小,只有先明確產品的定位,然後基於定位所覆蓋的服務範圍,去滿足用戶需求,基於這個角度去評測「資源/服務的全面性」才更準確。

而作為AI從業者,實際上應該思考的是,用如何用現在的AI能力升級某個產業,更好的為用戶提供更多的價值,爭取做到某個細分需求領域裡面的最好。

此為,我輩中人,應該反覆思考的命題。

2. 資源/服務的質量

既然有全面性考量,相對應也有質量的追求。

行業內能提供最好質量的也就是BAT的那幾家,這個背後是介面,即SP和CP的比拼。無非就是把手機上獲取的內容和服務,換一個硬體載體所承載。

從用戶角度而言,是通過點觸找到自己想要的內容/服務,還是和通過語音找到自己想要的內容/服務,這個過程並不重要,而真正在意的是能否滿足需求,有無體驗升級?

即,只要讓我能拿到能回家的火車票,我才不管哪個軟體,通過什麼形式完成交易行為。

在這一點上,巨頭的SP和CP非常齊備,而小廠往往就慘兮兮,比如我想聽周杰倫的歌,我也能做好相關的語義理解,結果公司的背後沒有QQ音樂的支持,那隻能找一些替代方案,還擔心版權問題。

中等廠商如喜馬拉雅,基於內容做音箱,然後捆綁內容完成銷售。

那麼問題來了,如果自己不是巨頭公司,手裡也沒有內容,公司也沒太多的錢,買不到版權,如何去做呢?

在一些細分領域,是存在內容自建這一說的。我們可以開一些也許不嚴謹的腦洞。

先定義一下場景:智能廚房,如何給用戶帶來革新的體驗?

比如說,電冰箱上開個屏幕,外加麥克風揚聲器wifi模組,這個硬體成本是可控的,如此可以構成一個廚房AI機器人。

每天推特價菜,整合每日優鮮或樓下便利店,對廚房的需求直接語音配送下單。在廚房這個場景下,屏幕上可以語音搜索,做菜烘培類的視頻資源等,可以用知乎,抖音,下廚房等任意地方的內容,這個細分領域,維繫好內容建設,成本並不高。

再比如說,市面上一些熱門遊戲,已經有了自己的智能助手,有些做的好,有些不好。

在這裡可以尋求的服務可以有:提供遊戲攻略、提供客服入口以及服務、收集用戶建議,做運營營收類動作一類系統整合服務。

就單單一個服務點,當用戶在遊戲中挫敗的時候,卡在某個關卡下死活過不去,可以提供遊戲圖文/視頻攻略,貼心的送一些臨時性的道具關懷,甚至幫助用戶完成戰鬥。這些都是可以通過助手實現,並有效提升用戶留存的

所以,智能助手能不能基於場景和需求,給予用戶高質量的內容價值,是非常重要的考量點。

3. 反饋樣式的豐富性

簡單來說,就是智能助手的回復類型有多豐富。

還是舉個例子:現實生活中,你向其他人提問我想了解一下這個房子,你能介紹一下么?

如果現在同樣的問題,拋給語音助手,對方回復的內容樣式包含如下:

  1. 純文本介紹
  2. 圖片搭配文本,語音介紹
  3. 視頻內容介紹
  4. 帶交互的功能式頁面
  5. 導購講解外加VR視覺交互

無論是問問題和反饋需求,我的智能助手怎樣回復我,總會有一個反饋樣式。

在實際使用其他的智能客服交流的時候,問他一些非常基礎的問題,比如說找一下籤到功能頁面

機器人會非常細心的告訴我,先點哪裡,然後點哪裡,然後點哪裡就可以找到了。

問題就是他是一串純文本,為什麼就不能給我一個直接跳轉到指定頁面的功能按鈕呢?顯然,它並沒有提供一個【跳轉】的功能樣式。

故而,智能助手輸出結果樣式的豐富性也應該作為評測指標。

列舉一下當前的回復樣式,文本、圖文、視頻播放器、音軌、選項卡、表單、功能按鈕、多模態交互等等。

必要說明的是,樣式並非越華麗炫酷越好,而是恰當好處就好,往往越是華麗炫酷的東西,越是載入效果多,反饋速度慢也是評測丟分項(這個後面的評測維度會提及)。

樣式的選擇,就是具體場景具體分析了。

所以評測點是,是否能夠理解用戶需求,使用豐富的反饋樣式,提升用戶體驗。

4. 內容展示合理程度

這一塊其實非常考驗人的設計功底,好的UI界面一定是簡單而優雅的。

它只在用戶需要的時間,展示需要的內容

展示是分為GUI(圖形界面)的和VUI(語音界面)兩個部分的。

就好比飛機的駕駛艙,一定是讓人抓狂和惱火的,太多的儀錶盤和功能按鈕會讓人決策癱瘓。而這種設計我一般稱之為勸退性設計。而汽車的駕駛艙的設計就好的多,因為他簡化了操作。

而就算是汽車的駕駛艙,不同的廠商處理能力也完全不一樣,Tesla的處理表現是非常優雅的。

經歷過功能機年代的人都知道,那個年代實體鍵盤佔據屏幕的一大部分,而當前的手機鍵盤僅僅在需要出現的時候出現,類似的例子實在是太多了。

故而內容展示的合理程度,也應該成為一個評測標準。

就算是複雜的內容,也需要做好信息處理,根據用戶的情況,分層次分階段,進行內容展示

為了幫助大家理解,我舉幾個語音交互層面的例子。

比如說,大家周末相約到你家聚會,有些同學由於不熟悉路況,然後打電話給你。你通過語音跟對方完成指路行為。注意,這是一個純語音對話的場景。

一般情況下,你採用的的話術表示是東南西北,一二三四某個街道樓棟門牌號這類語言結構,這種固然沒什麼問題,但是往往是對空間感較好的男生比較友好。

而這類話術在女生那邊就不那麼管用了,她們熟悉什麼呢?商店品牌,廣告牌標識,建築形狀,顏色等等,所以你自然就應當調整自己的話術,相信她們會更接受。

上述例子就是基於用戶的情況,去設計自己的話術呈現

前面一個智能廚房的場景,詢問如何做菜,一般會給予視頻推薦。如此,解放雙手,邊看邊聽邊做,這個是我們想象的美好場景。

如果內容不加以控制和處理的話,用戶的使用路徑是,先看視頻后做菜,或者是邊看視頻邊做菜。如此,大概率會出現,一看就會,一做就廢的情況。

原因無他,信息過載,細節過多,記不住。

而對內容進行管理,加以處理的話,合理的處理分層次分階段,體驗便能再上升一個台階。

上述例子就是基於分層次分階段,去設計自己的內容呈現

筆者曾經設計過一些語音交互遊戲。在進行業務教學的時候,曾經走過類似的彎路。

往往我們一開始是需要向用戶介紹基本狀態,以及基本操作指令的,在介紹遊戲指令的時候,有這一段描述:

……遊戲的命令列表分別是:「繼續」、「重複一遍」、「下一步」、「退出遊戲」。

問題1:命令列表是計算機語言,不具備親和力,更好的表述應該是替換成你可以對我說:

而在後續實際的體驗過程中,以及觀察用戶實際使用情況是:

當AI講完,用戶並不知道接下來該怎麼辦,頓在那裡里發獃。

當AI講完,用戶走神沒聽清楚,也忘記了前面「重複一遍」的命令列表。脫口而出你說啥?

問題2:一開始用戶拿到這一串命令的時候,其實是不知所措的,就好比跟你念了一段說明書。因為信息過載,而可能會遺漏掉某些信息。

這就是語音交互的尷尬所在,操控命令無法圖形化顯示,只能想辦法在用戶需要的時候提示。(這就非常考量出現的時機)而交代也需要細節,比如:

AI:說「繼續」進入下一步。

用戶:繼續進入下一步。我們真的不希望用戶如此表述。

問題3:我們期望用戶的表述,與預想不符,而修訂后的是

助手:進入下一步請說「繼續」

類似的例子還能列舉很多,無論是GUI還是VUI,對用戶一股腦呈現,不加以管理是非常不負責的。

在自然語言處理領域,特別是純語言的表述,邏輯順序非常非常重要。所以我提煉成,內容展示合理程度,故而列為評測點。

5. 兜底處理表現

儘管我們都希望自己的智能助手能夠給予最好的回復。

而在實際的業務中,總會有一些搞不定的情況。

此處搞不定分為兩種,一種情況是,AI聽懂了,但是需求超出範圍,如何回復?

另外一種情況是,AI真的沒聽懂,但是能猜測一個大概,但拿不準,如何回復?

實際業務中的解決方案,每個業務單元處理均不一致。

私以為常見的處理方案如下。

下面的這個例子中,有什麼理財推薦我想買理財其實意圖近似,但是AI則根據自己的理解,給予了兩種不同的處理方案。

下面的三個例子中,其實都是歸屬於成功理解意圖,但是回復不一致。

案例1,採用閑聊接話的方式,顯然是不過關的。(這類不過關真的非常多)

而案例2和案例3,則是相對過關的。

案例2和案例3,都無法直接滿足,雖然方向不同,但也是努力兜底,為用戶解決問題。

一種是通過下載APP作為解決方案,一種是交給導航去處理,提供解決方案。這兩種選擇的背後,都是可以產生商業價值的。

所以兜底回復的表現,衡量的是,能夠為用戶,為公司帶來多少價值。故而列為評測點。

6. 階段性結尾

寫東西不光光是羅列和定義評測點是什麼,筆者更期望在每個點上,加入更多的業務思考和理解。

實際上,原本在【服務提供】這個維度,有更多評測點去列舉,受應用性所限,刪掉的一些內容。

用提問的方式,列舉一下我刪除掉的指標。

第(6)點,列舉一個例子,特別跟我們工作中一樣,馬總下周去北京出差,你幫忙安排一下相關行程。然後秘書會溝通具體時間,航班的班次,酒店,路上的交通,出差相關的事項提醒以及資料。當這類事情,交付給AI的時候,AI如何處理。

第(7)點,智能助理可以出現的地方,麥克風,揚聲器,wifi模塊,就可以使用語音交流了,如果有屏幕,則多一種點觸交互。那麼這意味著智能助理,可以存在的載體非常多,手錶/環、手機、電腦、眼鏡、耳機、音箱、車載硬體等任何地方。那麼當用戶在不同場景的下的需求,到了另外的地方,如何對人類提供反饋。

第(8)點,開放域閑聊,解決用戶的寂寞問題。要知道,「樹洞」也是一種待滿足的需求。表現得最好的是電影《Her》裡面的薩曼莎,不熟悉這個電影的朋友可以去B站搜下內容。其次表現得最好的,我所知道的,應該是被很多人調戲了這些年的微軟小冰了。

(6)、(7)、(8)三點畢竟高難度,雖然想過方案,但是對絕大多數智能助手而言,相對低頻,故而棄之。當然也可以把這些評測點納入,作為加分項。如果能實現得比較好,那就是亮點,甚至是當成重要賣點去贏得市場競爭力!

當用戶提出需求后,AI先理解,后反饋,這個反饋表現,就是本文【服務提供】維度各個考量角度。

我們都知道那個著名的公式:用戶價值=(新體驗-舊體驗)-替換成本。前段時間讀《俞軍產品方法論》時,更是加深了理解。

我們如何釋放AI的能力去革新體驗,盡量提升(新體驗)的價值。

同時用戶(替換成本)是什麼,如何降低。如何兩頭用力,最大化創造用戶價值。

此為,我輩中人,反覆思考的命題。

以上,關於第二大維度【服務提供】的考量部分,就此完結。

後續文章會補充餘下的部分,並以相同的形式去進行補充解釋和完善:

  • 【交互流暢】——當用戶與AI進行交互的時候,重點就交互反饋過程中的性能指標,體驗是否流暢來設計評測指標。
  • 【人格特質】——智能助手是否具備足夠的魅力/人格化特質,就情緒表現,情商,共情、個性化、擬人化程度來設計評測指標。

謝謝你看到了這裡,有疑問,可以在留言區評論與作者深入討論。

相關閱讀

如何評測語音助手的智能程度(1):意圖理解

 

作者:飯大官人,不折騰會死星人,微信公眾號:fanfan19860403《遊戲運營:高手進階之路》作者。熟悉遊戲領域、人工智慧-自然語言處理領域。