如何評測語音助手的智能程度（2）：服務提供

關於如何評測的問題，筆者從四個維度展開了分析，而本文服務提供維度展開評測點的拆解，考量的是場景理解及整合應用CP和SP的能力。

很多人覺得AI是一個行業，但AI其實並不是行業，真實的情況是行業+AI，即原本的各個行業如何釋放AI的能力促使產業升級，提升運轉效率，創造更多的社會價值。

在前一篇文章里，用戶提出一個需求——「我就想要一個聰明且好用的智能助理，能夠滿足我生活中的各種需求。」

這個「各種需求」的滿足，其實是原本已經存在解決方案的，AI只是試圖去革新體驗。

我們都知道那個著名的公式：用戶價值=(新體驗-舊體驗)-替換成本。

那麼問題來了，用戶原本用得好好的，為什麼要來用你呢？

很多AI創業公司就是理解以及處理不好這個問題，經營不好而半路夭折。

任何一個服務背後的構建，智能助手其實都依賴於CP（內容提供商）和SP（服務提供商）的能力，那麼如何將這些能力巧妙地與AI結合，是非常值得研究的部分。

前一篇文章，筆者重點談了【意圖理解】維度，本篇文章為大家帶來【服務提供】維度的評測點拆解。

在談及這個模塊的時候，評測考量的是場景理解及整合應用CP和SP的能力。

1. 資源/服務的全面性

機器貓有一個百寶袋能夠解決足夠多的問題。

《超能陸戰隊》的大白最初的定位是在醫療健康領域，相對就比較窄一些。當然後續大白經過版本迭代升級，也開發出自己的其他能力，這就是能力拓展。

「你看我家的這隻大白，他又大又圓，能治病救人，還能打，要是能再多做一些事就好了」

所以，智能語音助手的技能服務，能力範圍自然是越多越好？

在理解這個維度之前，我們一定要明白比較的對象。

在前面一篇文章里筆者曾經提到過：「市面上，例如騰訊叮噹、小愛同學、天貓精靈、小度音箱這類大生態的集合的處理方案，屬於最大的開放域。」

這種產品形態的背後，其實是把集團的資源整合進一個智能硬體中，為音箱這個智能硬體提供更多附加價值。

筆者的視角看來，這也是在未來，各CP和SP在未來註定會到來的智能時代，嘗試以音箱這類硬體載體，找到AI為用戶提供服務價值的一種探索性行為。

從這個角度去評判，他們無疑是大而全的。

巨頭們的打法，他們做的是生態。用評價應用商店的角度，去評判智能助手，根本就不對。

故而SIRI的未來，定位一定是基於蘋果的大生態，做一個向用戶提供SP和CP的連接器。它是中介，提供的服務能力是，幫助用戶尋找CP和SP。

而實際上，真正去解決我們生活中的問題的是，各個行業細分領域的CP和SP們。

CP角度：視頻、音樂、音頻內容、文字內容、遊戲等領域。

SP角度：出行、教育、醫療、金融、電商、旅遊、餐飲、客服、線下生活服務等領域。

所以，真正比拼服務全面性的，指的是解決某個具體問題的能力。

例如滴滴的定位是解決用戶的出行問題，如何解決一公里內的出行服務需求，收購一家「自行車」唄。

在實際的業務評測，體驗測試很多市面上的AI助理，就覺得有些服務有，但是服務的覆蓋不夠。

例如很多的AI助手都是訂機票功能的，但是似乎少有的能做到整個服務鏈條的全覆蓋。比如：

能定國內的機票，沒法定海外的機票；
買機票的同時，不能買出行相關的保險；
乘坐飛機相關的各種FAQ服務問題能不能答得上來；
行程單郵寄以及發票報銷，解決得是否到位；
預約送機和接機的服務需求如何解決；
商旅人士定酒店的服務是不是也得加上；

……

定位可大可小，只有先明確產品的定位，然後基於定位所覆蓋的服務範圍，去滿足用戶需求，基於這個角度去評測「資源/服務的全面性」才更準確。

而作為AI從業者，實際上應該思考的是，用如何用現在的AI能力升級某個產業，更好的為用戶提供更多的價值，爭取做到某個細分需求領域裡面的最好。

此為，我輩中人，應該反覆思考的命題。

2. 資源/服務的質量

既然有全面性考量，相對應也有質量的追求。

行業內能提供最好質量的也就是BAT的那幾家，這個背後是介面，即SP和CP的比拼。無非就是把手機上獲取的內容和服務，換一個硬體載體所承載。

從用戶角度而言，是通過點觸找到自己想要的內容/服務，還是和通過語音找到自己想要的內容/服務，這個過程並不重要，而真正在意的是能否滿足需求，有無體驗升級？

即，只要讓我能拿到能回家的火車票，我才不管哪個軟體，通過什麼形式完成交易行為。

在這一點上，巨頭的SP和CP非常齊備，而小廠往往就慘兮兮，比如我想聽周杰倫的歌，我也能做好相關的語義理解，結果公司的背後沒有QQ音樂的支持，那隻能找一些替代方案，還擔心版權問題。

中等廠商如喜馬拉雅，基於內容做音箱，然後捆綁內容完成銷售。

那麼問題來了，如果自己不是巨頭公司，手裡也沒有內容，公司也沒太多的錢，買不到版權，如何去做呢？

在一些細分領域，是存在內容自建這一說的。我們可以開一些也許不嚴謹的腦洞。

先定義一下場景：智能廚房，如何給用戶帶來革新的體驗？

比如說，電冰箱上開個屏幕，外加麥克風揚聲器wifi模組，這個硬體成本是可控的，如此可以構成一個廚房AI機器人。

每天推特價菜，整合每日優鮮或樓下便利店，對廚房的需求直接語音配送下單。在廚房這個場景下，屏幕上可以語音搜索，做菜烘培類的視頻資源等，可以用知乎，抖音，下廚房等任意地方的內容，這個細分領域，維繫好內容建設，成本並不高。

再比如說，市面上一些熱門遊戲，已經有了自己的智能助手，有些做的好，有些不好。

在這裡可以尋求的服務可以有：提供遊戲攻略、提供客服入口以及服務、收集用戶建議，做運營營收類動作一類系統整合服務。

就單單一個服務點，當用戶在遊戲中挫敗的時候，卡在某個關卡下死活過不去，可以提供遊戲圖文/視頻攻略，貼心的送一些臨時性的道具關懷，甚至幫助用戶完成戰鬥。這些都是可以通過助手實現，並有效提升用戶留存的。

所以，智能助手能不能基於場景和需求，給予用戶高質量的內容價值，是非常重要的考量點。

3. 反饋樣式的豐富性

簡單來說，就是智能助手的回復類型有多豐富。

還是舉個例子：現實生活中，你向其他人提問我想了解一下這個房子，你能介紹一下么？

如果現在同樣的問題，拋給語音助手，對方回復的內容樣式包含如下：

純文本介紹
圖片搭配文本，語音介紹
視頻內容介紹
帶交互的功能式頁面
導購講解外加VR視覺交互

無論是問問題和反饋需求，我的智能助手怎樣回復我，總會有一個反饋樣式。

在實際使用其他的智能客服交流的時候，問他一些非常基礎的問題，比如說找一下籤到功能頁面。

機器人會非常細心的告訴我，先點哪裡，然後點哪裡，然後點哪裡就可以找到了。

問題就是他是一串純文本，為什麼就不能給我一個直接跳轉到指定頁面的功能按鈕呢？顯然，它並沒有提供一個【跳轉】的功能樣式。

故而，智能助手輸出結果樣式的豐富性也應該作為評測指標。

列舉一下當前的回復樣式，文本、圖文、視頻播放器、音軌、選項卡、表單、功能按鈕、多模態交互等等。

必要說明的是，樣式並非越華麗炫酷越好，而是恰當好處就好，往往越是華麗炫酷的東西，越是載入效果多，反饋速度慢也是評測丟分項（這個後面的評測維度會提及）。

樣式的選擇，就是具體場景具體分析了。

所以評測點是，是否能夠理解用戶需求，使用豐富的反饋樣式，提升用戶體驗。

4. 內容展示合理程度

這一塊其實非常考驗人的設計功底，好的UI界面一定是簡單而優雅的。

它只在用戶需要的時間，展示需要的內容

展示是分為GUI（圖形界面）的和VUI（語音界面）兩個部分的。

就好比飛機的駕駛艙，一定是讓人抓狂和惱火的，太多的儀錶盤和功能按鈕會讓人決策癱瘓。而這種設計我一般稱之為勸退性設計。而汽車的駕駛艙的設計就好的多，因為他簡化了操作。

而就算是汽車的駕駛艙，不同的廠商處理能力也完全不一樣，Tesla的處理表現是非常優雅的。

經歷過功能機年代的人都知道，那個年代實體鍵盤佔據屏幕的一大部分，而當前的手機鍵盤僅僅在需要出現的時候出現，類似的例子實在是太多了。

故而內容展示的合理程度，也應該成為一個評測標準。

就算是複雜的內容，也需要做好信息處理，根據用戶的情況，分層次分階段，進行內容展示。

為了幫助大家理解，我舉幾個語音交互層面的例子。

比如說，大家周末相約到你家聚會，有些同學由於不熟悉路況，然後打電話給你。你通過語音跟對方完成指路行為。注意，這是一個純語音對話的場景。

一般情況下，你採用的的話術表示是東南西北，一二三四某個街道樓棟門牌號這類語言結構，這種固然沒什麼問題，但是往往是對空間感較好的男生比較友好。

而這類話術在女生那邊就不那麼管用了，她們熟悉什麼呢？商店品牌，廣告牌標識，建築形狀，顏色等等，所以你自然就應當調整自己的話術，相信她們會更接受。

上述例子就是基於用戶的情況，去設計自己的話術呈現。

前面一個智能廚房的場景，詢問如何做菜，一般會給予視頻推薦。如此，解放雙手，邊看邊聽邊做，這個是我們想象的美好場景。

如果內容不加以控制和處理的話，用戶的使用路徑是，先看視頻后做菜，或者是邊看視頻邊做菜。如此，大概率會出現，一看就會，一做就廢的情況。

原因無他，信息過載，細節過多，記不住。

而對內容進行管理，加以處理的話，合理的處理分層次分階段，體驗便能再上升一個台階。

上述例子就是基於分層次分階段，去設計自己的內容呈現。

筆者曾經設計過一些語音交互遊戲。在進行業務教學的時候，曾經走過類似的彎路。

往往我們一開始是需要向用戶介紹基本狀態，以及基本操作指令的，在介紹遊戲指令的時候，有這一段描述：

……遊戲的命令列表分別是：「繼續」、「重複一遍」、「下一步」、「退出遊戲」。

問題1：命令列表是計算機語言，不具備親和力，更好的表述應該是替換成你可以對我說：

而在後續實際的體驗過程中，以及觀察用戶實際使用情況是：

當AI講完，用戶並不知道接下來該怎麼辦，頓在那裡里發獃。

當AI講完，用戶走神沒聽清楚，也忘記了前面「重複一遍」的命令列表。脫口而出你說啥？

問題2：一開始用戶拿到這一串命令的時候，其實是不知所措的，就好比跟你念了一段說明書。因為信息過載，而可能會遺漏掉某些信息。

這就是語音交互的尷尬所在，操控命令無法圖形化顯示，只能想辦法在用戶需要的時候提示。（這就非常考量出現的時機）而交代也需要細節，比如：

AI：說「繼續」進入下一步。

用戶：繼續進入下一步。我們真的不希望用戶如此表述。

問題3：我們期望用戶的表述，與預想不符，而修訂后的是

助手：進入下一步請說「繼續」

類似的例子還能列舉很多，無論是GUI還是VUI，對用戶一股腦呈現，不加以管理是非常不負責的。

在自然語言處理領域，特別是純語言的表述，邏輯順序非常非常重要。所以我提煉成，內容展示合理程度，故而列為評測點。

5. 兜底處理表現

儘管我們都希望自己的智能助手能夠給予最好的回復。

而在實際的業務中，總會有一些搞不定的情況。

此處搞不定分為兩種，一種情況是，AI聽懂了，但是需求超出範圍，如何回復？

另外一種情況是，AI真的沒聽懂，但是能猜測一個大概，但拿不準，如何回復？

實際業務中的解決方案，每個業務單元處理均不一致。

私以為常見的處理方案如下。

下面的這個例子中，有什麼理財推薦和我想買理財其實意圖近似，但是AI則根據自己的理解，給予了兩種不同的處理方案。

下面的三個例子中，其實都是歸屬於成功理解意圖，但是回復不一致。

案例1，採用閑聊接話的方式，顯然是不過關的。（這類不過關真的非常多）

而案例2和案例3，則是相對過關的。

案例2和案例3，都無法直接滿足，雖然方向不同，但也是努力兜底，為用戶解決問題。

一種是通過下載APP作為解決方案，一種是交給導航去處理，提供解決方案。這兩種選擇的背後，都是可以產生商業價值的。

所以兜底回復的表現，衡量的是，能夠為用戶，為公司帶來多少價值。故而列為評測點。

6. 階段性結尾

寫東西不光光是羅列和定義評測點是什麼，筆者更期望在每個點上，加入更多的業務思考和理解。

實際上，原本在【服務提供】這個維度，有更多評測點去列舉，受應用性所限，刪掉的一些內容。

用提問的方式，列舉一下我刪除掉的指標。

第（6）點，列舉一個例子，特別跟我們工作中一樣，馬總下周去北京出差，你幫忙安排一下相關行程。然後秘書會溝通具體時間，航班的班次，酒店，路上的交通，出差相關的事項提醒以及資料。當這類事情，交付給AI的時候，AI如何處理。

第（7）點，智能助理可以出現的地方，麥克風，揚聲器，wifi模塊，就可以使用語音交流了，如果有屏幕，則多一種點觸交互。那麼這意味著智能助理，可以存在的載體非常多，手錶/環、手機、電腦、眼鏡、耳機、音箱、車載硬體等任何地方。那麼當用戶在不同場景的下的需求，到了另外的地方，如何對人類提供反饋。

第（8）點，開放域閑聊，解決用戶的寂寞問題。要知道，「樹洞」也是一種待滿足的需求。表現得最好的是電影《Her》裡面的薩曼莎，不熟悉這個電影的朋友可以去B站搜下內容。其次表現得最好的，我所知道的，應該是被很多人調戲了這些年的微軟小冰了。

（6）、（7）、（8）三點畢竟高難度，雖然想過方案，但是對絕大多數智能助手而言，相對低頻，故而棄之。當然也可以把這些評測點納入，作為加分項。如果能實現得比較好，那就是亮點，甚至是當成重要賣點去贏得市場競爭力！

當用戶提出需求后，AI先理解，后反饋，這個反饋表現，就是本文【服務提供】維度各個考量角度。

我們都知道那個著名的公式：用戶價值=（新體驗-舊體驗)-替換成本。前段時間讀《俞軍產品方法論》時，更是加深了理解。

我們如何釋放AI的能力去革新體驗，盡量提升（新體驗）的價值。

同時用戶（替換成本）是什麼，如何降低。如何兩頭用力，最大化創造用戶價值。

此為，我輩中人，反覆思考的命題。

以上，關於第二大維度【服務提供】的考量部分，就此完結。

後續文章會補充餘下的部分，並以相同的形式去進行補充解釋和完善：

【交互流暢】——當用戶與AI進行交互的時候，重點就交互反饋過程中的性能指標，體驗是否流暢來設計評測指標。
【人格特質】——智能助手是否具備足夠的魅力/人格化特質，就情緒表現，情商，共情、個性化、擬人化程度來設計評測指標。

謝謝你看到了這裡，有疑問，可以在留言區評論與作者深入討論。