如何評測語音助手的智能程度(5):指標權重設計

這是一份前面四篇評測維度介紹文章的總結,同時也是一份清單使用說明書。

知己知彼,百戰不殆,調研評測其他公司的產品是從業者的日常操作,那麼當一個產品放到我們手裡的時候,到底看什麼呢?看哪些方面呢?專業性不到位的同學怕是無法下手。

而往往具備專業視角的人則遊刃有餘,他們知道考慮哪些點,結構清晰,主次分明,用解構的方式去理解一款產品,這才是AI從業者專業化思考的表現。

如何評測語音助手的智能程度(5):指標權重設計

如何定義權重

哪位同學問了,這四大維度,什麼是重點呢?答案是:基於需求自定義。

定義權重高低,兩個維度考量,一個是行業需求,一個是硬體載體。

  • 行業需求(出行、教育、醫療、金融、電商、旅遊、餐飲、客服等)
  • 硬體載體(音箱、耳機、手錶、車機、機器人等)

AI智能助手,往往都會解決某個行業領域的特定業務需求。AI智能助手,往往都存在於一個或多個硬體載體上,與人類進行交互行為。跟買房子、招聘員工所考慮的標準非常多一樣,你在意什麼,就給對應維度,對應指標以高權重。

比如:某產品的定位是用來聽歌的,【意圖理解】各個模塊做得非常好,但是由於版權原因,無法播放,這個對用戶而言就非常糟糕,因為滿足不了聽歌的需求。

再比如:某助手的定位是線下生活服務,比如訂外賣或者是電影票,這類往往不具備版權壟斷特質,但由於業務流程的複雜,有太多疊加查詢條件,自然對【意圖理解】有很高的權重要求。

再比如:某個玩具/手辦具備語音交互功能,用戶非常在意玩具/手辦的語音交互是否匹配角色氣質,故而對這類用戶而言,【人格特質】就是高權重。

大維度自定義權重,同理,每個維度上的指標也基於需求自定義。

如何評測語音助手的智能程度(5):指標權重設計

指標的選擇和量化

做清單真的是一件非常麻煩和費腦力的事情,這份清單花了筆者太多的時間,有太多的問題值得討論。

  1. 為什麼是4個維度,而不是5個或者是3個?
  2. 各維度是否窮盡了「智能化」評測的角度?
  3. 每個維度的指標是不是做到了窮舉?
  4. 每個維度的指標是不是平行、獨立關係?
  5. 每個指標的用詞的和定義是否精準無歧義且易於理解?
  6. 基於什麼依據設置每個維度的重點和加分項?

特別是在保留哪些指標,合併哪些指標之間,筆者做了很多權衡。

哪位同學說了,你遺漏了一個指標:語音識別表現,這個指標,與其說是遺漏,不如說是筆者的選擇。

筆者所知道的,目前最好的ASR識別率是97%,且這已經是非常成熟的技術。ASR和TTS在未來屬於AI領域水電煤一樣的基礎服務,就跟選騰訊雲還是阿里雲一樣,花錢選技術買服務就能搞定,差距不會太大,故而不值得納入評測範疇。

故而這類語音識別的基礎表現,就直接歸到【交互流暢】維度「服務穩定性」指標上了。

ASR這項技術未來差距一定會被抹平,而如果做到了方言(音軌)轉普通話(音軌)然後轉文本那就是另外一個話題了,方言轉普通話和任何一種語言轉普通話才是同一邏輯。那筆者可能會歸納到【意圖理解】維度上。

這就是筆者選擇指標,以及歸類的邏輯。上面的這些問題考慮,筆者已經盡自己所能去做到MECE了。

筆者力求全面,但並非每一個都需要用到,各位同學也可以基於自己的需求,自由添加、刪除和修改分類

例如:如果是一個智能耳機或者語義翻譯棒,那麼「反饋樣式豐富性」上,就不必要納入評測範圍了。

但選擇本身就是一個難題,這件事情非常考驗認知,我舉個例子:蘋果手機前面幾代產品,玻璃屏幕特別不耐摔,這在諾基亞的評測維度裡面,是無法出廠的。後來的故事,我們都知道了,這個故事各位細品。

指標的量化標準,這對大家也不是一個難題。拿測試集去驗證,最終統計各個指標的表現,然後再橫向比較競品就好。

商業比得是相對位置,而不是絕對指標,即,我不需要考滿分,我只要在這個科目上,領先與其他競品一段距離就好,然後就可以宣稱,這是當前市面上「某某指標」表現最好的產品。

產品的上限和下限

除去調研和評測其他AI助手,這份清單的還可以用於立項做產品定位,以及當checklist評價產品表現。

產品在立項的時候,要哪些不要哪些,邊界範圍有多大,就是一個思考題。一開始,各音箱都是沒屏幕的,大家都在抄亞馬遜的Echo,後面為什麼又出現了有屏幕的音箱呢?這個就是產品的定位和選擇。

從商業邏輯上來看,有明顯缺陷的產品無法存活於市場,沒有長板的產品也註定平庸。而企業也沒法把所有的資源平均分配,那樣的東西註定平庸,唯有極致才可以生存。

上限就是自己的產品賣點,這樣才能夠從競爭之中脫穎而出。

典型如一些千元智能手機,大多數資源都分配到CPU和大屏幕上,其他的硬體一律堪堪及格線就好,這2個賣點到位,就能夠出現在各種評測上做到前列,繼而去影響消費者選擇。

而再爛的智能手機也要搭配一顆攝像頭,且攝像頭的性能表現不能低於某個標準,如果這個太爛的話,註定無法存活。前面蘋果手機的例子,其實也抗震,不是一摔就碎的東西,這種就是下限保障。

下限要做到什麼程度,這個就是及格線,存活於市場的前提

在保證了及格線達到平均線標準之後,理所應當把更多的資源堆到某個維度上。大家比的是在資源有限的前提下,基於定位做產品交付。

每個維度都做好,不現實,也不正確。

戰略的第一步就是放棄,敢放棄什麼,拼的是認知。

總結

綜上所述:

  1. 基於產品定位選擇重要的維度和指標,做權重優先順序排序。
  2. 基於選擇的指標,使其數值可衡量,做量化標準。
  3. 基於公司資源保障產品下限,基於人才稟賦提升上限。

說明書介紹完畢,可用於立項定位產品,也可以就已有產品做評測,量化優缺點,做迭代改進升級。掌握使用說明書,這份清單的價值也就到位了。

在遇到問題時,高手和普通人的思維決策過程不一樣。

普通人是逢山開路遇水搭橋,也就是我們常說的見招拆招。高手卻總是為自己制定各種決策系統,在遇到問題時直接依據清單做決策。

人的理性是有限的,見招拆招,總會遇到環境影響,情緒波動的時候,結果往往不可控。而以原則清單行事則更加可控,減少糾結猶豫,提升效率,所以高手有時候就像是一台穩定而又客觀的程序,冷靜而又客觀,更容易做出正確理性的決策。

筆者在設計評測指標的時候,往往是朝著最理想的人工智慧去做比對的,它能幫助我們在各個維度上去逼近超級人工智慧,打造令人尖叫的產品。

謝謝各位看到這裡,希望這份業務清單能夠幫助到大家。

相關閱讀

如何評測語音助手的智能程度(1):意圖理解

如何評測語音助手的智能程度(2):服務提供

如何評測語音助手的智能程度(3):交互流暢

如何評測語音助手的智能程度(4):人格特質

 

作者:飯大官人,微信公眾號:fanfan19860403《遊戲運營:高手進階之路》作者。