37 views

編輯導語:當今人們已經進入到一個大數據時代,人們每天都在生產者各種各樣的數據,這些數據又在不斷被循環利用推動著行業和社會的進步。不同行業都有著不同的數據指標體系,本文作者對評估智能對話機器人的數據指標維度展開了梳理,與大家分享。

如果你正負責一款智能對話機器人產品,不管是軟體還是硬體,不管叫「小a」還是叫「小b」,總要遇到一個對於產品本身好壞的衡量指標的難題。如果你是leader更要弄清楚到底怎麼給做這款產品的下屬制定OKR及考核指標。

其實,當前多數對話機器人產品都還是一些長遠戰略布局的產品定位,既不能要求它達成百萬千萬的gmv,也不能要求它實現app那樣的日活月活高留存。理解它的產品定位,理解當前你所在的對話機器人的領域,才能更清楚的去評判自家產品的好壞以及在競品中的排名地位。

智能對話機器人,或者有些公司會將其命名為「智能助理」「智能小助手」,多數是以「工具+閑聊」的組合方式出現的,因此通常支持多個領域的支持多輪對話。而市面上的產品形態也以是否有GUI分為純語音對話交互和多模態對話交互兩種。

而本文討論的目標產品主要聚焦在支持多模態對話交互的「工具+閑聊」的軟硬體產品。當然,單輪指令式機器人或只有VUI的純語音機器人也可以進行部分指標維度的借鑒,在此不做特別指出。

評估智能對話機器人產品的數據指標維度分為2大部分:產品維度指標、技術維度指標。本文重點聚焦產品維度的7大數據指標,同時給出3個核心技術維度指標供參考。

一、產品維度七大指標

1. 產品使用率

指標目的:分析用戶對於產品的感興趣度(與之相關的指標就是N日留存率,不在贅述)

指標含義:使用了對話機器人產品的用戶數佔用戶總數或者曝光用戶數的比例。

計算公式:使用用戶數 / 總用戶數或曝光用戶數。其中分母根據產品類型有區分:如果是硬體類產品那麼分母則是所售出的硬體總數;如果是軟體類產品,則要分2種情況:1.獨立對話機器人app則分母是每天打開app的用戶數;2.寄生於主app上的對話機器人則分母是每天機器人入口的曝光用戶數。

統計周期:按日、周、月

2. 最終結果觸達率

指標目的:分析對話流程的流暢度

指標含義:使用了對話機器人產品的用戶在有效會話中有多少比例獲得了最終的結果(比如一段文本答案、一條圖文鏈接等)

計算公式:最終結果數 / 會話session數

統計周期:按會話session,或按日

3. 結果準確率

指標目的:與上一個指標是關聯指標,用於分析結果的準確程度

指標含義:每次有效會話結束,雖然產品給予了用戶最終結果,但不一定是用戶想要的正確結果。

計算公式:反饋給用戶的正確的結果數 / 反饋結果總數。其中分子的統計口徑有2種,一種是用戶反饋的好評度(如果產品設計有這樣的功能點),一種是人工抽樣。

統計周期:按日

4. 平均對話輪次

指標目的:分析任務型對話機器人的對話流程健康度

指標含義:某一類任務(或技能)的對話輪次的平均數

計算公式:某類任務的對話輪次/某類任務的對話總數

統計周期:按日

5. 跳出率

指標目的:分析對話機器人的產品設計友好度

指標含義:某一類任務(或技能)對話中斷的比例

計算公式:某類任務的對話中斷數 /某類任務的對話總數

統計周期:按會話session,按日

6. 異常率

指標目的:分析對話機器人的異常率找出關鍵問題並快速修復

指標含義:用戶使用對話機器人過程中的異常狀況出現的比例

計算公式:異常報錯數 / 會話session數

統計周期:按時、日

7. 推薦結果點擊率

指標目的:分析有GUI的產品推薦內容的精準度

指標含義:在初始化場景或某類特定場景,產品給出推薦內容的用戶接受比例

計算公式:推薦答案或內容的點擊(或採納)次數 / 推薦次數

統計周期:按會話session,按日

二、技術維度三大參考指標

1. 意圖識別準確率

指標目的:意圖識別直接影響最終結果是否準確,所以用於分析產品所涉及的領域內用戶意圖識別的準確率

指標含義:正確識別單次會話session用戶意圖識別的準確程度

2. 文本泛化能力

指標目的:好的泛化能力才能更好的支持人類語言表達的複雜性理解,也是nlp的核心指標

指標含義:對指定模塊進行抽樣,看是否支持提問文本、槽位等多種表達形式的識別

3. 糾錯/同義/歧義處理能力

指標目的:用戶進行文本/語音輸入時,有概率產生錯誤的、別名類的、或者有歧義的表達,而系統能否根據上下文識別準確的含義或給出多種含義的可能性則直接影響產品的用戶體驗

指標含義:對用戶的對話進行分析,找到三種細分場景的case進行抽樣或模型比對給出相應的正確處理比例

 

本文作者:丸子妹,微信公眾號:丸子筆記,歡迎隨時討論交流~

Go Top