50 views

大多數產品人都是通過增長實驗來完成用戶及產品的增長。什麼是增長實驗?它的正確設計模型又是什麼呢?本文將會告訴你答案。

在增長工作中,大家常會通過增長實驗來確定增長策略的有效性和影響範圍。而設計增長實驗時常會遇到一些坑。比如:

  • 沒有定義正確的實驗指標,實驗上線后無法決定實驗成功還是失敗。
  • 對於實驗目標用戶沒有清晰的認識,導致實驗上線后,分析了很久都得不出結論。
  • 流量劃分不均勻隨機,導致實驗結果出現偏頗,數據不可信。

本文將通過以下三小節的內容來簡單分享下如何避免以上這些常見的問題。

一、制定實驗指標

正確的實驗指標能夠全面準確地檢驗實驗假設的真偽,從而衡量實驗結果的成敗。

衡量實驗成敗,主要可以分為三類指標:

1. 核心指標

核心指標是決定實驗成敗的關鍵指標,該指標是後期實驗數據進行統計顯著計算的關鍵。核心指標確定的前提是實驗最終目標的確立。根據該實驗目標判斷想要影響的指標是哪一個。是否可以通過這個指標確定實驗組的改動是成功的。

2. 輔助指標

輔助指標是實驗可能影響到的其他重要指標,通過這些重要指標可以全面了解實驗結果。常見的輔助指標如漏斗細分步驟的各節點轉化率,可以通過這些轉化率更全面的了解實驗改動對整個漏斗的影響。

3. 反向指標

反向指標是提示實驗可能出現的負面影響。通過反向指標的高低來判斷實驗結果是否成功。如果實驗沒有負面影響或負面影響較小,可以接受,才能宣布實驗成功。如果負面影響很大,可以否決實驗的正向結果。

常見的反向指標如頁面退出率,訂單取消率,Push退訂率,應用刪除率等。

二、確定實驗對象

在確定了實驗目標後進入了增長實驗設計的第二步,確定實驗對象。這一步驟主要解決實驗對象的包含範圍和實驗所需的樣本數量。

1. 確定實驗對象的包含範圍

如果所設計的增長實驗希望所有用戶都進入該實驗範圍,那則不需要這一步。如果希望僅有符合特定條件的用戶才可進入實驗範圍,則需要設置實驗對象範圍。通過此設置可針對特定用戶群組進行實驗,幫助生成更精細的產品優化方案。通常設置實驗對象範圍類型可通過第三方A/B測試工具自帶分組來設置。

設置實驗受眾可以通過一些第三方A/B測試工具來完成。

很多第三方的測試協助工具都會有默認受眾分組,比如:操作系統,瀏覽器類型,設備類型,應用版本等等。

我們也可以自定義受眾分組,比如:

  • 註冊15天內的新用戶
  • 來自一線城市的用戶
  • 某個興趣標籤的用戶
  • 來自某個渠道的用戶

2. 預估實驗所需的樣本數量

首先我們先來看一個案例,某公司想通過改變按鈕顏色提高「下單」按鈕的點擊率。

在實驗上線2小時后,進行了一次數據統計:

  • 藍色按鈕的頁面訪問量是60次,按鈕點擊次數為15次,轉化率為25%。
  • 紅色按鈕的頁面訪問量是56次,按鈕點擊次數為7次,轉化率為12.5%。
  • 那麼這時候,是否可以得到藍色按鈕比紅色按鈕的轉化率更高呢?相信大多數的產品人都會認為樣本數太小,不能得出可信的結論。

在實驗上線2天後,再進行了一次數據統計:

  • 藍色按鈕的頁面訪問量是6238次,按鈕點擊次數為368次,轉化率為5.9%。
  • 紅色按鈕的頁面訪問量是6122次,按鈕點擊次數為588次,轉化率為9.6%。
  • 那麼此時,是否能確定紅色按鈕是否效果更好呢?但樣本數量是否可信呢?

在實驗上線1年後,又進行了一次數據統計:

  • 藍色按鈕的頁面訪問量是132892次,按鈕點擊次數為6110次,轉化率為4.6%。
  • 紅色按鈕的頁面訪問量是140021次,按鈕點擊次數為9641次,轉化率為7.5%。
  • 那麼此時,是否就可以非常的肯定的說紅色按鈕較藍色按鈕的轉化率更好?

通過上述案例可發現從結果可靠性的角度看,樣本量越大,實驗時間越長,實驗結果則越可靠。

但從實際工作的成本角度出發,樣本量越小,實驗時間越短,實驗的試錯成本就越小,實驗迭代速度也越快。

因此在保障實驗結果可靠性的同時又儘可能最小化樣本量,不會浪費過多的實驗時間顯得至關重要。我們可以通過對增長實驗結果進行統計顯著性檢驗找到這個平衡點。

統計顯著性(Statistical significance):是指零假設為真的情況下拒絕零假設所要承擔的風險水平,又叫概率水平,或者顯著水平。在增長實驗中是指對照組和實驗組之間轉化率差異的真實水平程度。

如:對比對照組和實驗組的某個實驗指標發現轉化率有差別,而統計顯著性為90%。則代表造成差別中有90%的可能性是真實存在的。而10%的可能性是隨機誤差引起的。

當統計顯著性越高,則隨機誤差的可能性就越低,得到的結果就越可靠。我們可通過確認結果統計性顯著所需的最小樣本數來預估實驗所需樣本數量。

影響實驗所需樣本數量的因素主要有三個:

  1. 原版本的轉化率:如原版本的轉化率越低,則實驗所需要的樣本數量越大。
  2. 新版本的轉化率:如果新版本和原版本的轉化率差別越小,則檢測所需的敏感度越高,實驗所需要的樣本數量越大。
  3. 統計顯著性要求:統計顯著性要求越高,對結果的需求越確定,則實驗所需要的樣本數量越大。建議一般情況統計顯著性要求至少為95%。

我們繼續剛才的案例。假設原版本,也就是藍色按鈕的點擊轉化率為10%,而預計改為紅色后,點擊轉化率為12%,我們通過第三方A/B測試樣本計算器工具,在統計顯著設置為95%的情況下,預估出實驗所需要的樣本數量為2900。我們預估每天的的頁面訪問數為500。而這個實驗一共存在紅色按鈕和藍色按鈕兩個實驗樣本,則樣本總數為5800,所以需要的實驗時長是12天。

三、設計實驗版本

在完成了確定實驗指標和實驗對象后,就可以開始設計實驗版本了。在設計實驗版本時,需要思考實驗組相比對照組都做了哪些改動。確定實驗版本數量,版本之間的關聯和區別是什麼。實驗受眾的流量在實驗版本之間如何分配。
實驗版本的數量和區別可以通過以下三個方面來確定:

  1. 版本數量取決於實驗假設的數量,只選擇高質量的實驗假設。
  2. 明確實驗類型,是優化型實驗還是探索型實驗。優化型實驗:每個版本只改變單一變數,明確改動的影響。探索型實驗:可以同時改變多個變數,設計全新的實驗版本。
  3. 版本數量越大,則需要的總樣本數量越大。

實驗受眾的流量在實驗版本之間分配原則是保證每個實驗版本的樣本分流均勻隨機。樣本分流是否均勻隨機,會極大影響實驗結果的可信性。均勻隨機的樣本分流可消除一切外在因素的影響。保證對照組和實驗組唯一區別就是實驗改動。

樣本科學分流是A/B測試工具的重要功能之一,需要達到以下四個標準:

  • 均勻性:確保分流樣本各個維度分配比例均勻,且分佈隨機。
  • 唯一性:通過精準高效的演算法,確保單個用戶每次登錄產品時被分配到的實驗版本是唯一的。
  • 定向性:可根據樣本標籤來實現精準的定向分流。
  • 分層分流:可以滿足並進行大量A/B實驗測試需求。

四、增長實驗案例

這裡通過一個虛擬的案例來簡單分享一下如何設計一個增長實驗。
假設你現在需要設計一個增長策略方案,來提高keep的用戶的關注轉化率。

1. 實驗想法

1)實驗目標

提升用戶對其他用戶的關注率。

2)實現想法

通過最佳實踐(微博案例),可得出實驗想法一:落地頁的發現頁簽下信息流中每個用戶的動態cell,如未關注,則顯示【關注】按鈕。增加關注功能曝光量,可提升用戶的關注點擊率。

根據用戶行為路徑,收集用戶行為數據:

  • 關注行為在收藏行為的佔比。即:用戶同時關注博主並收藏博主動態佔用戶收藏動態的比例。
  • 關注行為在點贊行為的佔比。即:用戶同時關注博主並點贊博主動態佔用戶點贊動態的比例。

通過數據定量分析發現,用戶點贊和收藏行為與用戶關注博主行為相關性較大。

因而得出實驗假設:在動態詳情頁中,首次觸發對該用戶的簡單社交行為(點贊,收藏)時,如未關注用戶時,調起彈框引導用戶關注發布者。【關注該用戶,及時獲得TA的最新動態。】「關注」「取消」。

3)實驗假設

基於以上實驗想法分析,得出以下假設:

  • 假設一:落地頁的發現頁簽下信息流中每個用戶的動態,如未關注該用戶,則顯示【關注】按鈕。增大關注功能曝光量,預計關注點擊率提升到10%。因為增大功能曝光量,當用戶對該博主感興趣時,可更便捷的關注該博主。
  • 假設二:動態詳情頁中,首次觸發對該用戶的簡單社交行為(點贊,收藏)時,調起彈框引導用戶關注發布者。預計關注點擊率提升到6%。因為點贊或收藏內容,表示用戶對該博主的內容的感興趣並認可該博主。降低兩者之間的社會認知差異。更容易接受關注該博主的行為。

2. 優先順序排序

通過ICE優先順序模型,得到優先順序結論:推薦動態頁-增加關注按鈕的綜合得分最高。

3. 實驗設計

實驗假設:如果在動態詳情頁,如果用戶在內容上停留5秒以上,「關注」按鈕變亮變大,提示用戶可以關注此博主,關注率預計可提升至6%,因為用戶閱讀每條動態內容的是平均時長為10秒,閱讀5秒以上,表示用戶對該內容感興趣,此時突出關注按鈕,更容易誘發用戶完成關注博主的動作。

1)制定實驗指標

  • 核心指標:動態詳情頁的關注按鈕的點擊率
  • 反向指標:用戶取關率。因提高了用戶關注按鈕的曝光聚集度,造成用戶體驗降低,致使用戶執行取關操作。
  • 輔助指標:動態詳情頁的平均閱讀時長。動態詳情的訪問UV和PV。動態詳情頁的點贊率,收藏率,評論按鈕點擊率。日人均關注博主數。如:用戶在內容閱讀5秒后,受到關注按鈕的動效提醒效果的影響,可能會影響用戶的內容閱讀體驗,內容閱讀體驗的最直觀的反應指標為內容閱讀平均閱讀時長。動態詳情的訪問UV和PV是否下降會直接反應出在詳情頁修改關注按鈕交互效果后,對用戶再次進入該頁面是否產生阻力。在動態詳情頁中,關注按鈕點擊率的改變可能會影響動態的社交類行為如點贊,收藏,評論,關注的觸發概率。

2)確定實驗對象

實驗對象範圍:根據用戶行為路徑,該實驗對象訪問內容詳情頁且停留時間2秒以上的用戶群體。

原因:

  • 實驗對象為對內容詳情頁的關注按鈕。因而用戶需訪問內容詳情頁。
  • 因實驗組需對用戶在內容詳情頁的停留時長做邊際限制,最短2秒,因而停留時間2秒以上為受眾用戶行為特徵範圍。

3)設計實驗版本

  • 對照組:保持原有產品交互設計不變,即用戶在動態詳情頁面閱讀停留5秒以上,關注按鈕無變化。
  • 實驗組A:用戶在動態詳情頁面閱讀停留5秒時,關注按鈕發生變大變亮的漸進動效,時間為2秒。設計原因:考察提高關注按鈕曝光獲取是否會提高用戶的關注點擊率。
  • 實驗組B:用戶在動態詳情頁面閱讀停留2秒時,關注按鈕發生變大變亮的閃爍動效,時間為2秒。設計原因:考察用戶對內容的閱讀時長的高低是否影響用戶的關注點擊率。

通過第三方工具,比如雲眼計算樣本數量,可以得到以下結論:

  • 當前內容詳情頁的關注按鈕的點擊率是5%。內容詳情頁每天的平均訪問量是10000人。假設滿足在內容詳情頁停留2秒以上的用戶佔50%,即5000人。
  • 如目標點擊率提升到6%,每個實驗版本的樣本量是6900;三個實驗的樣本量為6900×3 = 20700。預估實驗周期為4~5個自然日(20700 ÷ 5000 ≈ 4.14)。
  • 如目標點擊率提升到5.5%,每個實驗版本的樣本量是31000;三個實驗的樣本量為31000×3 = 93000。預估實驗周期為18~19個自然日(93000 ÷ 5000 ≈ 18.6)。

#專欄作家#

楊三季,微信公眾號:楊三季,人人都是產品經理專欄作家。7年互聯網經驗的高級產品官,深耕內容電商,互聯網保險領域,擅長產品增長、數據分析、中台架構等內容。

本文原創發佈於人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基於 CC0 協議

Share
Go Top