78 views

編輯導讀:數據是AI公司的必需品,數據標註是AI產品模型開發中重要的一環,也是AI產品經理必須要了解的基本技術,本文作者從認知基礎、為什麼我們需要標註、錦囊三個方面對AI標註工具的產品設計工作展開了分析說明,與大家分享。

一、認知基礎

個人觀點的認知基礎如下,如果讀者不認同50%以上,那麼就沒必要浪費時間閱讀後續內容了,反之,我希望大家多質疑與交流,通過Q&A來共同進步。

認知1:人工智慧發展粗略可以分3個階段:符號主義(第1階段)→ 聯結主義(第2階段)→ 理想AI(第3階段),我們將長期(>30年)處於第2階段

符號主義:代表人物紐厄爾和西蒙,認為人類的智能不管多複雜,歸根到底都是由符號計算來實現的。只要計算機科學家設計了適合的程序,計算機早晚有一天能憑著符號的計算,也能提出相對論、創造羅納爾多的射門、而剪紙捏泥人和書法篆刻就更不在話下。

符號主義的缺陷:很難在非常複雜的求解組合中快速找到最優解。

聯結主義:代表人物大衛休謨,認為人工智慧的首要任務是建立大腦的模型,不是預先給定解決問題的演算法,而是構建一個在計算機上模擬的「神經元網路」,讓機器自主地建立不同神經元之間的「聯結」,通過最終結果的反饋,不斷調整聯結的模式,最終逼近最優解。

聯結主義的缺陷:過於依賴經驗數據

理想AI:感知智能+認知智能+情感的主觀感受+自我意識

理想AI的缺陷:暫時無實現方案

認知2:AI執行語義理解任務,當前已經到了技術成熟期,後續依賴產品力和數據

粗暴一點說,各家演算法基本無差別(<10%)。以解決實際業務問題、實現業務價值為衡量標準的話,產品的易用性(決定落地門檻/規模/效果)、組件化程度(決定成本),數據的數量和質量,才是決定價值的砝碼。

認知3:中國現階段(10年內)ToB市場,大B的真需求都在自給自足,第三方服務中小B才是正途

大B只有探索型需求和偽需求(為了體制內的升官發財)才會留給第三方,所以一個第三方公司如果敢說只做大B,那麼一定是死路一條或者半死不活(無法建立壁壘/低利潤率)

二、為什麼我們需要標註?

認知1中提到「聯結主義的缺陷在於過度依賴經驗數據」,那經驗數據是什麼?經驗數據 = 已標註數據。

未標註數據只能用於無監督機器學習,當前執行99%以上AI任務的都是有監督機器學習模型,預計未來30年以內還會保持現狀。所以數據標註就是繞不開的檻。

三、錦囊

效率高是好的標註工具的唯一標準,所以3條錦囊全部都是圍繞語義標註工具效率提升。

效率 = 認知效率 + 操作效率 + 智能化,以下錦囊也都是沿著這3個提升效率的方向進行的產品設計。

錦囊1:互斥性原則

語義模型本質上是一個分類模型,分類最關鍵的是類別清晰,例如想想折磨我們的垃圾分類。互斥性值得就是不同類之間要做到不重不漏(漏的部分一定設置專門的「其他分類」來兜住)。

具體到產品設計上,歧義優化(根據向量相似度,自動識別不同類之間存在交疊關係的語料),分類說明(設置為必填項)等都是互斥性原理的具體體現。

錦囊2:聚類冷啟動

Bert無監督聚類模型做冷啟動,「效果杠杠的,誰用誰知道」。缺失此模塊,數據標註人員冷啟動階段就全靠想象力「瞎編」。我見過太多數據人員編寫相似句(同一語義不同句式表達方式)寫到生無可戀。上線周期還會因為標註效率低和效果差一拖再拖。

錦囊3:By分類智能推薦待標註語料

來,這一條錦囊大家可以在評論區猜一猜是啥意思?

錦囊4:Badcase閉環調優

語義模型調優 = 正向調優(By準確率)+ 反向調優(By Badcase)

Badcase指模型判斷結果存在偏差的語料(來自於測試集+業務側收集反饋),是極其寶貴的復盤資料。設計原理是從點狀問題(Badcase)順藤摸瓜找到本質問題(如ASR準確率、語義分類體系問題、存在大量歧義等)進行解決。反向調優可以極大提升模型的準確率、覆蓋率等核心指標。

錦囊5:隔離數據管理與標註工具

若不進行隔離,隨著產品功能複雜度的提升,標註工具的認知門檻會陡增。可以理解為廚房裡的原材料和鍋碗瓢盆混在一起丟到了一個櫥櫃中。這將嚴重影響產品給用戶的確定感,會將標註效率直接打6折。

結語

AI執行語義任務,標註是繞不過的檻。但只要我們通過「傻瓜式工具」輔助用戶輕鬆邁過去,AI對真實場景的賦能價值將被放大100倍以上。

 

作者:張佳偉,AI產品經理

Go Top