人工智慧的人工部分—數據標註(上) | 人人都是產品經理

編輯導讀:人工智慧的發展,是通過不斷學習已知樣本實現的。在監督學習的情況下,人工的數據標註是智能的前提與靈魂。本文作者對此進行了分析,希望對你有幫助。

當今社會人工智慧領域蓬勃發展,各領域都在追求智能化,耳熟能詳的有智能駕駛、智能家居、智能語音、智能推薦等。人工智慧是通過機器學習,大量學習已知樣本,有了預測能力之後再預測未知樣本,以達到智能化的效果,機器學習可分為監督學習和無監督學習,無監督學習的效果是不可控的,常常被用來做探索性的實驗。

在實際應用中,通常是有監督學習,有監督學習就需要做數據標註,所以智能的前提是人工,因為智能結果的輸出是多次人工樣本的輸入,可以說人工的數據標註是智能的前提與靈魂,沒有人工就沒有智能,有多少人工就有多少智能。

一、數據標註的分類

數據標註從難易程度方面可劃分為常識性標註與專業性標註。例如,地圖識別領域的標註多為常識性標註,標註道路、路牌、地圖等數據,語音識別標註也多為常識性標註。做該類型標註工作難點在於需要大量標註訓練樣本,因為應用場景多樣且複雜,對標註員無專業技能要求,主要是認真負責,任務完成效率快、質量高的即為好的標註員。

醫療診斷領域標註多為專業性標註,因為病種、癥狀的分類與標註需要有醫療專業知識的人才能做,招聘領域標註也屬於專業性標註,因為標註員需要熟知招聘業務、各崗位所需的知識技能,還需了解HR招人時的關注點,才能判斷簡歷是否符合職位的招聘要求。該類型的標註工作需要有招聘領域專業知識的標註員,或者稱為標註專家,標註工作的難點比較多,例如選撥培養合適的標註員、標註規則的界定、標註質量的控制等多方面。

數據標註從標註目的方面可劃分為評估型標註與樣本型標註。

評估型標註一般是為了評估模型的準確率,發現一些Badcase樣例,然後優化演算法模型,該類型標註工作為了節約標註資源可控制標註數量,一般情況下標註千量級的數據,樣本具有統計意義即可,標註完成後需要統計正確率,以及錯誤樣例,該類型標註的重點是錯誤樣例的原因總結,分析每個Badcase出現的原因,並將原因歸納為不同的分類,有了原因分析方便演算法同學分類型分批次的優化模型。

樣本型標註即為模型提供前期的訓練樣本,作為機器學習的輸入,該類型標註工作需要標註大量數據,一般情況下需要標註萬量級的數據。為了樣本的均衡性,標註樣本多是隨機抽取的,這樣做的優點是可在一定程度上避免樣本偏差,但缺點是要標註大量數據。如果是文本型樣本,有時可藉助演算法抽取一些高頻、高質量樣本進行標註,這樣可一定程度上減少標註工作量,但可能存在樣本偏差。總之樣本型標註是個苦力活,業界有句話這麼說的:如果你和一個人有仇,那麼勸他去干標註吧。

數據標註從標註對象方面可劃分為文本標註、圖像標註、語言標註、視頻標註,從標註方式方面可劃分為分類標註、標框標註、描點標註,這些標註分類基本都屬於標註形式的差異,沒有較強的專業度,所以不做較多講述了。

二、數據標註規則的制定

常識性標註的規則比較簡單,標註一部分樣本即可總結出較通用的規則,但專業性標註的規則比較複雜,制定專業的標註規則需要遵循以下三原則:多維分析與綜合分析相結合,因子權重影響因素場景化,問題類型標籤化、結構化。以下是招聘領域簡歷與職位匹配度標註規則的指導思想,具體細節規則會在《數據標註(下)》中闡述。該標註規則比較符合標註規則制定的三原則。

第一,多維分析與綜合分析相結合。

簡歷與職位的匹配度影響因素肯定是多維的,不能只參考工作經歷或專業要求一個因子,或者某幾個因子,要多維分析,最終再給出綜合評分結果。當然簡歷與職位的匹配標註也不可能一上來就能給出綜合的評分,不能純感性的告訴標註員:你覺得是簡歷與職位非常匹配就給分,不匹配就不給分,這在邏輯上也不合理。所以要先給單一因子打分,然後參考每個因子的評分結果,最終再進行綜合分析給出評分結果。

第二,因子權重影響因素場景化。

前面有提到簡歷與職位匹配度評估需要給每個因子打分,那每個因子打分結束后怎麼給出綜合評分呢,給每個因為賦予權重嗎?然後按權重計算總分?答案是否定的,我們要結合具體場景把所有因子進行歸類分析,比如設定一些重要因子,如果重要因子不匹配可能就直接不給分,比如工作經歷代表的是一個人的勝任力,如果該候選人不具備該崗位的勝任力,總分肯定是0分。還有一些因子雖然不是很重要,但會影響評分,有些因子時而重要時而不重要,比如年齡,HR想要1-3年經驗的行政專員,候選人40歲,該情況肯定會影響最終評分且很有可能總分是0分。所以把所有影響因子結合場景進行歸類分析是十分必要的。

第三,問題類型標籤化、結構化。

標註結果一般情況下會以分數的形式展示,ABCD,或者0123,然後一組數據沒有得到滿分是因為什麼呢?哪裡不匹配呢?所以前期制定標註規則時一定要把原因分析考慮進去,列出所有不匹配的原因,形成結構化的原因標籤,有利於最終分析Badcase的分類與佔比,然後演算法或者策略團隊在優化時可以優先解決佔比高或影響惡劣的case。

數據標註是一項看似簡單實際卻十分複雜的工作,涉及標註分類、標註規則制定、標註原因分析、標註系統搭建、標註團隊管理等,尤其涉及到專業領域的標註則更困難,本篇主要介紹了標註分類、標註規則制定,細節的標註規則以及標註系統的搭建,標註團隊管理會在後續更新,希望大家持續關注,感謝閱讀!