數據為王的時代,NLP數據產業會是下一個藍海

在數據「坐莊」NLP的大背景下,大量的商業機會呈現,而客觀上的高要求阻卻了大量低門檻入場的玩家,NLP數據相對於CV更像一個藍海。

工作人員齊整坐好,每個人都對著電腦全神貫注,一件又一件的「東西」在眼前劃過,經過標準化處理就轉到下一流程……這實際上是人工智慧行業里的數據標註辦公區一角。

由於深度學習的研究方向,人力密集型的數據標註工作是推進人工智慧技術落地的重要環節之一。

很長一段時間以來,在過往AI的發展中數據的採集與標註行業沒有過多地被關注,畢竟,與演算法、算力這些高大上的東西相比,AI數據的生產總帶著那麼幾分與AI技術的「科技感」截然不同的形象。

然而,隨著AI的發展走向縱深,更多人發現這是一個誤解,AI數據產業正在向著高專業化、高質量化的方向蓬勃發展。

根據2018年智研發布的《2019-2025年中國數據標註與審核行業市場專項分析研究及投資前景預測報告》,2018年該行業市場規模已達到52.55億元,2020年市場規模有望突破百億。有行業人士估計AI項目中會有10%的資金用於數據的採集和標記,2020年,數據標註行業最終市場規模將達到150億。

而分享市場的,既有BAT、京東等互聯網巨頭,也有雲測數據這種專註於高質量交付的專業化數據平台。

龐大的前景下,數據採集與標註也可以分NLP(自然語音處理)、CV(計算機視覺)等幾個部分,隨著數據需求量的增大、對數據質量要求的提高,其中的NLP越來越成為「硬骨頭」,AI數據產業終將面臨它帶來的難題,也承襲這種難題下空出的市場空間。

AI的數據、演算法和算力「輪流坐莊」,NLP到了「數據為王」的時代

晶元製程以及大規模並聯計算技術的發展,使得算力快速提升后,AI能力的提升主要集中到了演算法和數據上(算力提升當然還有價值,只是相對價值那麼明顯了,例如不可能對一個物聯網終端設備有太多的算力設定要求)。

這方面,多年以來,人工智慧技術都呈現「輪流坐莊」的螺旋提升關係:

演算法突破后,可容納的數據計算量往往變得很大,所以會迎來一波數據需求的高潮;而當AI數據通過某些方式達到一個新的程度時,原來的演算法又「不夠了」,需要提升。

2018年11月,Google AI團隊推出劃時代的BERT模型,在NLP業內引起巨大反響,認為是NLP領域裡程碑式的進步,地位類似於更早期出現的Resnet相對於CV的價值。

以BERT為主的演算法體系開始在AI領域大放異彩,從那時起,數據的重要性排在了NLP的首位。

加上兩個方面的因素,這等於把NLP數據採集與標註推到了更有挑戰的位置上。

一個因素,是NLP本身相對CV在AI數據方面的要求就更複雜。

CV是「感知型」AI,在數據方面有Ground Truth(近似理解為標準答案),例如在一個圖片中,車、人、車道線等是什麼就是什麼,在採集和標註時很難出現「感知錯誤」(圖片來源:雲測數據)

而NLP是「認知」型AI,依賴人的理解不同產生不同的意義,表達出各種需要揣測的意圖,Ground Truth是主觀的。

例如,「這房間就是個烤箱」可能是說房間的布局不好,但更有可能說的是裡邊太熱。人類語言更富魅力的「言有盡而意無窮」的特點,應用於AI時,需要被多方位、深度探索。

另一個因素,是AI數據的價值整體上由「飼料」到「奶粉」,對NLP而言這更有挑戰。

大部分演算法在擁有足夠多常規標註數據的情況下,能夠將識別準確率提升到95%,而商業化落地的需求現在顯然不止於此,精細化、場景化、高質量的數據成為關鍵點,從95% 再提升到99% 甚至99.9%需要大量高質量的標註數據,它們成為制約模型和演算法突破瓶頸的關鍵指標。

但是,正如雲測數據總經理賈宇航所言,「圖像采標有很強的規則性,按照規範化的指導文檔工作即可,但NLP數據對應的是語言的豐富性,需要結合上下文等背景去理解和處理。」在高位提升這件事上,NLP數據更難。

例如,在訂機票這個看似簡單的AI對話場景中,想訂票的人會有多種表達,「有去上海的航班么」,「要出差,幫我查下機票」,「查下航班,下周二出發去上海」……自然語言有無窮多的組合表現出這個意圖,AI要「認得」它們,就需要大量高質量的數據的訓練。

由此,我們再來理解商業機會。

數據採集與標註的公司有很多,從巨頭的「副業」到AI數據專業化平台,總體而言主要玩家如圖所示:

圖片2.png

除此之外,更多中小玩家甚至幾十人的草台班子數不勝數。在中國,目前全國從事數據標註業務的公司約有幾百家,全職的數據標註從業者有約20萬人,兼職數據標註從業者有約100萬人。

易入門、難精通,而上述兩大因素決定NLP數據面臨巨大的挑戰,做得好的就更少。

在數據「坐莊」NLP的大背景下,空出了大量的商業機會,而客觀上的高要求阻卻了大量低門檻入場的玩家,NLP數據相對於CV更像一個藍海。

打破單純「體力活」標籤,NLP數據採集與標註從四個方面自我演進

有機會就總有人會進場,不久前,中國人工智慧高峰論發布了中國人工智慧科技服務商50強,既有商湯、曠視這種明星企業,也出現了榜單內唯一的AI數據服務商雲測數據,這顯示AI數據正在進入「主流圈」,在藍海中嘗試跑出獨角獸企業。

當然,前提是平台能夠解決好NLP數據的痛點問題。

事實上,CV的「感知」需求使得「體力活」可能就能夠勝任大多數據生產工作(誰不認識一輛車、一個人呢),而「認知」的NLP數據要突圍,只是「體力活」早已經不夠。

至少目前來看,行業玩家在四個方面有所動作,或正在解決NLP數據痛點問題。

1. 業務模式,用「定製化」迎合商業落地期的NLP

曾有媒體向Google工程師提起M-Turk的時候,他表示「我們不敢用Turk標註」,因為回收的數據良莠不齊。

眾包模式(在公開平台發布任務,自由申領)是曾經的AI數據產業主流,擁有數據豐富性和多樣性的優勢,不過數據質量比較難以把控。在數據精細化要求的今天,很多需求方都轉向了「定製化」(一對一,以項目制的方式完成交辦的數據任務)服務模式。

例如,雲測數據的「定製化」服務模式,跟的就是需求方複雜、精深而個性化的數據要求。具體到NLP,在數據採集上滿足特定人物(老人、婦女、小孩)、特定場景(家居、辦公、商業等)、不同方言的聲音/文本數據採集;在數據標註上進行需求的對接、理解清楚場景化要求再分發盡量具體的規範指導(同樣一句話在不同交流目的中可能需要標註不同的內容,例如「我沒錢」在信貸服務中意味著潛在客戶,在理財服務中則表達拒絕的態度)。

當然,眾包模式也有它的優點,能夠輕量化承載大量相對簡單的數據需求,而場景化的定製模式則更專業,主要依靠自有員工和基地,像雲測數據就在華東、華南、華北擁有自建標註基地,這種玩法顯然更適合匹配客單價更高的場景化、定製化需求,NLP是典型。

2. 管理流程,從「粗放製造」到「精益製造」

既然數據採集與標註很像是工廠的流水線,那麼如果要提升數據的精準度,其實就如同「製造業」升級那樣需要進行「粗放製造」到「精益製造」的轉變,首要體現在管理流程的優化上。

無論是從平台接取任務的眾包團隊,還是直接對接需求方的定製化服務平台,至少,草台班子式的做法已經不適合NLP對數據的要求。

高精準度、高效率,都依賴管理流程的優化,以雲測數據為例,具體做法包括這幾個大方向:

標註、審核、抽檢的層層把關:標註人員的結果交由另一批人進行審核,打回不合格的,最終再由質檢進行抽檢,大體如此,可能步驟更複雜;

人才類型的基礎分類:文本、語音、圖像標註人員不相互混用;

擅長場景的優先任務派發:在同等條件下,擅長對應場景的人優先派發給任務。

例會制度:如同精細化管理的製造業一樣,早會、晚會、周會、月會,總結問題、提醒改進。

……

而無論如何,管理流程的事,說得再多,日常工作的落實才是最重要的。

3. 職業技能,專業培訓擺脫「低水平重複」

「不要門檻」意味著更低的價值,在人員個人能力上,NLP在逐漸拋棄那些「無門檻」入局的人,尤其是在特定的場景需求下。

例如,這是一個非常簡單的NLP數據標註實例:

圖片3.png

它的需求可能只有初中語文即可。但是,NLP的數據需求早已超過這樣的標註太多。

例如,客服詢問用戶是否購買此商品時,「我要和家人商量一下」、「我會考慮」、「我現在不方便,你一會兒再打過來」,標註人員得準確標註出暫不購買,暫不考慮,拒絕購買或者興趣較大等多種意圖。

一方面,這依賴於平台進行的場景深挖,這也是為什麼雲測數據智能客服單個場景的意圖標註就分為10-20個大類、上百個子類,根據業務需求可能還會有進一步的標註細分,如此數據標註可以更細化、直達需求。

另一方面,這繞不開人員能力的持續培訓,把「干體力」的標註工人轉化成懂一些專業的業務人員,典型的如雲測數據在金融服務領域通過幾個月的專業培訓,培養出銷售人員視角去揣測用戶話語中的意圖。

舉例來看,在客服溝通中,用戶回饋「我在開車」這短短的一個語料數據,可能需要標記出「有車一族」、「司機」、「沒有明顯拒絕」、「可能有興趣」等多個標註給NLP演算法,按雲測數據自己的說法,其培訓達到的目標,是讓標註員工達到成為專業員工的水準。

顯然,在NLP標註數據的初期階段將各大金融機構的AI客服機器人訓練到大致相當的初級認知智能水平后,再進行提升、提高銷售轉化或者服務滿意度,都需要質量更高、針對特定需求更強的NLP標註數據。

值得一提的是,在NLP領域不是所有標註都能通過人員培訓來解決,醫療、法律等過於專業的領域可能還是依賴專家標註(邀請醫生、律師等參與標註),那是一個更複雜的故事了。

4. 工具使用,持續加碼「便捷化」

工欲善其事必先利其器,NLP的標註雖然不像CV有很多空間維度的數據需求,但工具提升便捷度進而提升標準效率和準確性的價值仍然不可小覷。

這方面,巨頭的腳步更早,在國外,Google Fluid Annotation一度是NLP標註「最好使」的工具,國內,大廠和專業平台的工具也被廣泛使用,雲測數據在工具上的創新優勢很明顯。

總體而言,標註工具適合自己的才是最好的。這種根據定製化需求開發貼合實際需要的數據工具對場景化數據的生產,發揮著重要作用。

無論如何,持續加碼「便捷化」,是一個不會停止的過程。

NLP數據產業的機會,將會是誰坐莊?

在AI領域,雖然有大廠走在前列,但市場並沒有被巨頭壟斷,中型AI平台也常常嶄露頭角成為主角。以AI數據服務領域為例,像雲測數據這種專註於企業服務的第三方獨立平台,以客戶為中心的企業基因,一直貫穿在數據交付的始終。

一個典型的表現是,高精確度的NLP數據需要以企業服務的心態與客戶仔細對接需求,例如,用戶需求的場景是什麼,如果是訂票,AI問答應該主要導向訂票,對應的NLP數據也要往這個方向去標註。

這一過程中需要數據服務人員對需求進行拆解、預判甚至提前給出建議,與客戶反覆溝通確認達成一致后,才能真正地去作業。大廠偏重於技術架構、前沿技術開發、雲伺服器中心大規模併發能力等建設,很難俯下身好好完成這件事,這時候,AI數據專業化平台更有優勢。

此外,影響競爭格局走向的還有數據服務的安全性。

在數據採集與標註行業,複製一份數據在技術上非常簡單,也能節省大量的人力和運營成本,但給客戶帶來的損失卻不小(尤其是被競爭對手拿到),保證數據隱私性和安全性,在AI激烈的競爭環境下幾乎成為某些客戶的首要決策標準。

總而言之,高專業度、高精準度、高效率、強安全才能贏得AI數據客戶尤其是NLP數據客戶的選擇,不論巨頭還是AI數據專業化平台在行業爆髮式增長的關口都在努力,落實和推進了諸多動作。NLP數據產業正處在藍海,一個不會由巨頭坐莊的藍海。

 

作者:李永華;微信公眾號:智能相對論(ID:aixdlun)