從抖音、快手背後的技術,談AI內容產品的啟發 | 人人都是產品經理

#本文為人人都是產品經理《原創激勵計劃》出品。

不知不覺中,AI技術已經滲透了我們的生活,比如短視頻平台就有AI/AR道具,創作者可以利用這一類道具來創造更有趣的內容。具體而言,有哪些AI技術可以應用在內容類型產品中、增加創作的多樣性?不妨來看看作者的總結。

最近因為工作原因接觸到了快手的AI技術(主要是CV方向的),也跟快手的技術團隊做了一些訪談。不由得感嘆其實快手的技術還是非常領先的,甚至很多場景做得比抖音還要早,技術單拎出來比位元組的技術更加能打、更加領先。

但是為什麼AI技術如此出眾的快手卻在大眾市場上或者是我們談的商業市場上不如抖音呢?互聯網的競爭如此激烈,原則上在佔用用戶時間的維度上大家都是競品,人們知道位元組的輕顏、剪映、醒圖,但是很少人知道快手也有對標的一甜、快影和原片。

從抖音、快手背後的技術談AI內容產品的啟發

圖1 快手頭條有一系列對標的競品

首先需要澄清的一點是,AI技術並不是萬能的。很多商業上的成功,並不代表這家公司只是因為技術很厲害、演算法很牛逼,商業上就一定很成功,這個不是充分必要條件,技術很牛逼最多只是一個充分條件。

商業上的成功,或者是我們世俗定義的成功,更多還包括組織上的成功(人才的管理、激勵,組織協同工作、效能最大化)、產品的成功、對於人性的洞察與應用,對於商業模式的理解等等,這些全部要素才能最終使得一款產品真正地走向成功並且生命周期足夠長。

比如說微信就是一個很典型的例子,微信有AI技術么?當然,但這些都是潤物細無聲的存在,微信並不會為了AI而AI,比如微信掃一掃入口識圖、識街景、識商品/長按翻譯/語音轉文字等,這些都是AI技術能力產品化,但是這些並不是微信這個產品的全部,或者說,這些技術只是幫助微信更好地向用戶提供一個交流溝通的工具,讓人們更加無障礙地交流互動。

問一個問題,對於抖音或者快手來講,大部分人是刷視頻還是調用攝像頭主動拍攝視頻呢?

相信大家的答案應該是一致的,大部分人用抖音快手還是用來瀏覽,kill time。真正使用抖音裡面的各種AI/AR道具UGC創作內容的還是少數,大部分用戶如果使用道具可能是嘗鮮,比如一些拍同款;對於專業的內容創作者,主要是通過內容本身的編排設定來吸引觀眾,也不太依賴於AI的模板或者是各種道具。即使需要使用AI的各種剪輯等特效技術,可能也是在視頻創作過程中使用,即作一個AI賦能的視頻編輯工具,比如類似剪映。

但是問題又回到了起點,為什麼快手很多的gan(對抗生成網路)等AI生成技術比抖音好很多呢?頭條不是演算法起家嘛?通過近一周多時間仔細分析兩家公司的背景,嘗試得出的原因總結如下:

1)基因使然

快手最早是從動圖gif剪輯工具起家,本身就是一家技術驅動型的公司,且創始人宿華和程一笑也都是技術出身,因此營造工程師的樂園,重點在CV等技術上加大投入,用技術來驅動產品,通過一些AI加持的爆款特效+專題運營來激發用戶活躍度;這個是快手這家公司的底層邏輯。

2)老鐵需求

快手本身的平台特質跟抖音就有很大區別,抖音是符合馬太效應的,即主要的80%流量都導向頭部的20%網紅,而網紅生產的內容是通過抖音大數據平台演算法得出的。

快手則相反,致力於構建一個公平的平台機制,如果流量太高反而會被限流,更多的鼓勵是平民生產內容,構建同城或者是你身邊跟你很相似的人的故事。這些人可能就與你我一樣是個普通人,背後沒有MCN機構、沒有巧妙構思的腳本、專業的剪輯,因此這些「平民」需要AI加持、需要一些工具來低成本地創造內容,記錄自己的生活。

從這個角度來講,快手更需要更加強大的內容創作生成技術來幫助普通人實現明星夢,或者是拍同款。

雖然AI技術不是萬能的,短視頻的核心還是內容為王、圍繞內容構建各式各樣的玩法;但是通過AI技術加持,幫助大家高效地生產內容、創造有趣的、好玩的內容,所以接下來想談談,具體有哪些AI技術是可以應用在內容類型產品中的。

一、物體/動作檢測技術

這一類應該是最早應用在短視頻內容創作上的,包括很多自拍相機也有類似的功能。比如眨眼睛、吐舌頭、比各種手勢來觸發一些特效,這些是基於人臉的。同理,基於一些生活中的圖標、物體檢測來觸發一些特效。

從抖音、快手背後的技術談AI內容產品的啟發

圖2 比心特效

二、美顏、美妝、美體、美牙等人像美化功能

這些其實都是基於關鍵點技術,無論是人臉的關鍵點檢測還是人體的關鍵點檢測技術,不論是5點、21點還是137、200+、1000+的點,又從2D的關鍵點到3D的關鍵點,這裡都是為了幫助機器確認人臉的五官位置以及面部輪廓來進行的比例調整,比如大眼、瘦臉、瘦腰、拉腿等等。

這些比較基礎,對於關鍵數量依賴比較少。如果想要做得更加精細,比如美妝裡面需要進行眼妝(睫毛、眼影、眼線、眼瞼下至、卧蠶)等等小部位的刻畫,這就需要關鍵點數量的增加,甚至如果想要做豐額頭、高鼻樑、低顴骨、豐蘋果肌等效果,就需要一些3D mesh(從原來的點形成網狀結構)的輔助。

從抖音、快手背後的技術談AI內容產品的啟發

圖3 2D人臉關鍵點和3D關鍵點,人像美化的最基礎技術

從抖音、快手背後的技術談AI內容產品的啟發

圖4 人體關鍵點技術

又或者是如果在美體這個用戶體驗做到既可以拉腿、細腰、豐胸,同時又不讓背景畸變,就需要引入matting和inpAInting的技術了(既摳圖和補全),有些場景下也可以使用3D人體重建的技術。比如說剪映軟體里的換背景功能也依賴於摳圖能力。

牙齒美白、口紅依賴於分割技術,比如我最近在使用剪映牙齒美白功能的時候,嘴巴前面有一個遮擋物時,就會在遮擋物上就浮現了一個白色的月牙狀不明物體,這是因為牙齒沒有像嘴巴一樣做遮擋狀態的判斷,呈現了一種俗稱「穿幫」的畫面,非常尷尬。

三、AR類(人和環境)

所謂AR類的,我們統一都定義為在已有的現實空間中疊加3D渲染的CG素材,不論是疊加在人臉上的、還是疊加在環境中的。

這些底層技術一部分依賴於3D的人臉關鍵點的定位技術,另一部分依賴於對於空間的3D定位技術,如何在不同的用戶手機姿態運動下、用戶本身做各種動作的情況下,能保證疊加3D素材的絕對位置的固定(因為現實生活中的物體都是絕對靜止的、不會隨著手機的運動而動來動去),這個是對於技術考驗最大的部分。

當然3D素材的精緻程度,很大程度也依賴於CG的生成效果。

從抖音、快手背後的技術談AI內容產品的啟發

圖5 google基於Android像開發者提供的ARcore能力,對標的蘋果有ARkit

同時,這類型的技術還非常適合跟廣告主結合,廣告主通過某個主題的風格或者元素,平台推出、大V優先使用引髮網友參與最後形成二次傳播,使得品牌的產品及形象在網友中引發廣大的討論。

比如在ins上,Gucci、LV、Dior就訂製了很多富含自己品牌元素的AR貼紙套裝供用戶使用,用戶在拍照錄視頻玩的同時,也可以體驗產品虛擬試穿、試戴的效果,進一步促進購買轉化。

從抖音、快手背後的技術談AI內容產品的啟發

圖6 ins上的gucci lens(特效)

四、生成類網路(GAN)

隨著螞蟻呀嘿的一夜爆火,zao等AI換臉引發社會廣泛倫理道德的討論,社會對於GAN生成類的特效一直有很高的熱度,比如說「變三歲」、當你老了、迪士尼風、國漫風、手繪小姐姐等等。

由於GAN本身網路的特性就十分適合短視頻這類、以內容生產作為主要驅動力的產品定位,通過使網路學習大量的目標圖片的風格,AI技術結合一些短視頻類的模板就可以非常快速地幫助用戶生成非常搞笑的、可愛的、炫酷的短視頻內容,也非常適合結合短視頻平台的各種節日運營活動展開,比如萬聖節生成鬼怪妝容、兒童節生成兒童臉,520/情人節「變男友」等等。

從抖音、快手背後的技術談AI內容產品的啟發

圖7 快手平台520活動變男友,應用的就是GAN網路生成有夫妻相的男友

雖然在任何時代,內容為王此話不假,但是在所有UGC的平台都已經被AI深度滲透、成為不可或缺的一部分的時候,你的產品沒有反而無法留住用戶。此時的AI技術在Kano模型當中已經從一個魅力需求變成了一個基礎需求。

據內部消息,小紅書已經大規模高薪聘請CV演算法工程師來幫助提升其平台內容的AI多樣性,你認為這必要麼?

 

作者:大仙河,7年AI產品相關經驗;微信號 :大仙河知識學堂