具身智能之於AI產品未來的發展 | 人人都是產品經理

編輯導語：從字面意思來講，具身智能即意為具有身體的人工智慧，智能體與真實世界進行多模態交互，實現更進一步的智能。而這一概念區別於傳統AI，於未來的AI產品而言，又會產生哪些影響？本篇文章里，作者就具身智能的定義、及其對未來AI產品的影響做了解讀，一起來看一下。

前兩天參加了計算機視覺國內的學術會議VALSE，聽到一個分論壇是關於具身智能及未來的發展方向，裡面提到關於人工智慧與哲學假設的一些觀點，作為「哲學+AI產品思考者」雙重人設的筆者，具身智能的發展將如何影響未來AI產品的發展？我認為有必要跟大家掰扯掰扯。

一、什麼是具身智能？

具身智能翻譯於英文embodied AI，字面意思就是具有身體的人工智慧，此處強調的就是智能體（agent）需要與真實世界進行交互，並通過多模態的交互（不僅僅是讓AI學習提取視覺上的高維特徵被「輸入」的認知世界），而是通過「眼耳鼻舌身」五根來主動地獲取物理世界的真實反饋，通過反饋進一步讓智能體學習並使其更「智能」、乃至「進化」。

佛教中六根清凈的六根——除mind之外，具身智能需與外界感知交互

1986年，著名的人工智慧專家布魯克斯(Rodney Brooks)提出：智能是具身化和情境化的，傳統以表徵為核心的經典AI進路是錯誤的，而清除表徵的方式就是製造基於行為的機器人。

這個理論和19世紀60年代最早提出的認知智能，也是與「當前主流深度神經網路的基於大腦是基於神經元連接的複雜系統-基於信息的表徵與加工」相悖的。

提到具身智能和進化就不得不提到李飛飛老師今年提出的一套非常新的計算框架——DERL（deep evolution reinforcement learning）深度進化強化學習。這篇文章提到了生物進化論與智能體進化的關係，並借鑒了進化論的理論應用於假設的智能體（unimal宇宙動物）的進化學習中。

進化論的幾大學說：達爾文、瓦丁頓、鮑德溫、拉馬克——圖片版權歸作者所有，需要請聯繫作者

李飛飛首次在文章中證明了鮑德溫效應，即沒有任何基因信息基礎的人類行為方式和習慣（不通過基因突變的有性繁殖進化），經過許多代人的傳播，最終進化為具有基因信息基礎的行為習慣的現象（進化的強化學習）。

並且李飛飛在設計unimal過程中也參考了拉馬克的學說來對智能體穿越不同複雜地形進行訓練，「用進廢退」即生物體經常的器官經常使用就會變得發達，而不經常使用就會逐漸退化。在這篇paper里，unimal通過無性進化限定了三種方式（a.刪除肢體；b.調整肢體長度；c.增加肢體）。

大家觀賞下這個虛構的unimals（宇宙動物not宇宙的囚徒）進化的魔性步伐

不得不說這個想法實在是太大膽，太創新了，驚為天人。

二、哲學層面的解讀：認知智能 vs 具身智能；笛卡爾 vs 海德格爾

從非具身智能（認知智能）到具身智能像極了傳統哲學與現象學洞見后的哲學。如果大家不能一下子理解，我更願意將其解釋為，前者是形而上學的、二元論的（意識與主體可以獨立存在）、理想家；而後者是實踐派、存在主義、實踐者。

笛卡爾坐標系——源於哲學理論的推理演繹

笛卡爾說過：「我思故我在」，因為意識決定了我的存在。海德格爾後來對笛卡爾的觀點進行了批判，他提出「我在故我思」，因為人們的存在才有意識，才能感知這個世界，如果人不是人存在於其他的生物體里，比如蝴蝶、鯨魚，那麼人對於世界的認知也會不同。

海德格爾——successor德雷弗斯在MIT演講題目（為什麼AI研究者應該研究「存在與時間」）

因此具身智能區別於傳統AI也很大程度上受到海德格爾哲學理論的啟發：

智能是非表徵的；
智能是具身的——存在先於意識；
智能是在與環境交互時體現的。

三、下一步的AI產品

筆者以為，無論是傳統基於表徵的深度學習還是新提出的具身的、基於存在與時間的具身智能都要有很長的路要走。但是毫無疑問，如果要做到一個通用型的人工智慧，多模態的、具身的、主動互動式的人工智慧體一定是必由之路。

為何如此篤定？因為何為人工智慧、是人類-高級智慧體定義訓練的一種人造的、類人的高級智能。

既然如此，是不是應該具備人類這種高級智能體的特性呢？比如生物體的進化、比如高層次的智能：推理、演繹、下棋等，也包括低層次的智能：行走、交談、感知。

snapchat的AR lens

因此，私以為未來的AI產品方嚮應該是從傳統的2D平面人工智慧（比如圖像分類、目標檢測、分割等任務）向3D空間的，向4D時序的方向發展（存在與時間）。

比如我們看到短視頻/視頻vlog這幾年較原來的微博圖文有了極大發展，因為可以帶給用戶基於時間的空間的、環境的更多信息；
發展向給用戶更加沉浸式的體驗，比如AR/VR、提供的是基於空間、環境、時間的全方位的感知與體驗；
發展向具身的虛擬數字人/AI智能助理，人形的機器人比如說特斯拉發布的tesla bot，視覺+語音的多模態主動式的與用戶交互；
發展向智能車，對外適應環境適配複雜路況、交通情況進行智能駕駛，對內為駕駛員和乘客提供可感知可交互的「第三空間」，滿足用戶的不同場景需求。

作者：大仙河，5年智能硬體產品經驗，2年人工智慧演算法產品經驗；微信號：大仙河知識學堂