中國AI荊棘之路,從荒蠻到繁榮 | 人人都是產品經理

編輯導讀:科技之路從來不是一帆風順的,它的發展過程往往是緩慢的、曲折的,要經過不斷的探索和積累才能迎來科技發展的奇點。過了這個奇點,它才會迎來指數級別的快速上揚。中國AI的發展,正處於奇點之中。本文作者對此進行了分析,與你分享。

科技之樹雖然碩果累累,但它的蘋果從來只會眷顧有足夠渴望與準備的人。——水哥

科技並不是勻速發展,而是在經歷緩慢得讓人窒息的、壓抑的黑鐵時代,不斷求索之後,大量的積累的技術、經驗、數據、認知終於在一個時代迎來共振,這個時代就會成為科技發展的奇點。過了這個奇點,它才會迎來指數級別的快速上揚。

這一次中國正好在奇點正在發生的時候,追上了其他先進國度在AI基礎研究領域的腳步。這既是我們的幸運,也是我們不斷奮鬥的結果。

從在AI領域毫無存在感,到今天成為AI頂會獎項收割機,中國的AI科研之路,由荒蠻走向繁榮,由荊棘走向花團錦簇的今天——也是正在邁向人工智慧黃金時代的白銀時代。

一、1930-1980年:漫長而艱難的黑鐵時代

語言學家諾姆·喬姆斯基(Noam Chomsky)曾經指出,由於孩子們接觸到的數據總量較小,他們究竟是如何學會一門語言的,至今仍然是個巨大的謎。

為了讓機器學會小孩子可以輕易做到的事情,過去七十多年,無數科學家前赴後繼,投入到了「人工智慧皇冠上的明珠」 的自然語言處理研究領域,通過構建演算法,使計算機可以自動分析、表徵人類語言。

儘管人類從1946年就開始努力,但是很長一段時間裡,進展緩慢,人類就像出現希臘文明后經歷漫長的中世紀一樣,在奇點出現之前,在AI研究領域也走過了一段堪稱黑鐵時代的幽暗之路。

20世紀30—40年代,發生了兩件極其重要的事件:邏輯的數理化和智能可計算性思想(機器能思維),建立了計算與智能之間的理論關係;同時還有兩個不世出的天才橫空而出,為人工智慧提供了完備的理論基礎。

被稱為「人工智慧之父」的圖靈,於1936年創立了自動機理論,提出一個理論計算機模型,奠定電子計算機設計基礎,後來被人稱為「圖靈機」。1950 年圖靈的論文「機器能思考嗎?」,也為即將問世的人工智慧提供了科學性和開創性的構思。

1948年,劃時代的「通信的一個數學理論」分成兩部分陸續發表,香農通過借用熱力學中「熵」的概念,引入「信息熵」,證明熵與信息的不確定性有等價關係,奠定了今天大數據與機器智能的基石。

說個題外話,在二次世界大戰時,香農與比他大4歲的圖靈都是著名的密碼破譯者,幫助盟軍取得了二戰的勝利。

令人扼腕的是圖靈因為同性戀,1952年被英國政府強行化學閹割,兩年後,圖靈不堪受辱自殺身亡。可以說是人工智慧史上一大挫折。

1956 年夏季香農等10位科學家,舉辦了一次長達兩個月的研討會,討論用機器模擬人類智能問題,首次使用「人工智慧」這一術語。

20世紀50到70年代,人工智慧雖然進展有限,但在西方國家還是得到重視和發展。

過去在AI內部存在兩大分支:一是傳統AI——基於規則,以符號邏輯為基礎的演算法系統;另一個則是建立在統計分佈規律之上的并行分散式系統,包括對大腦網路的模擬,具有更強的容錯能力以及學習能力。

但是在20世紀50年代到70年代,西方國家人工智慧研究的主力還是在基於規則的方向空轉,加上中國計算機科學當時的停滯,人工智慧經歷了漫長而艱難的黑鐵時代。

二、1980-2010年:曙光漸露的青銅時代

80年代,基於統計分佈規律的AI路線開始佔據上風,讓人工智慧研發之路逐漸出現了曙光。

IBM的Fred Jelinek就是一位使用統計方法研究語音識別與合成的著名學者,1988年12月,他在一個NCL會議上尖刻地表示:「每當我解僱一個語言學家,語音識別系統的性能就會改善一些。」把基於規則研究人工智慧的路線貶低到了一無是處的程度。

到了1989年,自然語言處理的發展才進入了一個新的紀元,這個新紀元的重要標誌是,在基於規則的技術中引入了語料庫方法,其中包括統計方法,基於實例的方法,在語料庫中訓練出自然語言處理的基礎組件詞表。事實上,裝載這些平行語言數據的第一個語料庫,是20世紀50年代建立的布朗美國英語語料庫。所以很多時候,奇點的出現是各種技術條件湧現融合的結果。

2003年一位德國科學家奧赫,在美國一次機器翻譯評比中獲得了最好的成績,他使用統計方法從雙語自動地獲取語言知識,建立了統計機器翻譯的規則,在很短時間之內就構造了阿拉伯語與漢語到英語的若干個翻譯系統。

偉大的希臘科學家阿基米德說過:「給我一個支點,我就可以移動地球。」而奧赫說:「只要給我充分的并行語言數據,那麼對於任何的兩種語言,我就可以在幾個小時之內,給你構造出一個機器翻譯系統。」

這種建基於大規模文本處理基礎上的機器翻譯,是機器翻譯研究史上的一場革命,將自然語言處理推向了一個嶄新的階段。

也是這一年開始,人們開始看到了機器翻譯的曙光。過去三十年間,這顆自然語言處理的種子已經長成了碩果累累的科學之樹。

人工智慧研究真正取得突破的時候,正好碰上了中國思想大解放的八十年代,中國的人工智慧研究也終於搖搖晃晃邁出了蹣跚的步履。

1978年,隨著「科學技術是生產力」的提出,中國人工智慧也在醞釀著進一步的解凍。著名數學家、中國科學院院士吳文俊提出的利用機器證明與發現幾何定理的新方法——幾何定理機器證明,獲得1978年全國科學大會重大科技成果獎就是一個很好的徵兆。

20世紀80年代初期,錢學森開始主張開展人工智慧研究,中國的人工智慧研究進一步活躍起來。

改革開放后,自1980 年起中國大批派遣留學生赴西方發達國家研究現代科技,其中就包括人工智慧學科領域。這些人工智慧「海歸」專家,已成為中國人工智慧研究與應用的學術帶頭人和中堅力量。

20世紀八九十年代,中國人工智慧學會成立,《人工智慧學報》創刊,清華大學出版社出版《人工智慧及其應用》著作,學界的人工智慧研究開始陸續啟動。

同時,國內少數高校也開始開設各種人工智慧類課程。經過推廣與提高,30年前的人工智慧星星之火如今已形成燎原之勢,數以百計的高校開設了各種層次的人工智慧課程。

甚至有些人工智能基礎研究已經開始斬獲國際獎項,1990年計算機科學與技術專家、中國科學院院士張鈸ICL歐洲人工智慧獎。張鈸現在已經任職清華大學人工智慧研究院院長。

這只是中國成為國際AI頂會獎項收割機的開篇。

三、2010年至今:顯山露水的白銀時代

2000年國際AI頂會ACL年會在中國香港舉辦時,只有微軟中國研究院的論文來自中國大陸,到了2005年,來自大陸的論文也只有三篇。

直到2010年,百度引入國際著名人工智慧專家王海峰,同年,王海峰一篇論文被 ACL 錄用。2013 年,王海峰出任ACL五十年來首位華人主席,並且促成了2015年ACL會議在中國舉辦。

今年ACL的年會主席是來自中國中科院自動化研究所的宗成慶,程序主席也有兩位華人科學家。

華人再一次擔任此重要職務,中國人工智慧的發展卻已經不可同日而語。

在過去十年裡,隨著中國生產、消費、社會運作的全面數字化與智能化,數據增長、演算法革新、算力提升,讓人工智慧從基礎研究到應用都取得了突破性進展,迎來了真正的繁榮時期。

與此同時,華人科學家也從在NLP領域默默無聞,到頂會投稿量全球第一,論文質量也取得了質的飛躍,儼然成為了頂會論文收割機與AI基礎研究領域的主力軍。

今年3月份,華人學者彭泱獲得了2021 年演算法頂會 ACM-SIAM 的最佳論文獎,他曾在中國南京大學就讀博士學位。

就在一個月前的另一個人工智慧頂級學術會議AAAI上,來自中國的學者許晶晶成功入選「學術新星」。許晶晶在2020年從北大博士畢業后加入了位元組跳動AI Lab團隊。今年8月份,許晶晶更是與AI Lab團隊其他成員一起摘得了ACL大會頒布的最佳論文。

位元組跳動AI Lab贏得最佳論文,是ACL成立59年以來華人科學家團隊第二次贏得最高獎項,此前由中科院計算所主導的研究項目曾被評為ACL 2019「最佳長論文」。

來自港中文、騰訊AI Lab合作的論文也入選了ACL 2021的傑出論文,是六篇傑出論文之一。

ACL大會由國際計算語言學協會主辦,是自然語言處理與計算語言學領域最高級別的學術會議。ACL學會成立於1962年,大會每年一屆,經過嚴格的篩選和評審選出來的最佳論文,代表著該領域的最高水平和發展方向。

今年3月,倫敦帝國理工學院NLP學者Marek Rei發布2020年度AI相關的論文統計顯示:在發表數量中,來自西湖大學的張岳,2020年一共發表了30篇文章,從2019年排名12,直接跳到了今年的第二位。

Marek Rei的統計數據覆蓋了12個2020年AI相關的權威會議和期刊。

2012年至2020年整體的數量中,曾任職清華大學副教授的周明佔據榜首,共發表128篇論文。張岳位列第三。

各個機構的比較中,2020年,清華大學、北京大學、中國科學院,進入了論文數總量前十,分列第六、第八、第十。而在2012-2020期間的論文總量統計中,只有清華、北大進前十。

中國科技公司在AI領域的影響力也在逐漸彰顯。

著名諮詢公司Gartner 今年7月發布的雲AI開發者服務報告中,國內的阿里雲、百度雲、騰訊雲全部入選,其中阿里雲與微軟、谷歌、IBM、AWS一起躋身遠見者象限。

也是在今年7月,由ACL舉辦的機器翻譯大賽上,位元組跳動AI Lab研發的「并行翻譯」系統,奪得德語到英語方向評比第一名。

18年前曾讓人們看到了AI研究曙光的并行翻譯領域,18年後的今天,來自中國的「并行翻譯」系統,首次擊敗了從左向右逐詞翻譯的傳統技術,打破後者在機器翻譯領域的絕對統治地位。

值得關注的是,來自Marek Rei 教授的統計展示了美國在 AI 領域 「力壓群雄」的主導地位,接近4000篇論文,是排名第二中國的兩倍。

但是作為後來者,中國取得今天的成績,已經很不容易,2010年之前,華人科學家出現在AI頂會優質論文中的身影還寥寥可數,過去十年,中國人、華裔以及來自中國的機構與企業,在國際AI領域的存在已經越來越難以忽視,華人開始在關鍵AI國際機構重要任職,優質論文作者密集出現,過去三年,華人科學家更是包攬了ACL兩年的最佳論文。

人工智慧發展的七十多年,其實也是中國AI科研,由荒蠻走向繁榮的七十多年。

中國的人工智慧已經走在通向黃金時代的白銀時代,用王小波的話來說:「銀子是熱導最好的物質,在一塊銀子上,絕不會有一塊地方比另一塊更熱。」這十年,從國家戰略、學術機構到科技公司,中國在人工智慧領域的努力與收穫都是全方位的。

文藝復興時代詩人但丁曾經寫下這樣的名句:我們一起攀登,直到我透過一個圓洞看得見一些美麗的東西顯現在蒼穹。我們於是走出這裡,看見了滿天繁星。

相信如詩人但丁所言,穿過科研無人區的幽暗圓洞,科學家將會帶領我們走向更廣闊壯美的星空。

 

作者:秋水筆彈,公眾號:秋水筆彈【ID:qiushuibitan】專註科技商業生態的思考洞察。