AI時代,人與機器的溝通方式 | 人人都是產品經理

編輯導語:AI,也就是人工智慧,隨著科技的發展,越來越多的人工智慧出現在我們的生活中,比如手機里的對話工具,物流公司、餐館也出現了工作機器人;本文作者分享了關於AI時代人與機器的溝通方式,我們一起來看一下。

隨著度曉曉以虛擬形象在百度世界 2020 ⼤會上的⾸次亮相,引發了人們對人與機器的溝通⽅式的思考。

圖 1 – 度曉曉是百度公司推出的⼿機虛擬 AI 助⼿

度曉曉⽬前具備視覺識別能⼒,⽀持最⾃然的交流⽅式,更接近人與人的溝通過程,那麼未來人機溝通⽅式⼜會是怎麼樣的呢?

為了詳細探究人機溝通⽅式的變化和趨勢,我們要從最早的人機溝通⽅式說起。

一、人適應機器

1. 最早的人機溝通方式

圖靈測試:

問:你會唱歌嗎?

答:是的。

問:請再次回答,你會唱歌嗎?

答:是的。

你多半會想到,與你對話的是一台機器,因為正常人對再次回答會多多少少顯得不耐煩;早在 1950 年,艾倫·圖靈發表了一篇劃時代的論文,預言了創造出具有真正智能的機器的可能性。

由於智能這一概念很難確切定義,他提出了著名的圖靈測試——如果一台機器能與人類展開對話而不被辨別出其機器身份,那麼稱這台機器具有智能;可見半個世紀前,人類期望的人機溝通方式就是自然的方式,即人與人對話的方式。

1)第一台語音交互機器

在人與機器溝通的方式方向上,人類做了很多嘗試;1952 年,貝爾實驗室開發的 Audrey 語音識別系統是其主要標誌;Audrey 約 180cm 高,可以識別阿拉伯數字 0 – 9 的英文發音,對熟人的準確度高達 90%以上。

圖 2 – 1952 年貝爾實驗室開發的 Audrey 語音識別系統

1962 年,IBM 發明了第一台可以用語音進行簡單數學計算的機器 Shoebox;即便如此,人類至今還沒有發明出使用人與人的溝通方式的、通過圖靈測試的機器。

2018 年 5 月,谷歌 Duplex 人工智慧語音技術也只是部分通過了圖靈測試;因此,在半個世紀前,人機無法使用自然的溝通方式的原因是技術的限制;那時候互聯網還沒有出現,語音識別、自然語言處理技術只是在萌芽階段。

2)第一個滑鼠

正是由於技術的限制,人類只能使用其他的方式與機器溝通。

1968 年 12 月 9 日,美國斯坦福大學博士道格拉斯·恩格爾巴特展示了世界上第一個滑鼠;它的外形是一隻小木頭盒子,其工作原理是由它底部的小球帶動樞軸轉動,繼而帶動變阻器改變阻值來產生位移信號,並將信號傳至主機。

總的來說,人類當時可以使用的材料是有限的,技術也只有變阻器等有限的技術;在這個前提下,人類只能適應機器,從而創造了滑鼠這種相對體驗好的方式與機器溝通。我們稱這種溝通方式為「人適應機器」。

圖 3 – 世界上第一個滑鼠 | 引用 artimachines.com

2. 人適應機器的特徵

1)技術的限制

人適應機器的根本原因是技術的限制,因為機器作為產品的一種形式,它的產生包括三大要素:需求、市場和技術。

  • 技術是產品的核心驅動力;
  • 需求是產品落地的基礎;
  • 市場是產品成長的環境。

人類使用技術打造產品,用產品試探市場,滿足用戶的需求,讓新的產品發揮出商業價值。

50 年前,技術還沒有成熟,即便我們的需求、我們的想象力、我們期望的是用最自然的方式溝通;也只能適應機器,使用鍵盤、滑鼠等來與機器溝通。

圖 4 – 需求、市場和技術

2)設計創造更好的體驗

設計是溝通的橋樑,連接著用戶的需求和技術的能力;雖然有技術的限制,但設計師可以讓人適應機器的體驗變得更好。

以百度翻譯 APP 的取詞翻譯為例,直到現在 5G 還沒有完全普及,光學字元識別(OCR)技術在全世界 200 多語種的表現也達到不了毫秒級的全文精準識別。

面臨著網速等技術的限制,設計師採用矩形的取詞框與機器溝通,讓用戶瞄準書本中的單詞去翻譯;瞄準哪裡、翻譯哪裡的這一行為,既降低了技術實現的難度,也讓人適應機器的過程不再這麼生硬,讓翻譯的體驗變得更好。

圖 5 – 百度翻譯 APP 取詞翻譯

總的來說,半個世紀前「人適應機器」的溝通方式是必然,不可否認這種溝通方式在下一個革命性技術突破前還會長期存在,但設計可以幫助我們在這過程中創造更好的體驗。

二、機器適應人

1. 機器適應人的時代

隨著 AI 時代的來臨,加速了 5G、面部識別等一系列新技術的進步;雖然還未完全成熟或普及,但是機器主動適應人的條件似乎已經具備,機器開始主動適應人的表達方式和生活方式。

圖 6 – 一系列新技術的進步

2. 機器適應人的方式

對話是人與人之間最自然的溝通方式之一,當技術達到了一定的水平,語音對話逐步進入了大眾的視野;該方式不僅提高了信息傳遞的效率,還幫助用戶解放雙手和雙眼;而且幫助對文字識別有障礙的群體更好的使用產品。

當人們逐步適應了對話作為與機器溝通的方式時,也對溝通舒適度有了更高的憧憬和需求。

1)百度地圖 APP

藉助語音技術,百度語言助手「小度」大幅提升了用戶的溝通舒適度,除了對駕車這一用戶群體雙手的釋放之外;當用戶說出「小度小度,回家」這樣簡單的指令時,通過演算法和數據的積累,百度地圖會根據用戶習慣,自動規劃出從當前位置回家的最優路線。

甚至當用戶每天在特定時間打開百度地圖時,會預算出當前時段你是否想去這裡?使溝通更加高效。

圖 7 – 百度地圖 APP

2)百度翻譯 APP

百度翻譯 APP 通過人工智慧技術幫助用戶打破語言的界限,支持全世界200+語言互譯,提升全世界的溝通體驗。

圖 8 – 百度翻譯 APP

不僅如此,百度翻譯 APP 還幫助用戶解決學習、商務、旅遊等不同場景下的語言問題,比如:百度翻譯同傳通過領先行業的同傳技術與服務,大幅降低信息交流成本,驅動企業持續發展。

3)百度翻譯同傳

圖 9 – 百度翻譯 同傳

在 2020 百度全球人工智慧技術大會上,百度翻譯同傳搭建了大會不同語種之間溝通的橋樑。

同聲傳譯本是一項困難且專業的工作,翻譯官除了對語言有深厚的儲備,還需要極強的反應能力和應變能力;注意力需要高度集中,對腦力和體力都具有極高等要求。

同傳通過搭載百度語言自研的 SMLTA 聲學建模技術,提升識別的準確性;同時,通過對音頻信號的加強處理,提升了識別的「魯棒性(Robustness)」。

在該場景下,百度翻譯同傳做到了全場景多模態,即時的沉浸式體驗——這也進一步體現了機器適應人的溝通方式。

三、人和機器相互適應

1. 機器更像人的誕生

當機器開始逐步適應人,一系列新的問題也被大家所關注,人類到底因該如何與之相處成為了大眾所熱議的話題。

1992 年,雷波特與他人一同創辦了波士頓動力;波士頓動力每出一款機器人都及其引人注目,甚至會掀起一陣陣機器人要逆天的倫理性大討論。

圖 10 – 波斯頓機器人引用 | Boston Dynamics

2015 年 4 月 19 日,索菲亞被激活。她以女演員奧黛麗·赫本為模型,與以前的各種型號機器人相比,她更具與人類相似外觀和行為方式。

她的發明者漢森說:「它的目標就是像任何人類那樣,擁有同樣的意識、創造性和其他能力。」

圖 11 – 索菲亞 | 引用 極客公園

人類從開始對於機器的期望是它能夠幫助我們帶來意想不到的便利,但隨著技術的進步,類似像大白這樣具有溫度的機器人走進我們的視線,它採用了更具有溫度的方式與人溝通。

圖 12- 大白 | 引用 超能陸戰隊

2. 不同場景下的情感溝通

由此,伴隨著技術的發展不斷發酵,關於機器更像人的討論也越演越烈。

給技術產品賦予人類的性格特徵似乎已經成為趨勢,被賦予的不同「人格」的機器所引發的話題也不盡相同;比如模擬機器人帶來的恐慌,和大白的爆紅。

但事實是:即使有了深度學習的加持,現階段的機器還遠沒有到達真正「智能體」的標準;既然如此,引發恐慌的究竟機器人的技術,還是它過強「人格」所觸犯到的人類的存在感邊界?

原因是多方面的——比如從心理學的角度,由於在外形設計的層面,若機器依舊停留在工具的外形緯度,人類下意識本能的判斷也就將其歸為了工具的類別;從發明的角度,被人類發明的機器/工具,除了本身具備特定的功能之外,還取決於被如何使用或如何定義。

簡單來說,同樣一把剪刀,可以是工具也可以是兇器——計算機或是智能機器也是同樣的道理。

因此,將機器”人格”化的方向,不是賦予機器所謂獨立的「人格」;而是讓機器擁有更有情感、更人格化的設計,讓人類和機器能夠產生情感上的溝通交流甚至共鳴,能夠更好的相互適應。

1)多樣化場景

正如上文提到的,用語音回復的方式,賦予機器情緒和性格只是人類和機器溝通的開始。

現實的情況是:自然語言處理、知識圖譜、圖像識別、人臉識別等越來越多的細分技術早已被運用到不同產品中,為人類解決不同場景下的問題;只是隨著需求的增多,被直接展示的越來越多罷了;由此,在不同產品的使用場景下,我們需要給予其更精準的「人格」定位,營造更恰當的溝通場景。

所以,作為翻譯技術賦能的學習類產品;結合產品功能和用戶需求,在設立 IP 形象時,百度翻譯 APP 將其「人格」定位為「智能助手」。

圖 13 – 百度翻譯 APP IP 形象 DODO

在保留其機器屬性的同時,強調陪伴和可依賴的溝通方式『強化情感溫度,塑造區別於其他冰冷機器的愉悅感。

圖 14 – 百度翻譯 APP IP 形象 DODO

除此之外,順應不同場景的情感溝通方案,UNIT 的個性化定製功能則滿足了人類在行為水平層面的多方面訴求。

圖 15 – 百度翻譯 UNIT 智能

2)個性化反饋

其實,人與機器溝通邊界探索與機器本身情緒的反應、分析模型的準確性是直接關聯的;且在現有的技術中,AI 對情緒的情感分析還停留在封閉場景中的階段。

通俗來說,它也許能理解你的表情、語音,但猜不到你表情背後的內心活動到底是什麼。

梅羅維茨在《消失的地域》中曾提出「新媒介-新場景-新行為」的關係模型,認為新媒體的應用可能重建大範圍的場景和行為,甚至人類的社交角色與規則也隨之產生影響;確實,線上線下、虛擬現實的場景重疊,個體人類也已開始追求更具有個性化的細緻表達。

例如 Emoji,表情包作為信息時代的傳播溝通符號,火遍全球;在 ios12 中,藉助人臉識別技術,蘋果公司推出了可定製的 Memoji。

圖 16 – Apple Memoji|引用 Jeremy Horwitz

度曉曉的誕生也是如此,基於語音、圖像、語言等技術的支持賦能,度曉曉具備答疑解惑、情感陪伴等能力,可以幫用戶解決生活中的各種問題;在溝通方式上,度曉曉也不再局限於語音的互動方式,還加入了視頻聊天、觸碰閑聊等功能。

圖 17 – 百度手機虛擬AI助手度曉曉

更重要的是,度曉曉還會隨著用戶的使用而形成不同的性格,是一個典型的養成型助理;且隨著用數據的積累,最終能夠實現千人千面的效果,每個人的度曉曉都會因各自主人而不一樣。

圖 18 – 百度手機虛擬AI助手度曉曉

3. 未來

至此,關於機器與人類溝通的方式討論似乎還沒有一個確切的答案。

未來的機器到底是否會真實的感情? 我們無法論證,但可以肯定隨著人工智慧時代的到來,機器已經在改變人類的生活,且引發了人類不同的情感需求和反應。

腦機介面技術的爆發,神經形態晶元的日趨成熟;科技的不斷進步,似乎為人和機器的溝通方式帶來無限的可能;也許未來的某天,機器能夠完全使用人類的溝通方式與我們溝通,甚至不被察覺。

那麼對你而言,人機溝通方式的邊界在哪?未來可能又會誕生哪些技術,為人機溝通帶來意想不到的可能?

參考資料:

《百度百科:度曉曉》

《百度百科:圖靈測試》

《A Brief History of ASR: Automatic Speech Recognition》

《滑鼠誕生49周年!世界上第一個滑鼠就長這樣》

《AI與情感》

《未來搜索還能這樣玩!養成類虛擬助理「度曉曉」亮相百度世界2020》

 

作者:周子軒、李俞鋒、石靜雯