AI時代，人與機器的溝通方式 | 人人都是產品經理

編輯導語：AI，也就是人工智慧，隨著科技的發展，越來越多的人工智慧出現在我們的生活中，比如手機里的對話工具，物流公司、餐館也出現了工作機器人；本文作者分享了關於AI時代人與機器的溝通方式，我們一起來看一下。

隨著度曉曉以虛擬形象在百度世界 2020 ⼤會上的⾸次亮相，引發了人們對人與機器的溝通⽅式的思考。

圖 1 – 度曉曉是百度公司推出的⼿機虛擬 AI 助⼿

度曉曉⽬前具備視覺識別能⼒，⽀持最⾃然的交流⽅式，更接近人與人的溝通過程，那麼未來人機溝通⽅式⼜會是怎麼樣的呢？

為了詳細探究人機溝通⽅式的變化和趨勢，我們要從最早的人機溝通⽅式說起。

一、人適應機器

1. 最早的人機溝通方式

圖靈測試：

問：你會唱歌嗎？

答：是的。

問：請再次回答，你會唱歌嗎？

答：是的。

你多半會想到，與你對話的是一台機器，因為正常人對再次回答會多多少少顯得不耐煩；早在 1950 年，艾倫·圖靈發表了一篇劃時代的論文，預言了創造出具有真正智能的機器的可能性。

由於智能這一概念很難確切定義，他提出了著名的圖靈測試——如果一台機器能與人類展開對話而不被辨別出其機器身份，那麼稱這台機器具有智能；可見半個世紀前，人類期望的人機溝通方式就是自然的方式，即人與人對話的方式。

1）第一台語音交互機器

在人與機器溝通的方式方向上，人類做了很多嘗試；1952 年，貝爾實驗室開發的 Audrey 語音識別系統是其主要標誌；Audrey 約 180cm 高，可以識別阿拉伯數字 0 – 9 的英文發音，對熟人的準確度高達 90％以上。

圖 2 – 1952 年貝爾實驗室開發的 Audrey 語音識別系統

1962 年，IBM 發明了第一台可以用語音進行簡單數學計算的機器 Shoebox；即便如此，人類至今還沒有發明出使用人與人的溝通方式的、通過圖靈測試的機器。

2018 年 5 月，谷歌 Duplex 人工智慧語音技術也只是部分通過了圖靈測試；因此，在半個世紀前，人機無法使用自然的溝通方式的原因是技術的限制；那時候互聯網還沒有出現，語音識別、自然語言處理技術只是在萌芽階段。

2）第一個滑鼠

正是由於技術的限制，人類只能使用其他的方式與機器溝通。

1968 年 12 月 9 日，美國斯坦福大學博士道格拉斯·恩格爾巴特展示了世界上第一個滑鼠；它的外形是一隻小木頭盒子，其工作原理是由它底部的小球帶動樞軸轉動，繼而帶動變阻器改變阻值來產生位移信號，並將信號傳至主機。

總的來說，人類當時可以使用的材料是有限的，技術也只有變阻器等有限的技術；在這個前提下，人類只能適應機器，從而創造了滑鼠這種相對體驗好的方式與機器溝通。我們稱這種溝通方式為「人適應機器」。

圖 3 – 世界上第一個滑鼠 | 引用 artimachines.com

2. 人適應機器的特徵

1）技術的限制

人適應機器的根本原因是技術的限制，因為機器作為產品的一種形式，它的產生包括三大要素：需求、市場和技術。

技術是產品的核心驅動力；
需求是產品落地的基礎；
市場是產品成長的環境。

人類使用技術打造產品，用產品試探市場，滿足用戶的需求，讓新的產品發揮出商業價值。

50 年前，技術還沒有成熟，即便我們的需求、我們的想象力、我們期望的是用最自然的方式溝通；也只能適應機器，使用鍵盤、滑鼠等來與機器溝通。

圖 4 – 需求、市場和技術

2）設計創造更好的體驗

設計是溝通的橋樑，連接著用戶的需求和技術的能力；雖然有技術的限制，但設計師可以讓人適應機器的體驗變得更好。

以百度翻譯 APP 的取詞翻譯為例，直到現在 5G 還沒有完全普及，光學字元識別(OCR)技術在全世界 200 多語種的表現也達到不了毫秒級的全文精準識別。

面臨著網速等技術的限制，設計師採用矩形的取詞框與機器溝通，讓用戶瞄準書本中的單詞去翻譯；瞄準哪裡、翻譯哪裡的這一行為，既降低了技術實現的難度，也讓人適應機器的過程不再這麼生硬，讓翻譯的體驗變得更好。

圖 5 – 百度翻譯 APP 取詞翻譯

總的來說，半個世紀前「人適應機器」的溝通方式是必然，不可否認這種溝通方式在下一個革命性技術突破前還會長期存在，但設計可以幫助我們在這過程中創造更好的體驗。

二、機器適應人

1. 機器適應人的時代

隨著 AI 時代的來臨，加速了 5G、面部識別等一系列新技術的進步；雖然還未完全成熟或普及，但是機器主動適應人的條件似乎已經具備，機器開始主動適應人的表達方式和生活方式。

圖 6 – 一系列新技術的進步

2. 機器適應人的方式

對話是人與人之間最自然的溝通方式之一，當技術達到了一定的水平，語音對話逐步進入了大眾的視野；該方式不僅提高了信息傳遞的效率，還幫助用戶解放雙手和雙眼；而且幫助對文字識別有障礙的群體更好的使用產品。

當人們逐步適應了對話作為與機器溝通的方式時，也對溝通舒適度有了更高的憧憬和需求。

1）百度地圖 APP

藉助語音技術，百度語言助手「小度」大幅提升了用戶的溝通舒適度，除了對駕車這一用戶群體雙手的釋放之外；當用戶說出「小度小度，回家」這樣簡單的指令時，通過演算法和數據的積累，百度地圖會根據用戶習慣，自動規劃出從當前位置回家的最優路線。

甚至當用戶每天在特定時間打開百度地圖時，會預算出當前時段你是否想去這裡？使溝通更加高效。

圖 7 – 百度地圖 APP

2）百度翻譯 APP

百度翻譯 APP 通過人工智慧技術幫助用戶打破語言的界限，支持全世界200+語言互譯，提升全世界的溝通體驗。

圖 8 – 百度翻譯 APP

不僅如此，百度翻譯 APP 還幫助用戶解決學習、商務、旅遊等不同場景下的語言問題，比如：百度翻譯同傳通過領先行業的同傳技術與服務，大幅降低信息交流成本，驅動企業持續發展。

3）百度翻譯同傳

圖 9 – 百度翻譯同傳

在 2020 百度全球人工智慧技術大會上，百度翻譯同傳搭建了大會不同語種之間溝通的橋樑。

同聲傳譯本是一項困難且專業的工作，翻譯官除了對語言有深厚的儲備，還需要極強的反應能力和應變能力；注意力需要高度集中，對腦力和體力都具有極高等要求。

同傳通過搭載百度語言自研的 SMLTA 聲學建模技術，提升識別的準確性；同時，通過對音頻信號的加強處理，提升了識別的「魯棒性（Robustness）」。

在該場景下，百度翻譯同傳做到了全場景多模態，即時的沉浸式體驗——這也進一步體現了機器適應人的溝通方式。

三、人和機器相互適應

1. 機器更像人的誕生

當機器開始逐步適應人，一系列新的問題也被大家所關注，人類到底因該如何與之相處成為了大眾所熱議的話題。

1992 年，雷波特與他人一同創辦了波士頓動力；波士頓動力每出一款機器人都及其引人注目，甚至會掀起一陣陣機器人要逆天的倫理性大討論。

圖 10 – 波斯頓機器人引用 | Boston Dynamics

2015 年 4 月 19 日，索菲亞被激活。她以女演員奧黛麗·赫本為模型，與以前的各種型號機器人相比，她更具與人類相似外觀和行為方式。

她的發明者漢森說：「它的目標就是像任何人類那樣，擁有同樣的意識、創造性和其他能力。」

圖 11 – 索菲亞 | 引用極客公園

人類從開始對於機器的期望是它能夠幫助我們帶來意想不到的便利，但隨著技術的進步，類似像大白這樣具有溫度的機器人走進我們的視線，它採用了更具有溫度的方式與人溝通。

圖 12- 大白 | 引用超能陸戰隊

2. 不同場景下的情感溝通

由此，伴隨著技術的發展不斷發酵，關於機器更像人的討論也越演越烈。

給技術產品賦予人類的性格特徵似乎已經成為趨勢，被賦予的不同「人格」的機器所引發的話題也不盡相同；比如模擬機器人帶來的恐慌，和大白的爆紅。

但事實是：即使有了深度學習的加持，現階段的機器還遠沒有到達真正「智能體」的標準；既然如此，引發恐慌的究竟機器人的技術，還是它過強「人格」所觸犯到的人類的存在感邊界？

原因是多方面的——比如從心理學的角度，由於在外形設計的層面，若機器依舊停留在工具的外形緯度，人類下意識本能的判斷也就將其歸為了工具的類別；從發明的角度，被人類發明的機器/工具，除了本身具備特定的功能之外，還取決於被如何使用或如何定義。

簡單來說，同樣一把剪刀，可以是工具也可以是兇器——計算機或是智能機器也是同樣的道理。

因此，將機器”人格”化的方向，不是賦予機器所謂獨立的「人格」；而是讓機器擁有更有情感、更人格化的設計，讓人類和機器能夠產生情感上的溝通交流甚至共鳴，能夠更好的相互適應。

1）多樣化場景

正如上文提到的，用語音回復的方式，賦予機器情緒和性格只是人類和機器溝通的開始。

現實的情況是：自然語言處理、知識圖譜、圖像識別、人臉識別等越來越多的細分技術早已被運用到不同產品中，為人類解決不同場景下的問題；只是隨著需求的增多，被直接展示的越來越多罷了；由此，在不同產品的使用場景下，我們需要給予其更精準的「人格」定位，營造更恰當的溝通場景。

所以，作為翻譯技術賦能的學習類產品；結合產品功能和用戶需求，在設立 IP 形象時，百度翻譯 APP 將其「人格」定位為「智能助手」。

圖 13 – 百度翻譯 APP IP 形象 DODO

在保留其機器屬性的同時，強調陪伴和可依賴的溝通方式『強化情感溫度，塑造區別於其他冰冷機器的愉悅感。

圖 14 – 百度翻譯 APP IP 形象 DODO

除此之外，順應不同場景的情感溝通方案，UNIT 的個性化定製功能則滿足了人類在行為水平層面的多方面訴求。

圖 15 – 百度翻譯 UNIT 智能

2）個性化反饋

其實，人與機器溝通邊界探索與機器本身情緒的反應、分析模型的準確性是直接關聯的；且在現有的技術中，AI 對情緒的情感分析還停留在封閉場景中的階段。

通俗來說，它也許能理解你的表情、語音，但猜不到你表情背後的內心活動到底是什麼。

梅羅維茨在《消失的地域》中曾提出「新媒介-新場景-新行為」的關係模型，認為新媒體的應用可能重建大範圍的場景和行為，甚至人類的社交角色與規則也隨之產生影響；確實，線上線下、虛擬現實的場景重疊，個體人類也已開始追求更具有個性化的細緻表達。

例如 Emoji，表情包作為信息時代的傳播溝通符號，火遍全球；在 ios12 中，藉助人臉識別技術，蘋果公司推出了可定製的 Memoji。

圖 16 – Apple Memoji｜引用 Jeremy Horwitz

度曉曉的誕生也是如此，基於語音、圖像、語言等技術的支持賦能，度曉曉具備答疑解惑、情感陪伴等能力，可以幫用戶解決生活中的各種問題；在溝通方式上，度曉曉也不再局限於語音的互動方式，還加入了視頻聊天、觸碰閑聊等功能。

圖 17 – 百度手機虛擬AI助手度曉曉

更重要的是，度曉曉還會隨著用戶的使用而形成不同的性格，是一個典型的養成型助理；且隨著用數據的積累，最終能夠實現千人千面的效果，每個人的度曉曉都會因各自主人而不一樣。

圖 18 – 百度手機虛擬AI助手度曉曉

3. 未來

至此，關於機器與人類溝通的方式討論似乎還沒有一個確切的答案。

未來的機器到底是否會真實的感情？我們無法論證，但可以肯定隨著人工智慧時代的到來，機器已經在改變人類的生活，且引發了人類不同的情感需求和反應。

腦機介面技術的爆發，神經形態晶元的日趨成熟；科技的不斷進步，似乎為人和機器的溝通方式帶來無限的可能；也許未來的某天，機器能夠完全使用人類的溝通方式與我們溝通，甚至不被察覺。

那麼對你而言，人機溝通方式的邊界在哪？未來可能又會誕生哪些技術，為人機溝通帶來意想不到的可能？

參考資料：

《百度百科：度曉曉》

《百度百科：圖靈測試》

《A Brief History of ASR: Automatic Speech Recognition》

《滑鼠誕生49周年！世界上第一個滑鼠就長這樣》

《AI與情感》

《未來搜索還能這樣玩！養成類虛擬助理「度曉曉」亮相百度世界2020》

作者：周子軒、李俞鋒、石靜雯