人工智慧請創作：「一顆檸檬戴著墨鏡在沙灘上休息」

在預想中，我們以為AI圖像的生成界面是一個簡潔的提示詞輸入框加上圖像生成頁，然而Midjourney創新性地加入了「群聊」機制，本篇文章就來和大家聊聊Midjourney的使用體驗以及AI繪畫與人類創作之間的關係，感興趣的朋友一起來看看吧。

讓我們聊聊最近大熱的人工智慧（AI）藝術創作。

在艾廠的人工智慧國際論壇進行的五月底（以至後來的六月），還發生著另外一件頗相關的重要事件——兩款主要的人工智慧圖像生成軟體，DALL·E·2和Midjourney，都開始開放測試版的內部邀請。

沙丘的成員也獲得了Midjourney的邀請，進入了測試版的discord社群，得以觀察到無數圖像的生成、篩選與調校，也嘗試了自己輸入的提示詞（prompt）以生成AI圖像。

在預想當中，我們以為AI圖像的生成界面是一個簡潔的提示詞輸入框加上圖像生成頁——類似於谷歌圖片搜索頁面，只是「搜索結果」換成了「生成成果」。

然而實際情況卻是，所有Midjourney受邀的測試新人都將加入一個discord社群，這個大社群下又進一步細分出五十個「新人群」。當新人加入的時候，Midjourney的機器人（bot）將會首先自動在「通告群」中發出消息，指定某某新人到第XX號新人群中。

在這一「群聊」的機制中，用戶將以適當格式輸入提示詞——譬如「一顆檸檬戴著墨鏡，躺在沙灘上休息，攝影級真實風格」，而機器人將在約一分鐘后，在群聊界面里回復依照提示詞生成的四張AI圖像，並在新消息中提及（@）新人。值得注意的是，這意味著所有用戶要求的圖像——不管是輸入的提示詞，還是生成出來的圖像，都將對所有人可見。

Midjourney的Discord社群的截圖。左側是新人群的不同頻道，右側展示的圖像的提示詞是「消防員，1970年代拍立得風格」，圖像下方的U1代表放大（upscale）第一張圖，VI代表對第一張圖做出進一步變種（variation），以此類推。

圖源：作者。

在這個基礎上，用戶可以進一步對得到的四張圖像做挑選，要求對其中的某一個或某幾個做出其他變種（variation），或者放大尺寸、增加解析度（upscale）。有趣的是，正因為這些所有步驟都處在一個群聊的界面當中，所有用戶都可以對其他用戶要求的圖像做挑選，而機器人會把這些要求一一回應，發布在群聊當中。

我們對Midjourney團隊選擇的這樣的交互/組織形式非常感興趣。不得不承認，五十個接連不斷滾動著新消息的群組十分有衝擊力，龐大的信息量和不斷增大的積累速率註定沒有任何單個的人類大腦能跟得上——這樣的機制一開始也讓新人有些暈頭轉向。

但適應以後，我們也大概體會到這種形式的妙處——我們彷彿置身於一個巨大的實驗性公共藝術項目當中，這是單點的、以個體用戶為中心的界面（譬如谷歌圖片的搜索框）所不能比擬的。

同樣的提示詞：「一顆檸檬戴著墨鏡，躺在沙灘上休息，攝影級真實風格。」左側是Midjourney的生成圖像，右側是DALL·E·2的。

圖源：MattVideoProductions。

首先，這種像洪水或雪球一樣不斷向人滾來和湧來的圖像量，或許也正是人工智慧藝術想要向我們傳達的一個重要特徵——沒有哪個人類藝術家或者人類藝術家團隊，能夠如此大量和快速地響應「客戶」的要求，並不斷產出不同變種，再進一步修改並放大，二十四小時無休無止。

其次，這種群聊的機制也讓輸入者、觀看者和AI機器人的身份變得史無前例地平等，並且邊界模糊。這裡沒有作者和觀眾的二元對立，署名權也似乎無從說起——一張驚艷的圖究竟是誰的作品？是最起初的提示詞輸入者嗎？是AI機器人嗎？是Midjourney團隊的演算法工程師嗎？是中途幫忙選擇變種或者要求增大尺寸的其他用戶嗎？這是多方協作、去中心化的過程。

第三，每個用戶不斷看到其他用戶的提示詞，也不斷看到新的AI生成圖，也構成了一個不斷向其他人學習怎樣更好地、更有創意地輸入提示詞的研討會式的場所。另外，當看到其他人要求的圖像出現，並從中篩選，本質上也是在幫Midjourney團隊義務訓練他們的演算法。

這些也引出了人類藝術家時期不曾有過的問題，在AI創作的往複溝通中，究竟誰是真正的受益者？架構者、輸入者、篩選者、觀眾、機器之間，究竟誰在訓練誰，誰又在向誰學習？

提示詞：「一個日本女人坐在榻榻米上，攝影級真實風格。」Midjourney的生成圖像。

圖源：作者。

事實上，這些問題在艾廠的2022藝術與人工智慧國際論壇當中也多有提及。我們認為這是一個很好的機會和時間節點，寫下我們自己的想法。

艾廠的論壇以「人工想象力」為主題，由來自藝術、設計、文學、計算機科學和哲學領域的嘉賓對這一話題進行分享和探討（關於論壇具體信息，點擊這裡跳轉）。沙丘研究所也受邀作為特別觀察員參與。不過，就像是上述羅列的那樣，我們對此並沒有宣言式的觀點，而是更想要用問題的形式分享一些我們正在思考的東西。

在嘗試了AI圖像的內測之後，沙丘的成員以及我們在Media Lab的朋友都由衷發出這樣的感嘆：這樣的技術革命對於圖像和創作的影響，或許不會小於一百年前攝影技術對於繪畫的衝擊。正如本雅明在他著名的作品《機械複製時代的藝術作品》的開頭引用了保羅·瓦萊里：

世界正發展著的偉大的技術革新會改變藝術的全部表達技巧，由此必將影響到藝術創作本身，最終或許還會導致以最迷人的方式，改變藝術概念本身｡

對於本雅明來說，當時興起的電影使藝術不再是脫離大眾的收藏品，因為其本質本來就是大眾的。而如今人工智慧藝術平台似乎讓每個人都成為了創作者。

另一方面，對圖像的重新定義似乎還將進一步重塑我們與世界的本質關係，畢竟視覺是人類感知世界的（最）主要渠道。正如電影中「攝像機」的位置為觀者創造了一種全新的觀察和共情的方式，人工智慧藝術中的人工智慧似乎也為我們提供了一種不同於人類創作的思考方式。

一、想象力和創造力是人類獨有的嗎？

對於很多人來說，「人工」和「想象力」兩個詞註定是一組矛盾；「人工想象力」也根本就無法存在，沒有比較和討論的餘地。「人工」一詞指向「人造的」和「人造物（artifacts）」而與之相對，想象力似乎是人與生俱來的，是「自然的」而非被「製造」出來的。

另外，想象力還通常被認為是人類獨有的能力，它將我們與其他非人的「物」區分開來——不論是自然中的動植物，有機物和無機物，還是如工具和機器這樣多樣的人造物。

這種主導性的觀點尤其被人類中心主義所推崇，因為人們通過這種獨特的創造力獲得了主體性。在文藝復興時期和英雄式的現代主義中，我們都可以看到許多「單獨存在的天才（standalone genius）」。

這些藝術家、建築師、作家廣為人知，天才的光環讓他們區別於他們創作和生活中的協作者，他們的創作力是神秘的（或可以說是神聖的）——後人研究他們的生平、作品、創作過程和手法，但是他們的想象力和創造力則是先驗或超驗的，這樣的能力宛如神降，僅屬自身；這個神秘無窮的黑箱，他人無法刺透，更無法複製。也因這一點，這些天才的創作者作為個體，與同時代的其他人分離了出來，像是」單獨存在「的。

提示詞：「一隻狐猴處在星叢圖當中」Midjourney的生成圖像。

圖源：作者。

然而，不論是以物為導向的存在論（Object-Oriented Ontology），還是後人類主義的藝術、設計、文學實踐和哲學研究，都挑戰著這種人類中心主義的觀點。在論壇中，嘉賓們也從不同方面就這一觀念進行了批判和思考。

譬如在許煜的分享中，他通過解讀康德，強調「想象」本身就具有「人工」的成分，因為圖像形成（image formation）的過程總需要涉及「符號」等人工系統；而喬安娜·澤林斯卡也引用後人類主義學者克萊爾·科爾布魯克的觀點，批判將人類作為唯一的藝術創造者的想法。

這一問題不僅是理解人工想象力的核心，也進一步成為對於人類想象力的反思。喬安娜·澤林斯卡在分享中展示了日本設計師菅野索和山口隆廣設計的「無意義的繪畫機器人（Senseless Drawing Bot）」所繪製的圖像——這些圖像既像是孩子的塗鴉，又和傑克遜·波洛克和塞·托姆佈雷的藝術有著高度相似的特質。

對於喬安娜·澤林斯卡來說，與其將這一作品看作是對於人類塗鴉的一種模仿，它或許可以被理解為一種對於人類創造性為的重新思考——或許人類的創造力也並非來自人的理智和主體能動性。這些都使得「想象力是自然的而非人工製造的」這一命題變得不再穩定。

菅野索和山口隆廣設計的「無意義的繪畫機器人（Senseless Drawing Bot）」。

圖源：Yohei Yamakami 2011。

塞·托姆布雷「酒神」系列（2005），藝術評論家阿瑟•丹托（Arthur Danto）稱這些畫為「酒神式狂歡之作」，只有神才能達到如此酣醉之境。

圖源：Rob McKeever/Gagosian Gallery。

二、署名權與自主性歸屬於誰？

如今，數字素養（digital literacy）幾乎成為了新一代人類的必備。AI所生產的機械的、數字複製的圖像材料，也給當今幾乎耗盡了創造可能性的人類藝術家們提供了新的刺激和原材料。人工想象力既是自主的（autonomous），又是無處不在的（ubiquitous），它的美學令人目眩神迷。

但開發者和藝術家們顯然並不止步於將AI藝術視作一個可以不斷擴展壯大的靈感庫。我們也好奇，如果想象力並非人類獨有的，那麼人工智慧是否能獨立進行創作呢？在論壇中，我們看到多位藝術家、設計師分享人工智慧作為共同進行創作者產生的作品，但一個僅由人工完成的藝術作品會是什麼樣的呢？

提示詞：「美國郊區住宅，1960年代拼貼廣告風。」MIdjourney生成的圖像。

圖源：作者。

這顯然還很困難。人工智慧來自於人，現有人工智慧的想象與創造也全程由人類像父母呵護一般陪伴著全程。其中最讓人工「署名權」成為問題的，在於首先，機器演算法學習和訓練的庫仍由人來指定，而產出物亦由人來最後篩選。它仍需要人類的「處理」，才能被人類的雙眼「消化」。

論壇上，劉宇昆講述，他嘗試利用AI學習自己的寫作去創作新文本，卻發現成果並不驚艷，甚至難以被借用。他只好大幅修改，加入很多自己的段落，最終發表了《五十件與人類合作的AI應該知道的事》（「50 Things Every AI Working with Humans Should Know」）。

同理，演算法通過分析推薦而產生的審美，直白且相似度高，有時又很跳脫。即便如此，不少設計師有意識地去收集這些圖像，編輯整合成新的圖集，作為自己創作的情緒板（moodboard）。

除開我們在文章一開頭提到的圖像的生產，AI也可以進一步處理已有的圖像，在某種風格內進行新的創作。它把圖像創作者的風格變為一種濾鏡，加在其他圖像上。例如在AI藝術網站Dream中輸入圖像內容，選擇「吉卜力風格」，新生成的圖像就展現出相似的奇幻動畫風格，而轉換成超現實主義風格，則會出現類似於達利畫作的圖像。

左側：輸入提示詞「沙丘，吉卜力風格」后的結果；右側：輸入提示詞「沙丘，超現實風格」后的結果。

圖源：作者。

用戶提供命題，而AI作為產出者，生產了新的圖像。抑或是用戶提供內容，而AI把它放進別人風格的框架里，生產新的圖像。那麼AI在這個產出過程里的身份是作者還是工具？究竟誰才是這次創作的主語？AI，AI開發者，用戶，還是藝術家本人？

這不妨也誘使我們進一步想象：如果沒有人對於人工智慧進行訓練、或對產出物進行篩選，也不僅考慮用AI處理已有的圖像，它是否還能夠產生某種更為「自主」的作品？

這樣的作品或許指向了一種更加不可知的想象力，成果或許也超出了人類的理解和欣賞範圍。菲利普•迪克的《仿生人會夢見電子羊嗎？》和萊姆的《索拉里斯星》（點擊這裡跳轉）為我們提供了這樣的範式：對不可想象之物的想象。

三、人工智慧的量產是創作嗎？

通過分析搜索到的大量圖像數據，AI提取其中已有的藝術風格、物體形狀、人物特徵並進行整合和產出，全新的圖像作品便誕生了。

在我們加入的AI圖像內測社群里，新的提示詞和新的圖像不斷產生、受挑選並且迭代、發展，這使我們產生了一種強烈的感覺——與其說這是一種「製作（production）」，毋寧說它是一種伴隨著無數變異和選擇過程的「繁殖（reproduction）」。

這些圖像也模擬出一些現實世界中本不存在的創造物的形象。譬如我們可以在DALL-E、Midjourney或者其他AI圖像生成軟體中，疊加「扎哈·哈迪德」與「巴黎世家」（zaha hadid + balenciaga）這樣各自風格強烈的建築師和時尚品牌，從而獲得一系列既有廓形剪裁，又具有光滑曲度的服裝——一個將二者基因強勢結合的奇異圖像。

這樣九張或四張全新圖像所構成的「圖集（atlas）」恰好使它穩定地建立了一種新的創作話語權，就好像世界上真的有這麼一位混血設計師一樣。

同理，我們可以混血食物和工具，建築和藝術，繪畫和攝影等等不同領域的詞條，創造新的「人造物（artifacts）」。電子時代的圖像現實，開始脫離我們的物理現實，自由繁衍。這些無限自主繁衍的新的圖像，是人工智慧創作的「作品」嗎？

在DALL-E mini中使用「扎哈·哈迪德」與「巴黎世家」產生的九張圖像。

來源：huggingface。

確實，從我們傳統的對藝術的理解來說，這種創作很容易被視為」再生產（reproduction）」。你可以說，它只是建立在可考的圖像基礎上，在已經樹立強烈風格的作品中，進行了一番重塑和拼貼。

如果我們相信創作的出發點是想象力，是人類創作藝術的初心和本能，那當AI回收利用了一些已有的藝術作品，這種再生產也算是新的想象力嗎？這是否只是一種對我們想象力的映射？而在這個問題的反面，如果我們認為AI所做的不是新的，我們又如何辯駁人類的想象物就是新的，而不是多種已有元素的再組合？04人工智慧更擅長圖像處理而非文字處理嗎？

AI創作也許就像是人類創作的鏡子，它的創作生命力具有危險的吸引力。

這個鏡子上常常還有另一個重要的東西——濾鏡。事實上，「Filter」既有過濾器也有濾鏡的意思，這兩者對AI藝術來說都尤為關鍵。

在攝影技術當中，我們熟知濾鏡的使用——前期階段，攝影師可以把不同色澤與反射度的偏振鏡加在鏡頭前面，保證作品的光線效果符合預期；後期階段，攝影師還可以通過諸如Lightroom這樣的處理軟體，為原片賦予更多不同風格的數字濾鏡，諸如強調紫色和黃色的「賽博朋克風」或者降低飽和度且偏黃的「復古風」。

利用AI技術將圖像轉為夜景效果的濾鏡。

圖源：Cyanapse’s Photorealistic Image Filters。

電影 Delete My Photos，導演Dmitry Nikiforov使用了圖像編輯器Prisma。

圖源：Delete My Photos。

通過添加「濾鏡」，圖像產生了強烈的氣氛或感情，它很多時候也是讓某一攝影師營造出個人風格，並迅速產生大眾辨識度的關鍵元素。可以說，濾鏡的添加已經改變了攝影師的創作方式。不過，在傳統的濾鏡（再）創作中，風格所帶來的氛圍和情緒很少可以獨立於作品的內容存在，它像是一個主體之外錦上添花的附加物。

這引導我們思考圖像濾鏡與文本風格的關係。一方面，藝術濾鏡在圖像前後期處理中已經非常常見。AI對已有圖像進行濾鏡處理也已經達到了相當成熟的程度——不只是明暗、白平衡和色彩的調整，AI可以對圖像當中抽象的線條進行修改，對人和物的形態、筆觸的使用都進行再組織。但另一方面，在文本當中似乎還很難運用濾鏡。

劉宇昆在分享中也提到，文本似乎很難通過人工智慧生成和添加某種「風格濾鏡」。或許現有的互聯網生態已經完全由圖像作為主導，所以對文本的處理不再是資本最青睞的領域，但在此處，我們同樣好奇圖像與文本之間風格化的內生差異。

就像是圖像有「吉卜力風」、「賽博朋克風」、「復古風」這樣的說法，不同作家的文本和敘事顯然也有其強烈的美學風格。譬如我們會說「莎士比亞式的（Shakespearean）」、「卡夫卡式的（kafkaesque）」或「奧威爾式的（Orwellian）」，但相比於熱鬧的圖像濾鏡市場，為某段文本添加風格的AI處理仍然非常少見。

我們或許可以做一些猜想：對於AI開發來說，相比於圖像處理當中圖像和濾鏡的清楚疊加關係，文本的風格似乎不只是文本本身的附加物，而是本身就溶解在文本當中，無法簡單剝離出來。卡夫卡式的風格並不完全因為作者喜好用某種特定的詞語搭配，或者偏愛某種方言化的表達，而可以說，他營造出的那個世界，以及建立在其敘事上的人物的總體處境，構成了他那種獨一無二的風格。

相似地，奧威爾式的風格也不在於其遣詞造句的特殊性，而在於他對某種極權主義體制的理解和描摹。如果AI要通過大量學習這樣的文本，提取出「卡夫卡式的」或者「奧威爾式的」濾鏡，可以方便地將之套用在用戶給定的任意文本上，或許困難就在於，如何避免這樣的處理停留在膚淺的字句模仿上而顯得蹩腳。

但文學也並不是AI創作並未涉足的處女地。在文本當中，詩歌已經是相對成功使用AI和演算法的創作。

比較來看，虛構和非虛構的創作都要求作者把劇情或者思考縫合成一個可讀的、前後有理的整體，但詩歌似乎可以免去AI對這一步驟的努力。通過拆解和重組一些詞句，許多AI創作的詩歌會結合併不常見也並不常常並置在一起的意象，而其中的跳躍空間再度交還給人類閱讀者的想象力來完成。這反而能夠給人類作者帶來別樣的啟發。

不過，詩歌可能是在文字創作中更接近圖像創作方式的一個媒介。我們仍然好奇AI將如何在文學領域中邁進：它是否能夠像藉助圖像重塑我們看世界的方式一樣，藉助文字重塑我們講述的方式？通過深度學習，AI是否能改善元素之間鏈條式的序列感，在講故事的方面，擁有「莎士比亞式的（Shakespearean）」、「卡夫卡式的（kafkaesque）」或「奧威爾式的（Orwellian）」這樣的濾鏡？如果說AI畢竟更善於處理圖像，那麼電影、卡通、漫畫或者圖像小說的敘事是否會首先由AI掌握？

關於文字和圖像之間的關係，另一個值得思索的問題是我們開始創作的方式——我們介紹的幾個主要的AI圖像生成模型，仍然往往由一段人類輸入的文字形式的提示詞（prompt）開始，再由AI轉換為圖像。而這是否是一個最佳的，或者說最符合人性的方式？

我們知道，人類的圖像創作很多時候是從一個簡單的形態、一種模糊的感覺或者某個記憶中的行為片段開始的，它甚至無法形成清楚的文字描述，但畫家、導演等的圖像創造，正就從這種奇妙的朦朧中開始了。

前文提到的塞·托姆佈雷的作品就常給人帶來一種下意識隨手塗抹的感覺，他創作的開端接近一種先於語言甚至完整圖像的自然的行為。現在的AI圖像生成模型仍然把文字作為開端，這似乎也會為日後的藝術創作建構新的主流方式——但這只是一種理解，且非常工程師式的理解，而我們會否因此喪失對某種別樣的想象力的想象？

當然，目前也有通過繪製草圖來生成圖像的AI軟體，然而我們更為好奇的是，基於文字和圖像的更多元創作方式所能帶來的新的作品。

作者：張一然、李雅倫、陳飛樾；公眾號：沙丘研究所