不明覺厲的AI繪畫，對內容創作者來說有什麼用？

如今，AI繪畫進入了技術爆炸的時代，有關AI繪畫的爭議和論戰也越發激烈，那對於內容創作者來說，要如何理解AI繪畫？又有哪些應用場景和亟待探索的問題？本文作者與多位創作者就此進行了討論，並結合各平台的案例來分析，快來看看吧。

AI繪畫的發展速度已經超乎我們的想象了。

比如以下五張圖，你能看出哪一張不是用AI生成的嗎？

圖A：

圖B：

圖C：

圖D：

圖E：

（作品出處和答案見文末）

可能不少人會覺得驚訝，兩年前AI只能畫一些難以辨認的模糊圖片，如今，一個沒有繪畫基礎的人用AI輸入幾個關鍵詞，等待幾十秒就可以生成比較精細的作品了，如果再多加練習，部分作品甚至能達到商用的水準。

AI繪畫怎麼猛然進入技術爆炸的時代了？

從今年2月Disco Diffusion面世，4月MidJourney上線、DALL-E 2內測, 到5月和6月Google推出Imagen和Parti，再到7月Stable Diffusion內測、開源，各種AI繪畫技術迅速更迭升級，有畫師感慨幾乎是「一天一個樣」。

這股浪潮也從國外刮到國內，百度等互聯網大廠以及一大批藝術、人工智慧從業者和愛好者紛紛投入AI繪畫的新領域。代表平台有文心一格、6pen、Tiamat等等。

與此同時，有關AI繪畫的爭議和論戰越發激烈。近期出圈的一個事件是AI畫作《太空歌劇院》在美國科羅拉多州博覽會美術比賽中獲得「數字藝術/數字修飾照片」類別的最高獎項，結果受到畫師們的質疑和抵制。

對於內容創作者來說，當下要如何理解AI繪畫？又有哪些應用場景和亟待探索的問題呢？我們和多位創作者聊了聊，並結合各平台的案例來分析。

文章分為三部分：第一部分是對AI繪畫的基本原理和發展歷史的簡單科普，第二部分列舉了一些AI繪畫的具體應用案例，第三部分是探討目前AI繪畫存在的爭議和問題，希望對感興趣的朋友有所幫助，歡迎友好交流。

一、AI繪畫是素材拼貼？

首先，我們在這裡討論的AI繪畫主要是通過文本生成圖像的計算機程序，即「文生圖」（text2image）。

比如這張圖是在DALL·E 2上由文字「Teddy bears working on new AI research on the moon in the 1980s」（1980年代在月球上研究AI的泰迪熊）生成的。

稍微修改一下描述，把地點換成水下「underwater with 1990s technology」就能得到以下圖片：

可以看到，AI繪畫並不是對現有素材進行簡單的「縫合拼貼」，而是根據文字描述創建新的圖像，一定程度上做到了「舉一反三」，可以幫助人類畫出各種奇思妙想，這背後是大量而複雜的深度學習訓練。

讓我們從AI繪畫的技術發展史來初步認識一下文生圖的基本原理。

AI繪畫發展時間線，圖源「逗砂」

深度學習在計算機視覺領域的發展可以追溯到2012年，AI學者吳恩達和Jeff Dean等人的貓臉識別實驗（通過1000台電腦創造出多達10億個連接的「神經網路」，上萬張貓臉圖片的模型訓練后，最終畫出了一個模糊的貓臉），這意味著機器自主學會了識別貓的面孔。

此後科學家們在AI圖像生成的方向上繼續深入研究，提出了「GAN（生成對抗網路）」，通過生成器與判別器的互相博弈來不斷提升生成能力，就像有一位老師在檢查學生畫得像不像，不像的話學生就重新修改，如此循環。

對抗1000次與100000次後生成的圖像

2015~2020年，從GAN開始，AI繪畫模型進行了很多探索，但這個時候AI還做不到根據文字來生成圖片。

直到2021年1月，OpenAI接連發布了兩個連接文本和圖像的神經網路DALL·E和CLIP。CLIP（跨模態預訓練模型）基於大規模圖文數據集進行了對比學習訓練，可以提取文本和視覺特徵來互相匹配。也就是說，AI能夠將文字「貓」與貓的圖像相關聯，且關聯的特徵是非常豐富的。

在CLIP推出一年後，2022年2月，Somnai等幾個開源社區的工程師製作了一款AI圖像生成器Disco Diffusion（簡稱DD），它能理解輸入的主體內容、藝術風格、結構視角和修飾詞，且生成的圖片更華麗。DD作為免費開源項目搭載在Google Colab上，使用瀏覽器即可運行，AI繪畫從此走入了大眾視野。

Disco Diffusion默認畫作，輸入文字：A beautiful painting of a singular lighthouse, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Trending on artstation.”, “yellow color scheme”（一座奇異燈塔的美麗畫作，它的光芒照耀在洶湧的血海中，Greg rutkowski和Thomas kinkade風格，A站流行，黃色配色方案）

不過DD並不是「CLIP+GAN」的組合，而是「CLIP+Diffusion」，Diffusion（擴散模型）也是當下最熱門的圖像生成模型。

這個半路殺出的Diffusion有什麼不同？

可以看到DD圖片生成的過程是從模糊逐漸變得清晰。

每張圖像本質是一個像素點矩陣，Diffusion先是連續給圖像添加高斯雜訊，圖像變成了一堆隨機雜訊，然後通過逆向反轉這個雜訊過程來學習恢複數據。

Diffusion模型的的擴散過程和逆擴散過程

所以當我們在DD輸入一段文字描述時，程序以Diffusion隨機生成的雜訊為起點，CLIP會持續計算檢查畫面與描述的一致性，持續迭代修改，直到雜訊變成正確關聯的線條和色彩，從而生成滿足需求的圖像。

AI藝術研究者「FeiArt」認為，基於生成模型的AI繪畫是一個「有碼到無碼」的藝術。

雖然DD實現了文生圖，但因為是開源的，上手門檻比較高，光是滿屏的代碼可能就要勸退新手小白了。

「一開始要自己調整二三十個參數，以及編製比較合適的Prompt，才能畫出比較理想的畫面效果，對於使用者理解演算法邏輯和寫關鍵詞的要求非常高。不過現在的版本基本不用調參數，只要寫好關鍵詞就可以了。」數字藝術家「腦玩家mindplayer」向我們介紹了DD的使用體驗，她從今年3月開始在B站和小紅書分享AI繪畫作品和教程，是國內最早一批玩家。

DD出圈不到一個月，很快就有更成熟、門檻更低的產品出現了——Midjourney（簡稱MJ），目前社區成員超260萬。

MJ搭載在Discord上（國外流行的虛擬社交平台），是一個公開的社區，用戶加入后在聊天框輸入描述文字發送，群內的機器人會回復生成圖片。

每次默認會生成4張圖片，用戶可以點擊圖片下方的按鈕繼續深化（u1/2/3/4），或者在此基礎上生成同一風格、部分變化的圖片（v1/2/3/4）。

此時AI繪畫的質感和想象力已經展現出了一定的審美水平和藝術效果，上文提到的獲獎作品《太空歌劇院》便是由MJ生成的，作者在此基礎上進行了修改完善。

我們在谷歌趨勢搜索關鍵詞「ai painting」，可以看到近兩年的熱度迅速上升，尤其今年7月以來達到最高峰。

很大一部分熱度要歸功於Stable Diffusion（簡稱SD）。

「相比DD，MJ可能更突出作品的質量和獨一無二的深化交互。而SD就勝在超全面的風格和極快的速度，而且對新手來說比較友好，網頁版簡潔易上手，免費的用量也可以體驗不少的圖。」AI繪畫設計師「魚擺擺」說道。

SD新賬號可以免費使用200點數，每次生成根據畫面精細程度、張數等參數消耗不同的點數，最少1次1點。不過SD是完全開源的，用戶可以選擇線上或部署到本地來使用。

6pen最近在微博發起了快閃活動，用戶寫關鍵詞發微博即可體驗用SD生成圖片

SD出現后，AI繪畫的浪潮越發洶湧，多位創作者表示可能前兩天還在討論的功能，第二天就被開發出來了。

除了文生圖，如今以圖生圖（image to image）、圖像修復（inpainting）、圖像拓展（outpainting）等功能都已實現，AI繪畫也能駕馭國風、二次元等多元風格了。

DALL·E outpainting

Waifu Diffusion（二次元老婆生成器）

文心一格中國風畫作

Tiamat 國風管線

二、AI繪畫在內容領域如何應用？

在現階段，對於藝術、影視、廣告、建築、時尚、新媒體等創意行業從業者來說，AI繪畫正成為一個強大的助手，可以輔助日常工作，提高產出效率，降低時間和經濟成本。

比如「腦玩家mindplayer」使用AI輔助設計LOGO。原來的流程是先構思、手繪，再輸入電腦調整，中間可能還要跟其他同事配合，來回溝通會耗費不少時間精力，但有了AI的幫助就非常高效了，「我告訴AI我要做什麼，我們磨合一個小時活兒就幹完了」。

在AI基礎上進行優化，作品拿去商用也不是難事。

影視導演海辛在公眾號「全民熊貓計劃」分享了其公司將AI設計融入影視美術設計中的首次嘗試——「這街5·李承鉉隊長大秀」，工作流大致為Midjourney -> Blender -> UE虛擬製片。

他表示在極短的製片籌備時間內，AI創作大幅度地提高了效率，證明了AI投入到工業化使用是完全可行的。

除了輔助設計，AI也能激發創意靈感。像服裝博主「JINNY 」、婚禮策劃師「哎呀呀哎吔吔」使用AI生成的概念圖作為設計參考。

PPT設計師、藝術博主「Simon_阿文」經常分享AI行業資訊和實用工具，他嘗試用AI生成無縫紋理貼圖，設計素材的獲取變得更自由了。

數字藝術家、小紅書博主「對方正在畫圖」告訴我們，具體應用要看創作者的知識背景和prompt的寫作能力，不同行業背景的人寫出的詞、畫出的內容很不一樣。

這些從業者發布在網上的作品讓更多人看到了AI繪畫的可能性，非專業人士也躍躍欲試，希望大展身手。有觀點認為專業人士在AI繪畫上會更有優勢，用起來更得心應手，實際上這個優勢隨著技術迭代已經在縮小了。

「之前一個人從不會畫畫到能畫出漂亮的、可讀解的圖像，可能需要很多年的訓練。但是現在，有一個比較熟悉AI繪畫系統的人教你的話，可能兩三天就能學會大概的描述方法，再學習精進的時間成本降低很多了。」「腦玩家mindplayer」說道。

「人人都可以是藝術家」，我們列舉了幾個AI繪畫在內容領域的應用方向。

1. 有經驗的創作者可以用AI拓展新的內容題材，創新互動形式

「大谷Spitzer」擅長修復舊照片和視頻，現在他能結合AI繪畫與手繪來「還原」莫奈1875年繪製的印象派油畫《撐陽傘的女人》的寫實風格場景。

他通過選取多個局部區域用AI進行繪畫生成，再輔助以手繪進行修飾細節和完善銜接處，最終完成了這幅作品。

百萬粉航空媒體自由撰稿人、航空畫畫家白瑋，近期發布了自己用AI製作的漫畫，是賽博式的志怪題材。

隨著技術發展，創作者平台方面也將給予更多AI工具支持，新的內容玩法值得期待。

比如今年9月百度萬象大會上推出了「創作者AI助理團」，通過文心大模型、文心一格、圖文轉視頻等技術，為創作者提供「AI文案助理」、「AI插畫助理」、「AI視頻製作助理」，幫助創作者實現「一個人成為一支隊伍」。

2. 將AI圖片實體化等進一步變現增收

「魚擺擺」基於AI生成的作品做了很多領域的擴展和嘗試，比如實體化成為卡牌遊戲的卡片角色、拼圖、實體牆繪彩繪素材、文創產品等等，也有做AI繪畫教學課程。

「魚擺擺」供圖

此外，還有創作者將AI生成圖片進一步優化做成數字藏品，上鏈發售。

3. 擁抱「配圖自由」，嘗試自己生成符合內容的封面圖和插圖

公眾號「槽邊往事」從5月18日以來的封面圖基本是作者和菜頭自己用AI生成的，結尾附上了部分圖片的描述詞，他還在文章中分享了創作心得。

4. 二創門檻降低，UGC內容數量增多

現在入門AI繪畫越來越便捷了，新手不會寫關鍵詞，可以去愛好者創建的檢索網站和群內「抄作業」，SD也可以接入Photoshop插件，創作門檻更低了。

描述詞檢索網站lexica.art

藉助AI生成圖片的能力，不會繪畫的用戶有機會實現自己的奇思妙想，出於愛好做一些小說插圖、音樂MV、鬼畜玩梗等二創，從而跨入內容創作的大門。

UP主「哀榮四瀉」用AI為歌曲作畫

5. 延伸探索AI生成視頻

AI繪畫的下一步就是視頻。近期AI作品《烏鴉》獲得了2022年戛納電影短片節最佳短片，據作者Glenn Marshall介紹，這部作品將真人舞蹈視頻素材《Painted》輸入OpenAI的CLIP，然後系統根據描述「荒涼風景中的烏鴉畫」轉化為動畫。

UP主「自由雲朵」利用Disco Diffusion繪製，經由Topaz Video Enhance AI優化放大，復刻了周杰倫新歌《最偉大的作品》的MV，播放量達83萬，這是他B站投稿中目前播放最高的作品。

據百度文心方面介紹，AI生成視頻，是AI生成圖像的一種延伸。從技術本質上看，視頻可以認為是多張「圖片」，即視頻幀構成的序列，且序列上各幀之間有畫面、邏輯等層面的關聯。因此，從嚴格的技術抽象層面出發，AI生成視頻是相對更難實現的。

當前文生圖技術可以通過簡單的技術組合，例如分步驟擴散生成等方式，將生成圖像擴展到生成視頻，但效果還不能令人滿意。總結來說，AI按照生成圖像的方式生成視頻，仍處於前沿探索階段。

三、AI繪畫仍待探索的問題

AI繪畫的飛速發展也伴隨著許多爭議和問題。

「腦玩家mindplayer」表示，「AI繪畫作為一個工具可以迅速被應用，人人都可以畫出自己理想的世界，但是之後怎麼辦？這可能是行業內外的人都在思考的問題。」

藝術相關從業者擔心的是自己會不會被AI取代，因此失業。

今年8月，《大西洋月刊》文章中使用Midjourney創作的圖片作為插圖引發了大量爭議，如果媒體在未來大量使用AI繪圖，那麼插畫師、攝影師的生存空間會不會被擠壓，甚至行業都將覆滅呢？

的確，人工智慧的力量會對人們的生活帶來很大變化，未來技術普及后不可避免會取代一部分重複性較高的初級崗位，但「藝術已死」的說法真的與現實相符嗎？AI繪畫具有創造性嗎？

Midjourney創始人David Holz曾在每周三Office Hour時間，回答了這個提問：

創造力本身有很多的形式，如果說是將兩個不同的概念混合在一起，像是賽博朋克和洋蔥，也許歷史上從未有過做賽博朋克洋蔥的人類。在將兩個不同概念混合在一起的能力上，AI目前基本是人類的水平。但我認為藝術家不僅僅是關於圖像的產生者，藝術往往是關於故事和情感的，而AI沒有故事和情感，AI創作的影像的敘事來源於使用TA的人。

貝殼皆來自大海，但海洋非造物者。美石皆來自川河，但河流非孕育者。這套系統並無創造的能力，但美可以來自其中。AI繪畫本質如同行雲，TA並無任何主觀的意願。

雖然樂觀的從業者紛紛投入研究AI繪畫，但在行業上下游，受到衝擊的付費圖庫首先用行動表示了抵制。

近日，繼Newgrounds、PurplePort和FurAffinity后，圖庫服務商Getty Images禁止上傳、銷售使用AI生成圖片，這意味著由DALL·E、Midjourney和Stable Diffusion等工具生成的作品將無法上傳並獲得任何收入。並且，之前上傳平台的AI生成圖片也一概作刪除處理。

Getty Images首席執行官Craig Peters表示，該禁令是出於對AI生成內容合法性的擔憂以及保護網站客戶的願望，但他並未透露Getty Images是否因為銷售AI生成作品而面臨訴訟糾紛。

實際上，目前海內外關於AI生成圖片的合規性頗有爭議。

上文我們談到AI生成圖像的原理是深度學習了大量圖文數據，會抓取網路公開的他人作品，生成的圖片與訓練的作品相似，甚至有時還會混入原創水印痕迹，所以有觀點認為訓練庫涉嫌抄襲和侵權，部分從業者也公開表明禁止AI學習自己的作品。近期被抵制下線的日本AI繪畫平台micmic就是一個典型例子。

涉及到商業使用時，AI生成圖片的版權到底歸誰所有？這個問題不同平台都有各自的說法，具體還要看對應的版權說明。

有的平台表示屬於生成者，比如6Pen聲明不保留版權，生成的圖片版權都歸屬生成者，可隨意自用商用。有的屬於平台，有的完全開源，不屬於任何人。

根據Midjourney的服務協議，輸入prompt的人享有生成圖像的版權，但對於prompt版權的歸屬卻沒有定論。據觀察，現在業內已出現販賣文本prompt、AI洗稿的現象，還有甚者直接盜圖賣圖，一些壁紙號是重災區，所以許多創作者選擇不公開作品的prompt，標註禁止轉載和商用。

一般AI繪畫商用避免侵權的做法是增加獨創性，將AI作為輔助或基礎素材。「Simon_阿文」認為，如果有以下一種或者多種情況，建議不要商用：

當你使用了風格鮮明的藝術家作為關鍵詞時，請不要直接商用，尤其是在世的藝術家；
當你使用了某部商業作品作為關鍵詞時，請不要直接商用；
歡迎按照這個思路補充。

關於版權問題，百度文心方面表示對圖片版權非常重視，如果平台未來開放出來的生成圖片侵犯到原作者權益，百度會提供投訴反饋通道，為相關權利人提供權利救濟渠道，迅速處理。「AI文生圖的版權問題是國內外法律都在持續探討的方向，百度會跟進國內外發展情況，結合國內法律法規，有最新進展會更新給大家。」

此外，AI本身沒有價值判斷，只是提取訓練庫數據的特徵與人們輸入的數據相對應，當人們刻意輸入暴力、血腥、涉黃等敏感信息，或將生成的圖片用於虛構事實時，AI也可能隨之陷入倫理道德的困境。在這方面，DALL·E 2做了很多限制和干預，比如減少性別偏見的產生、防止訓練模型生成逼真的個人面孔。

人工智慧是個新興行業，可以看到相關的行業規範正在向前邁進。

10月1日起實施的《上海市促進人工智慧產業發展條例》立法確立了人工智慧產品和服務的行為底線，明確相關主體開展人工智慧研發和應用，應當遵守法律、法規規定，增強倫理意識，並不得從事相關禁止行為。比如禁止提供危害用戶人身或者財產安全、侵害個人隱私或者個人信息權益的產品和服務；禁止利用演算法技術實施價格歧視或者消費欺詐等侵害消費者權益的行為，實施壟斷或者不正當競爭等行為等。

縱觀內容生態的發展，大致可以分成四個階段：專業生成內容（PGC）、用戶生成內容（UGC）、AI輔助生產內容、AI生成內容（AIGC）。AIGC（Artificial intelligence-generated content）即通過AI技術來自動或輔助生成內容的生產方式。

圖源量子位智庫《AIGC/AI生成內容產業展望報告》

「未來十年，AIGC將顛覆現有內容生產模式，可以實現以十分之一的成本，以百倍千倍的生產速度，創造出有獨特價值和獨立視角的內容。」百度資深副總裁、百度移動生態事業群組（MEG）總經理何俊傑在2022萬象大會上說道。

可以預見的是，未來人工智慧將會深入影響各類內容創作領域，潘多拉的魔盒已然打開，痛苦與希望並存。

【答案：這五張圖分別出自作者「tarte」、「腦玩家mindplayer」、「陳麒宇」、「WLOP」和「撫光」，只有D「WLOP」未使用AI創作，WLOP是AI繪畫描述中經常被引用的知名畫師。】

作者：捲毛，編輯：張潔，校對：松露

來源公眾號：新榜（ID：newrankcn），專註互聯網內容領域的觀察報道，關心與內容產業相關的人和事。