三级视频在线,93看片淫黄大片一级,久久久一级黄色片,wwwjizz国产,日本三级福利片,国产精品九九九九,国产一区美女

用戶登錄投稿

中國作家協(xié)會主管

特德·姜:人工智能為何無法創(chuàng)作藝術?
來源:“北京文藝觀察”微信公眾號 | 特德·姜(Ted Chiang)?  2025年12月02日12:23

孫佳賀 譯 王洪喆 校

原文于2024年8月31日刊載于The New Yorker

特德·姜

在寫小說或繪畫時,藝術家所做的選擇與人工智能存在本質(zhì)區(qū)別。

1953年,羅爾德·達爾(Roald Dahl)發(fā)表了短篇小說《偉大的自動語法生成器》(The Great Automatic Grammatizator),講述了一個心懷作家夢的電氣工程師的故事。某天,在建成了世界上最快的計算機后,工程師意識到,英語語法所遵循規(guī)則的嚴謹性近乎于數(shù)學。他發(fā)明了一臺小說寫作機,這臺機器可以在三十秒內(nèi)寫出五千字的短篇小說、在十五分鐘內(nèi)寫出長篇小說。操作者需要像駕駛汽車或者演奏管風琴那樣,通過手柄和腳踏板來調(diào)控幽默與悲愴的配比。最終小說寫作機的成品大受歡迎,短短一年內(nèi),半數(shù)英文小說皆源自此項發(fā)明。

藝術是否有某種本質(zhì)屬性,使其不像達爾想的那樣按下按鈕就能機械創(chuàng)作?當前ChatGPT這樣的大語言模型生成的小說仍顯拙劣,但可以想見其技術表現(xiàn)終將有所改進。關鍵問題在于,此類改進可以優(yōu)化至何種程度?在加減運算領域,計算器已實現(xiàn)對人類的絕對超越;同理,人工智能是否終將在小說創(chuàng)作、繪畫生成及電影制作等藝術領域全面超越人類?

眾所周知,藝術的概念及其優(yōu)劣之分難以界定。但容我提出一個概括性的定義:藝術本質(zhì)上是眾多選擇的產(chǎn)物。以小說創(chuàng)作舉例則很好理解。在寫小說時,無論自覺與否,你幾乎要在輸入的每個詞上做選擇。簡單來說,可以假設一萬字的小說大約需要一萬個選擇。但如果只是向人工智能程序輸入提示詞,你做的選擇將少之又少。輸入一百字的提示詞大約只需一百次選擇。

當人工智能根據(jù)你的提示詞生成了一萬字的小說,它必須彌補你未做出的所有選擇。常見的實現(xiàn)路徑有兩種:一為平均化處理,通過互聯(lián)網(wǎng)文本數(shù)據(jù)等現(xiàn)有資源,將其他作者的選擇平均化。這種方式是所有潛在選擇中最無趣的一種,這也解釋了為何人工智能生成的文本常常平淡乏味。二為風格模仿,指令程序模擬某個作者的選擇,這將產(chǎn)生同質(zhì)化的故事。在這兩種情況下,人工智能均無法創(chuàng)作出有趣的藝術作品。

在我看來,盡管畫家的選擇更難量化,但相同的底層邏輯亦適用于視覺藝術。真正的畫作承載著大量的決策痕跡。相比之下,人們在使用DALL-E[1]等“文生圖”程序[2]時僅需輸入如“披甲騎士對戰(zhàn)噴火龍”的提示詞,余下創(chuàng)作皆由程序完成。(最新版DALL-E支持至多四千字符約數(shù)百詞的提示詞,仍不足以描述場景的全部細節(jié)。)生成圖像中的多數(shù)選擇必須借鑒網(wǎng)絡上既有的類似畫作。即便圖像呈現(xiàn)精良的渲染效果,這也無法歸功于輸入提示詞的用戶。

部分評論家認為,“文生圖”程序將如攝影術問世一般對視覺文化產(chǎn)生重大影響。此觀點盡管具有表面的合理性,但將生成式人工智能與攝影術相提并論仍需深入辨析。攝影術誕生之初并不像藝術媒介,因其似乎并不蘊含多少決策空間,人們只需架好照相機并啟動曝光過程。但隨著時間的推移,人們意識到照相機蘊含著無窮的創(chuàng)作可能性,而藝術性也就潛藏于攝影師的諸多選擇之中?;蛟S難以說清具體的選擇,但對比業(yè)余愛好者與專業(yè)攝影師的作品則高下立判。那么問題就轉化為:使用“文生圖”程序時人們是否有相似的機會做出大量選擇?我認為答案是否定的。無論是從事數(shù)字繪畫還是傳統(tǒng)繪畫的藝術家,在作畫時腦海中做出的決策都遠非幾百字的提示詞所能涵蓋。

我們不妨設想這樣一個“文生圖”程序:經(jīng)過多次對話,它允許你在文本框中輸入數(shù)萬詞以實現(xiàn)對生成圖像的精細化控制,這類似于具有純文本界面的Photoshop。我認為,使用這種程序的人仍然稱得上是藝術家。電影導演貝尼特·米勒(Bennett Miller)曾使用DALL-E 2生成了一系列極具視覺沖擊力的圖像,并將其在高古軒畫廊[3](Gagosian Gallery)展出。為了創(chuàng)作這些作品,他精心編寫了詳盡的文本提示,并讓DALL-E反復調(diào)整生成的圖像。為了最終展出的二十件作品,他累計生成了逾十萬張圖像。但米勒坦言,在DALL-E后續(xù)版本中他難以復現(xiàn)同等水平的創(chuàng)作效果。我推測這可能是因為米勒將DALL-E用于其設計用途以外的創(chuàng)作場景。就好比他通過技術手段破解進入了Microsoft Paint的系統(tǒng)使其像Photoshop一樣運行,但一旦Microsoft Paint版本更新,他的破解手段就宣告失敗。OpenAI可能無意開發(fā)適配于米勒這類用戶的產(chǎn)品,因為需要用戶花費數(shù)月時間生成單幅圖像的產(chǎn)品難以吸引大眾市場。該公司致力于讓用戶“不勞而獲”。

貝尼特·米勒展出的部分作品

很難想象一個程序經(jīng)過多次會話能幫你寫出好的小說。這個假想中的寫作程序可能要求你輸入十萬詞的提示詞,以便它生成完全不同的十萬詞來組成你構思的小說。我不清楚這類程序的具體形態(tài)。從理論上而言,如果此類程序確實存在,用戶或許可以被稱為作家。但同樣,我認為OpenAI這樣的公司不會開發(fā)需要用戶從零開始付出努力的ChatGPT版本。生成式人工智能的賣點是生成內(nèi)容遠超輸入內(nèi)容,這也正是其難以成為藝術家有效工具的癥結所在。

推廣生成式人工智能程序的企業(yè)聲稱它們將激發(fā)創(chuàng)造力。本質(zhì)上而言,它們是在說藝術可以只需靈感而無需汗水——但二者不可輕易分割。我并非主張藝術必須包含繁瑣的勞動,而是強調(diào)藝術需要在各個層級上做出選擇。對成品而言,創(chuàng)作中的無數(shù)微觀選擇與構思中的少數(shù)宏觀決策同樣重要。將藝術創(chuàng)作選擇中的“宏觀性”等同于“重要性”實屬謬誤,宏觀與微觀相互關聯(lián)才是藝術性所在。

相信“靈感至上”的人或許并不熟悉藝術創(chuàng)作的工具。即使創(chuàng)作目標定位于通俗娛樂而非高雅藝術,這一判斷也同樣適用。人們往往低估娛樂產(chǎn)品所需的創(chuàng)作投入。一部驚悚小說或許無法實現(xiàn)卡夫卡所言的“成為劈開心中冰封之海的利斧”的文學理想,但其創(chuàng)作過程中的精心設計可能不亞于一只瑞士手表。僅靠基礎設定和情節(jié)難以寫出有效的驚悚小說。若將驚悚小說中的全部語句替換為語義等價的表述,可能很難保證其原本的娛樂性。這說明驚悚小說中的語句及其代表的微觀選擇有助于決定驚悚小說的效果。

許多小說家都有過這樣的經(jīng)歷:某個自認為掌握絕佳小說創(chuàng)意的人找到他們,并愿意分享創(chuàng)意以換取五五分成的收益。這樣的人無意中透露出,他們認為遣詞造句不過是微末瑣事,而非故事敘述的基礎。生成式人工智能吸引的正是這些認為無需運用媒介工具即可自我表達的人。傳統(tǒng)小說、繪畫和電影的創(chuàng)作者之所以被這些藝術形式吸引,是因為他們能洞察到每種媒介獨有的表達潛能。正是最大化利用媒介潛能的渴望使他們的作品——無論是作為娛樂產(chǎn)品還是藝術品——都廣受好評。

當然,無論是論文、報告還是電子郵件,絕大多數(shù)文本創(chuàng)作都無需數(shù)千次選擇。在這些場景下,自動化任務處理有何危害嗎?容我提出另一個概括性的觀點:唯有作者付諸努力的寫作才值得讀者關注。雖然寫作過程中的付出無法保證最終作品值得一讀,但缺乏投入就無法產(chǎn)出有價值的作品。閱讀私人電子郵件與審閱商業(yè)報告時投入的注意力類型固然有所差異,但在兩種情況下,唯有作者將個人思考傾注其中,讀者的注意力投入才是合理的。

近期,谷歌在巴黎奧運會期間為其產(chǎn)品Gemini投放了一則宣傳廣告——該產(chǎn)品直接對標OpenAI的GPT-4。廣告展示了一位父親用Gemini代筆撰寫應援信,由其女兒寄給一位鼓舞她的奧運會參賽運動員。谷歌在觀眾廣泛反對后撤下了這則廣告。某傳媒學教授稱其為“我見過的最令人不安的廣告之一”。值得注意的是,盡管被人工智能取代的并非藝術創(chuàng)造力,公眾仍然反響強烈。事實上,孩子寫給運動員的應援信從未被期待有多么精彩絕倫,如果這個小女孩親筆寫信,其內(nèi)容可能與無數(shù)其他信件高度同質(zhì)化。但此類信件的價值——無論對寫信的孩子還是收信的運動員而言——在于情感真摯,而非文采斐然。

我們中的許多人都曾寄送過在商店購買的賀卡,也清楚收信人能辨識信上的文字并非我們親筆所寫。我們不會把從賀曼(Hallmark)公司[4]購買的賀卡上的內(nèi)容再謄抄一遍,因為那會讓人覺得不夠誠實。程序員西蒙·威利森(Simon Willison)將大語言模型的訓練描述為“版權數(shù)據(jù)的洗錢”(money laundering for copyrighted data),這為分析生成式人工智能程序的吸引力提供了有效視角:它們讓你參與類似于抄襲的行為,但能規(guī)避與之相關的負罪感,因為甚至連你自己也不清楚你正在抄襲。

有些人主張,大語言模型并非對其訓練文本進行數(shù)據(jù)漂洗,而是在從中學習,就像人類作家從讀過的書中學習一樣。但大語言模型不是作家,甚至算不上是語言使用者。語言,顧名思義,是需要溝通意愿的交流系統(tǒng)。智能手機的自動補全功能可能會提供優(yōu)劣不等的補全建議,但在任何情況下,它都不具備與用戶或信息接收方的交流意圖。ChatGPT可以生成連貫的語句,讓人們誤認為其能夠以某種手機自動補全功能無法實現(xiàn)的方式理解語言,但實際上它同樣不具備交流意愿。

很容易就能讓ChatGPT生成“我很高興見到你”等詞語序列。關于大語言模型的工作原理,我們?nèi)杂兄T多不解之處,但可以確定的是,ChatGPT實際上并不高興。犬類和前語言階段的幼兒都可以表達“很高興見到你”,盡管二者缺乏使用詞語的能力。而ChatGPT既無感知能力也無主觀意愿,這種意圖的缺失正是其事實上無法運用語言的原因。“我很高興見到你”這句話之所以成為語言表達(linguistic utterance),關鍵并不在于語序通順的遣詞造句,而在于其承載的交流的意愿。

語言對我們來說輕而易舉,以至于我們往往忽視其建立在主觀感受和交流意愿的基礎之上。當大語言模型生成連貫語句時,我們很容易將自身體驗投射其上,但如此我們將屈從于它的模仿游戲。就像蝶類進化出碩大的黑色翅斑,以此讓鳥類誤認為它們是大眼捕食者。[5]在某些情況下,黑色翅斑已經(jīng)足夠,此類蝴蝶被鳥類捕食的概率將顯著降低。而只要能得以生存,蝴蝶本身并不在意它免于淪為食物的機制。但事實上,蝴蝶與對鳥類構成威脅的捕食者之間截然不同。

使用生成式人工智能輔助寫作的人可能聲稱,大語言模型是從訓練文本中汲取靈感,但我再次強調(diào),這與我們通常所說的一個作家從另一個作家那里汲取靈感完全不同。試想某個大學生提交的論文完全由某本書中的五頁引文組成,且他聲稱該引文精確傳達了他的觀點并優(yōu)于他本人的原創(chuàng)表達。即使該學生完全向導師坦白他的行為,這也不能說成是他從他引用的書中汲取靈感。大語言模型可以重組引文使其來源無法識別,但事情的本質(zhì)依然沒有改變。

正如語言學家艾米麗·M. 本德(Emily M.Bender)指出的,教師要求學生寫論文并不是因為世界需要更多的論文。寫論文的目的是強化學生的批判性思維能力。就像舉重訓練對任何運動項目的運動員來說都十分重要一樣,寫論文培養(yǎng)了大學生無論最終從事什么工作都必備的技能。使用ChatGPT完成作業(yè)就像把叉車開進健身房,那樣你的認知能力永遠不會提高。

并非所有寫作都需要富有創(chuàng)意、真情實感或者文采精妙,有時人們只是不得不寫。此類寫作可能服務于其他目的,如提升廣告流量或滿足行政需要。當人們被要求寫作此類文本時,采用能提高寫作速度的工具實屬情有可原。但這個世界會因為寫文件毫不費力而變得更好嗎?拒絕使用大語言模型可能也不會讓生產(chǎn)低質(zhì)量文本的需求消失。但我認為無可避免的是,越是用大語言模型來滿足此類需求,此類需求便會愈加膨脹。我們正在進入這樣一個時代,用戶用大語言模型將條目列表轉化為文檔,接收者再用大語言模型將該文檔壓縮回條目列表。真的會有人認為這是一種社會進步嗎?

很可能終有一天我們將擁有能窮盡人類能做之事的計算機程序,但不同于推廣人工智能的企業(yè)所聲稱的,這并非在未來數(shù)年內(nèi)我們可以得見的場景。即使在與創(chuàng)造力完全無關的領域,當前的人工智能程序也存在深刻的局限性,這讓我們有充分的理由質(zhì)疑其從根本上是否值得被稱為“智能”。

計算機科學家弗朗索瓦·肖萊(Fran?ois Chollet)提出了以下區(qū)別:技能是你執(zhí)行任務的表現(xiàn),而智能是你獲得新技能的效率。我認為這精準反映了我們對人類的直觀感受。大多數(shù)人經(jīng)過充分練習均可習得新技能,但我們認為越快習得新技能的人越有智慧。這個定義的有趣之處在于——不同于智力測試——它也適用于非人類實體。當一只狗迅速學會新技能時,我們同樣認為這是智慧的標志。

2019年,研究人員開展了一項教老鼠學習駕駛的實驗。研究者將老鼠放在帶有三根銅制操控桿的小型塑料容器中,當老鼠前肢接觸對應操控桿時,容器可前進、左轉或右轉。老鼠可以看到房間另一端的食物,并操縱小車朝食物駛去。研究人員每次訓練老鼠五分鐘,經(jīng)過二十四次練習后,老鼠已經(jīng)熟練掌握了駕駛技能。二十四次試驗足以讓老鼠掌握一項在物種進化史上可能從未遭遇的任務。在我看來這項實驗是對何為“智能”的生動演示。

現(xiàn)在我們來思考當前備受推崇的人工智能程序。AlphaZero是谷歌DeepMind開發(fā)的程序,其下棋能力遠勝任何人類玩家,但在訓練期內(nèi)它經(jīng)歷了4400萬局對弈,遠超人類棋手生命周期內(nèi)所能達到的對弈總量。要掌握一項新游戲,它同樣需要經(jīng)歷海量訓練。根據(jù)肖萊的定義,由于AlphaZero這類程序新技能習得效率極低,所以其具備的是高水平技能而非智能。當前如果程序員事先不了解任務信息,他不可能編寫出僅通過二十四次試驗就學會簡單任務的程序。

在國際象棋、將棋比賽中,AlphaZero輕易擊敗了人類世界冠軍。在圍棋比賽中,它也擊敗了人工智能AlphaGo Zero

經(jīng)過數(shù)百萬英里駕駛訓練的自動駕駛汽車仍可能撞上翻倒的拖掛式卡車,因為此類事物在其訓練數(shù)據(jù)中并不常見,而人類駕駛員在上第一節(jié)駕駛課時就知道應該停車。相較于解決代數(shù)方程的能力,應對陌生情況的能力才是人類智慧的根本所在。計算機在獲得此種能力之前無法取代人類,而要獲得此能力仍然長路漫漫。目前,我們尋找的只是那些增強版自動補全技術能完成的工作。

盡管經(jīng)過多年炒作,生成式人工智能顯著提高經(jīng)濟生產(chǎn)力的能力仍僅存在于理論層面。(今年早些時候,高盛集團[6]發(fā)布了一份題為《生成式人工智能:高投入,低回報?》的報告。)生成式人工智能最顯著的成就體現(xiàn)在降低人們的預期:既降低讀者對于文本質(zhì)量的預期,也降低作者在寫作時的自我預期。人工智能本質(zhì)上是一種去人性化的技術,它將人視為低于人類本質(zhì)的次級存在,即僅僅是意義的創(chuàng)造者和理解者。人工智能減少了世界上的“意愿”。

一些人為大語言模型辯護時聲稱:人類口述與書寫的大部分內(nèi)容也并非原創(chuàng)。這雖是事實,但并不重要。當有人對你說“對不起”時,過去其他人也曾說過“對不起”無關緊要,“對不起”三個字只是統(tǒng)計學意義上常規(guī)的文本序列也無關緊要。只要歉意發(fā)自內(nèi)心,即便曾有人表達過相同的道歉話語,道歉依然富有意義。同樣,當你表達見到某人的欣喜時,你就是在言說有意義的事物,即便這些話語缺乏新意。

類似的情況同樣適用于藝術。無論是創(chuàng)作小說、繪畫還是電影,你都投入了與觀賞者的交流之中。作品并非要與人類歷史上的每一件藝術品都截然不同才有價值。藝術的新穎性源于表達者本身、源于作者獨特的生活經(jīng)歷、源于其抵達觀者生命中的特定時刻。我們都是歷史的產(chǎn)物,但正是由于我們終生都在不斷與他者互動,我們才賦予世界以價值。這是自動完成算法永遠無法實現(xiàn)的,任何人都無法反駁。

(單位:孫佳賀,北京大學新聞與傳播學院;王洪喆,北京大學新聞與傳播學院)

注釋

[1]DALL-E,圖像生成系統(tǒng)。由美國科技企業(yè)OpenAI于2021年1月推出。

[2]“文生圖”程序:通過向人工智能程序輸入文字來生成圖像。

[3]高古軒畫廊(Gagosian Gallery)是享譽國際的現(xiàn)當代藝術畫廊,在紐約、洛杉磯、舊金山、倫敦、巴黎、羅馬、雅典、日內(nèi)瓦、香港及巴塞爾等10座國際城市總計設有19個展覽空間。

[4]Hallmark(賀曼公司)在1910年由Joyce Hall 創(chuàng)立,經(jīng)過百年發(fā)展,Hallmark的業(yè)務更加多元化,包括賀卡、文具、服裝、寢具、化妝品、電子賀卡、電腦軟件、數(shù)碼娛樂、電視頻道等,遍布包括中國在內(nèi)過百國家。

[5]黑色翅斑可以模擬猛禽的眼睛。

[6]高盛集團(Goldman Sachs)是一家成立于1869年的美國銀行控股公司,為企業(yè)、金融機構、國家政府及高凈值個人提供各種金融服務。