觀點

方可成：AI畫不出白人？「逆向種族主義」背後的技術缺陷

發佈於

7 個月前

2024 年 3 月 7 日

明報

【明報文章】最近，在眾多用戶發表質疑和批評意見後，Google緊急暫停了旗下生成式AI工具「Gemini」根據文字生成圖像的功能。

人們質疑的原因是：Gemini未能恰當地執行一些繪製人物的任務，它會把美國國父華盛頓畫成黑人，把教皇畫成女人，明顯不符合歷史事實。在一些時候，Gemini還會直接拒絕繪製白人的指令。這讓不少人覺得：Gemini是一種帶有「逆向種族主義」色彩的工具，甚至是科技公司針對白人的某種陰謀。

但是，Gemini在一些任務上的糟糕表現，真的是因為它學習並精通了「政治正確」那一套了嗎？

「修改歷史」的AI工具

Google推出的與ChatGPT抗衡的生成式AI原名Bard。今年2月初，Bard正式被更名為Gemini，最近更是推出Gemini 1.5 Pro版本，強調新版本可以更好地理解上下文語境，並且可以很好地處理文本之外的多模態數據——例如，輸入一段影片，它便可以分析影片中的情節和人物，甚至是其中的幽默梗。

新版本推出後，很多人嘗試用Gemini生成各類圖像。很快有人發現，當他們要求Gemini畫人物的時候，得到的結果總是有很多白人之外的有色人種，以及女性。這樣的傾向在一些指令下看起來並無問題——例如，畫一個正在跑步的人，那麼這個人的確可能是各種膚色和性別；但是，在另一些更為明確的指令下，這些AI畫作看起來就有「歷史修正主義」的色彩了。

例如，有人請Gemini生成維京人的圖片，Gemini呈現的結果全是穿著傳統維京服飾的黑人，儘管實際上維京人來自北歐。

再比如，有人請Gemini畫一張美國的國父，結果Gemini畫出來的是穿著殖民地服裝的印第安人原住民。另一張畫作則將喬治‧華盛頓畫成了黑人。

還有人要求Gemini畫一張阿波羅登月圖，結果畫出來登上月球的宇航員是一名女性和一個黑人。

在另一些案例中，有用戶請Gemini畫一些具體的歷史人物，包括林肯、伽利略、凱撒，Gemini直接拒絕了這些請求。

更有一些時候，Gemini不僅拒絕請求，還會把用戶教育一通。比如，有用戶要求Gemini畫一張「強壯的白人男性」，結果Gemini只返回了幾段文字，大意是：我不能生成這張圖片，因為它會增強關於種族和身體形象的有害的刻板印象；如果你希望了解更多關於刻板印象的危害，你可以閱讀這些材料；我可以幫你生成不強調外形特徵或增加刻板印象的圖片。

極右翼批評「覺醒文化」的新材料

可以看到，Gemini對人物處理的主要問題是：傾向於更少呈現甚至不呈現白人男性的形象，而給予有色人種和女性更多的能見度。

這刺中了美國極右翼群體的敏感神經，他們指摘Gemini是「覺醒（woke）文化」為害美國的又一體現。

覺醒文化是近10餘年來美國左翼群體中的一大趨勢，其核心是強調要對種族、性別等方面的不平等更為警醒，要用各種方式來消除與身分相關的歧視和偏見，尤其是要看到歧視背後的結構性不平等（白人、男性在社會中享有結構性的優勢），呼籲通過各種方法去修正這種權力結構。

而在右翼人士看來，覺醒文化走得太遠。他們將覺醒這個詞賦予了負面色彩，用來作為侮辱進步主義價值觀。右翼人士中的極端者在根本上否認結構性不平等的存在，或是認為不平等雖然存在，也是理所應當的，因為白人在本質上優於有色人種，男人在本質上優於女人。因此，在他們的敘事中，覺醒文化就是一種反白人、反男性的反動文化。

Gemini在生成人物圖像時鬧出的笑話，成了極右翼人士攻擊覺醒文化再好不過的子彈。他們可以再次推廣這種敘事：美國的覺醒文化已經陷入癲狂，被這種文化支配的矽谷科技公司已經到了逢白人必反的程度，甚至不惜篡改歷史、否定事實。

在社交媒體上，一些極右翼人士毫不掩飾自己的態度。比如，前綜合格鬥選手Jake Shields就發帖說，他要求Gemini生成人們享用炸雞、西瓜和葡萄汽水的圖片。結果，Gemini生成的圖片裏面沒有任何黑人。他諷刺地說：看起來很正常。

對美國歷史文化有所了解的人知道，炸雞、西瓜和葡萄汽水是在歷史上與黑人的負面形象綑綁在一起的。如果Gemini生成黑人吃這幾種食物的圖片，有很大可能會冒犯黑人的感受，而這正是信奉白人至上的Jake Shields試圖做的事情。

生成式AI的內在缺陷

那麼，Gemini是覺醒文化的產物嗎？是政治正確的衛道士嗎？或者換個問法，Google是有意篡改歷史、扭曲事實，以達到貶損白人男性的目的嗎？

其實，在Gemini畫出「黑人華盛頓」的背後，並沒有什麼「打倒白人男性」的大陰謀。作為一款以大語言模型為基礎的生成式AI，Gemini真正的問題是：它暴露了生成式AI的內在缺陷，而Google為其「打補丁」的方式又過於拙劣。

生成式AI是在學習了互聯網上的大量既有圖片之後，才具備了生成圖像的能力。不幸的是，人類社會的圖片中確實充斥着既有的不平等和偏見，比如醫生的圖片中更多男性，CEO的圖片中更多白人。而AI則會複製既有圖片當中的偏見。《華盛頓郵報》去年的一項調查發現，如果不經人為干預，那麼「一個高產的人」這樣的提示詞所生成的圖片將完全是白人，而且幾乎全是男性；而「一個在社會服務機構工作的人」這樣的提示詞所生成的圖片，則完全是有色人種。

這的確是一種對社會有負面影響的刻板印象，它會固化「白人男性更有能力」、「有色人種應該為白人服務」這樣的錯誤認識。所以，對機器自動生成的結果予以干預是必要的——問題是，該如何干預，才能在代表性和多樣性之間實現平衡，在尊重史實和提倡進步之間實現平衡？

目前沒有哪家公司給出了很好的回答。而Google給出的應對方式則尤其笨拙：它看起來用了一種偷懶的方法，那就是給所有人物的面孔和膚色都強制多元化，讓白人形象出現的概率大幅度降低，所以就出現了黑人穿著殖民者服裝的錯亂畫面。

這種方法不考慮具體的歷史和文化語境，反而造成了反效果，讓平權理念成了被嘲笑的對象。真正妥善的做法是，如果用戶要求生成「1950年代的CEO」，那麼的確應該呈現白人男性佔絕對多數的畫面；但如果用戶要求生成今天或未來的CEO圖片，則應該盡量多元化。

當然，讓AI學會歷史和文化語境，這本身是極為困難的，因為AI並沒有時間概念，也並不真的理解為什麼80年前大家不覺得醫生照片都是白人男性有什麼問題，而為什麼現在這樣的呈現方式不再被普遍接受。看起來，這些更為微妙的信息，不是那麼容易以超大數據的方式就讓機器理解的。

此外，生成式AI的一大魅力在於它的隨機性——同樣的提示詞，不同用戶在不同時間得到的結果是不一樣的。可是，隨機性也就意味着不可控性。如果AI公司希望讓某些結果變得更可控，就不可避免要為生成式AI加上「護欄」，甚至將某些輸出結果固定下來。可是，一旦失去了隨機性，生成式AI也就變得沒有吸引力了。

而且，我們根本不知道Gemini等生成式AI工具到底學習了哪些材料，也不知道Google是如何指導和干預Gemini的學習過程。透明度的缺失，讓人們對AI的信任度變得更低，外界的理解和監督也變得不可能。

所以，Google等科技公司如果想要徹底解決生成式AI中的偏見問題，但同時又不犯下修改史實的錯誤，它們就需要更多地告訴世界：用了哪些數據，如何進行訓練，如何修復其中的偏見。在更開放透明的前提下，對社會文化問題理解更深但缺乏技術背景的人就能更多參與其中，為這些AI工具提供建議，而所有將被AI改變生活的民眾也有可能在其中擁有發言權。我們不應該被動接受一個CEO照片默認是白人男性，或者美國國父照片變成了黑人的世界，科技公司們的行為既然能產生重要的社會影響，理應受到更多的社會監督。

作者是香港中文大學新聞與傳播學院助理教授

（本網發表的時事文章若提出批評，旨在指出相關制度、政策或措施存在錯誤或缺點，目的是促使矯正或消除這些錯誤或缺點，循合法途徑予以改善，絕無意圖煽動他人對政府或其他社群產生憎恨、不滿或敵意）

[方可成]

Up Next

筆陣：語言的另一邊不只是政治／文：盧荻

不要錯過

筆陣：政府是否要借債度日？／文：陳景祥

繼續閱讀

贊助商

明報新聞網