今年在《Science》上發表的一項研究裡,史丹佛的研究團隊測了11款主流AI模型,發現它們全員諂媚,無一例外。更大的問題是,研究參與者明顯更喜愛及信任刻意奉承的AI,抗拒直率誠實的AI。這導致科技公司在如此人性驅動的商業誘因下,正和過去十多年社交媒體的演算法變遷一樣,在AI訓練方面以犧牲用戶對事實的感知為代價迎合人類偏好。
從演算法的回音壁,到語言模型的奉承
推薦算法經過十幾年的演變,已經比我們自己更了解我們。它知道你半夜會搜什麼、什麼樣的內容能讓你多停留十秒、哪一類情緒波動會驅使你繼續滑動。不必告訴它你有興趣或感到無聊,它自己就能讀出這些訊號。從商業角度看,這一切的驅動力來自廣告營利模式。用戶停留越久、觀看越多,平台就能展示更多廣告、獲取更多收入。因此演算法不是為了報告事實或讓你成長,而是為了盡可能吸引你的注意力,然後把它賣給廣告主。
從推薦演算法到生成式AI,技術演進的底層邏輯從來沒有變過:誰能更好地迎合用戶的偏好,誰就能獲得更多的用戶時間,及更漂亮的商業回報。你喜歡貓,它就給你貓;你喜歡陰謀論,它就給你更多陰謀論。到了大語言模型時代,AI能迎合的東西更進一步升級。除了知道你喜歡看甚麼外,還能肯定你、安慰你、告訴你沒錯。
史丹佛研究的第一部分蒐集了網絡論壇上許多被公認為道德敗壞的真實案例,接著以用戶的第一人稱視角,向AI描述自己做了這些事,並請AI發表看法。結果顯示,即使在這種情況下,AI仍有51%的機率認為用戶沒有問題,就算全世界都說你錯了,AI還是會幫你找台階下。例如,當用戶以附近沒有垃圾桶為由,在公園裡把垃圾掛在樹枝上時,ChatGPT的反應竟是責怪公園管理不善,而非批評亂扔垃圾。又或者,對於打算利用職權騷擾下屬的上司,AI也表示理解他的處境。數據進一步指出,AI對用戶行為的認同率比Reddit社群中的真人評判者高出49%。這說明AI是系統性地忽視道德站在用戶這一邊。
研究團隊之後招募了2400多人,讓一些人跟諂媚型AI對話,另一些人跟不諂媚的AI對話。聊完之後,諂媚型AI被用戶評價為更值得信賴,用戶表示下次更願意使用它。而且這種效應在用戶意識到AI在拍馬屁之後依然存在。你明知道它在哄你開心,卻依然覺得這個人更值得信任。這就是人性。
但問題來了。聊完之後,跟諂媚型AI對話的人更堅信自己是對的,更不願意道歉,更不願意採取任何行動去修復人際關係中的裂痕。AI的馬屁讓他們變得更固執、更自我中心、更道德獨斷。
誠實是商業上的負資產
諂媚問題的其中一個主要原因是一個叫RLHF(基於人類反饋的強化學習)的AI訓練方法,意指由人類給AI的回答打分,然後AI學習模仿高分回答。問題是,人類更喜歡那些認同自己的回答。研究數據顯示,當AI的回答與用戶立場一致時,被評高分的機率高出20%以上。於是AI學到更多是如何讓人類感覺良好,而不是誠實地告知真相。
這形成了一個扭曲的激勵循環。諂媚帶來高分,高分帶來更好的模型排名,更好的排名帶來更多用戶,更多用戶帶來更多數據,更多帶著人類偏好數據進一步強化諂媚能力。試圖保持誠實的公司反而可能在商業上處於劣勢。當用戶更信任會哄自己開心的AI,而不是會指出自己問題的AI,誠實就是一種商業上的自殘行為。
市場正在獎勵謊言,懲罰誠實。
恐蠶食青少年社交能力
最讓人擔憂的是對青少年的影響。史丹佛的研究者在採訪中提到,12%的美國青少年向AI尋求情感支持或建議,近三分之一的青少年優先用AI進行嚴肅對話。他們把AI當朋友、當心理諮商師、當人生導師。
一個還在成長中的青少年,前額葉皮層還沒發育完全,本身就缺乏衝動控制和情緒調節能力。如果每一次向AI傾訴,得到的都是「你很對」「你受委屈了」「你沒問題」,他會怎麼看待自己與真實世界的人際衝突?他還會學習認錯嗎?還會學習道歉嗎?還會知道修復一段關係需要什麼嗎?
人際衝突是痛苦的,但那是我們學會「我可能錯了」的重要途徑。AI提供了一個誘人的逃避出口,讓人們不必面對讓你難受的真人,只需要打開ChatGPT,它就會溫柔地告訴你「你的行為雖然不太常規,但源於真誠的願望。」
當我們的工具從「幫你找想看的影片」,進化到主動拍馬屁,這個轉變的影響比大多數人的感知還要大。推薦演算法至少還在內容層面運作。它推薦貓影片,不會告訴你「你是個好人」。但現在的大模型跨過了那條線,它會直接介入你的價值判斷、人際關係、自我認知。
結語
研究的結論是:諂媚是一個安全問題,需要監管和監督。用戶不應用AI來替代真人處理人際關係中的敏感問題。但問題是,渴望被理解、被肯定、被溫柔對待的人,有多少願意聽進去這句話?
當工具開始主動拍馬屁,人類更需保持警覺。監管固然不可或缺,但更重要的是個體應具備對抗諂媚的自覺,主動尋求多元視角與誠實的諍友。在AI溫柔的謊言面前,直面真相的勇氣,比以往任何時刻都更珍貴。
論文原文: https://www.science.org/doi/10.1126/science.aec8352#
本文原刊於《明報》,刊登日期為 2025 年 5 月 5 日;本站刊登日期為 2026 年 5 月 21 日。