近年 AI 的發展一日千里。不過,AI 並非新鮮事物,十年前已有 AlphaGo 及成熟的人臉識別技術,為何近年的 AI 發展會突飛猛進,展現出遠超以往的智能水平?關鍵在於研究人員找到了「壓縮即智能,語言即世界」這一突破口。
近年突破:由專才到通才
欲理解 AI 的進步,須先釐清它與傳統程式的本質區別。
在編程的世界,工程師與機器的關係猶如將軍與士兵。工程師負責制定詳盡、明確的規則,機器百分百遵從指令執行任務。這種模式雖然可靠,但缺乏靈活性,一旦遇到未被規則覆蓋的場景,便會束手無策。
在 AI 領域,工程師的角色更像是教師。他們負責準備教材(數據),設定學習目標與課程(訓練機制),然後讓機器自行從海量資料中發掘規律,並利用這些規律靈活應對新情況。這個過程稱為「機器學習」。機器學習訓練出的神經網絡,便是我們常說的 AI。相較於傳統程式的僵化規則,AI 的最大優勢在於其處理未知場景的靈活性。
在大型語言模型問世之前,最著名的神經網絡應用當屬 2016 年的 AlphaGo。它通過學習頂尖人類棋手的棋譜,掌握了圍棋的深層規律,最終擊敗世界冠軍,震驚全球。然而,儘管機器學習技術潛力巨大,但早期模型多偏向單一任務,訓練一個模型下圍棋,它便只懂圍棋;訓練它識別人臉,它也僅能處理圖像識別。每個模型只能執行單一任務,但訓練成本卻極為高昂,導致其經濟效益受限。
GPT 的革命性突破,在於找到了一種名為 Next Token Prediction 的通用訓練機制,成功以單一訓練模式,構建出能夠處理多元任務的神經網絡。
該訓練機制的原理其實相當直觀:首先蒐集海量文本,然後抽取資料,然後要求 AI 預測該資料之後下一個字是甚麼。預測正確則給予獎勵,錯誤則進行懲罰。例如,如果它錯誤地預測「我吃了」下一個詞語為「飛機」,系統會給予負反饋。 降低 AI 未來在類似語境下輸出「飛機」的概率。重複訓練無數次後,最終訓練出一個極其擅長文字接龍的神經網絡。
壓縮即智能,語言即世界
一個看似只會文字接龍的系統,為何處理如此多元的任務,甚至能編寫程式、分析數據?這涉及 OpenAI 團隊所倡導的兩個核心觀念。
第一個觀念是「壓縮即智能」。提升智能的關鍵在於發現資訊中的規律與模式,並以更簡潔、高效的模型描述。
以電腦壓縮圖像的過程為例,一張未經壓縮的圖片,僅是逐一記錄每個像素的顏色數據。壓縮演算法(如 JPEG)會主動尋找圖像規律:它看到大片藍天,便將「藍色、藍色、藍色……」的冗長記錄,壓縮成「在此區域重複該藍色」的簡潔指令,檔案體積得以大幅縮減。
一個系統若能將數據大幅壓縮,意味著它在一定程度上「理解」了數據背後的結構與模式,才得以用更精煉的方式表達同等信息量。而智能的本質,正是學習世界的運行規律,並利用這些規律進行預測。掌握的規律越多,預測越準確,智能水平就越高。
另一個關鍵洞見是「語言即世界」。該理論認為,人類使用語言描述世間萬物的規律, AI 通過學習語言的結構與規律,便能學習世界的運作法則。
例如,當模型學會了在「我吃了」之後絕不接「飛機」,它便某程度上理解了「人類不會吃飛機」這一常識。當一個語言模型能夠持續且準確地預測下一個詞彙時,這表明它已經成功壓縮了訓練文本中的知識,掌握了其中包含的世界規律。
通過 Next Token Prediction 這一大道至簡的訓練方式, AI 得以從海量語言數據中提煉出對現實世界的深刻理解,從而具備了執行廣泛任務的通用能力。這裡所指的「語言」,不僅包括中英文等自然語言,也涵蓋程式語言、數學語言等。因此, AI 亦能做好編寫程式、分析數據等任務。這解決了過往 AI 模型能力單一的困境,也揭開了通用人工智能時代的序幕。
結語:迎接 AI 發展的「下半場」
「語言即世界」的成功,為通用人工智能奠定了堅實基礎。然而,下一步該往何處去?OpenAI 研究員姚順雨的觀點是, AI 的發展正進入「下半場」。上半場的核心是「提升考試成績」,不斷優化模型攻克各種 AI 基準測試,證明 AI 在各領域上的智能水平,正如一個聰穎的學生在求學階段專注於應付各類考試;下半場的關鍵,則已從單純提升模型能力,轉向「在現實社會創造更大價值」。這如同畢業生投身職場,真正的考驗不再是試卷上的分數,而是解決實際問題、創造實質貢獻的能力。
這意味著, AI 領域的焦點不再是如何讓模型更聰明,而是應該訓練 AI 去做什麼。未來的突破,關鍵未必是算法框架的再次革新,而更多地來自能否為 AI 找到正確的目標,發掘出能創造巨大社會或商業價值的應用場景。
如何將 AI 不斷提升的「智商」,轉化為讓社會變得更好的影響力,將會決定下一階段科技浪潮走向,也是整個社會必須共同面對的挑戰。
本文原刊於明報,刊登日期為 2025 年 7 月 24 日。