從點到線的歷史脈絡
賈伯斯曾說過一句深具哲理的話:「你無法展望未來時就把點連起來,只有回顧過去時才能看清脈絡。」這句話精準地描述了當前AI發展的關鍵轉折點。當我們回望過去十年的AI演進軌跡,從深度學習的突破、Transformer架構的誕生、大語言模型(LLM)的崛起,到強化學習(RL)與推理能力的結合——所有看似獨立的「點」正在連成一條線,指向一個出乎意料的方向。
這個方向並非單純的「AI變得更聰明」,而是更深層的範式轉移:「我們需要變得更有想像力」。技術能力的提升已經不再是最大的瓶頸,真正限制AI發揮價值的,反而是我們對於「AI應該解決什麼問題」的想像力匱乏。

技術發展的三大階段性突破
第一階段:深度學習與Transformer革命
2017年,Google研發團隊以論文《Attention Is All You Need》具體呈現了Transformer概念——這項創新引發了當今所有生成式AI革命的核心架構發展。然而諷刺的是,這篇足以納入AI發展史的史詩級文獻,其八位共同研究員在發表後竟然全部選擇離開Google自行創業,將技術種子播撒到整個科技圈,造就了現在AI領域如繁花盛開般的多元生態。
其中的Łukasz Kaiser甚至加入了OpenAI,成為GPT-4研發團隊的核心成員之一。這群「功臣」的離開,讓Transformer技術不再被封閉在單一企業的圍牆內,而是轉化為推動全球AI爆發的養分。這個現象本身就揭示了一個重要真相:當技術的價值無法在既有組織框架內充分實現時,人才的流動將成為推動創新擴散的最強力量。
第二階段:大語言模型與先驗知識的重要性
一個反諷的歷史轉折正在發生。強化學習研究者曾經幾乎只關心「演算法」——從REINFORCE、Google發展的DQN,到OpenAI反擊的PPO、TRPO,經典教科書用整本篇幅討論演算法,對「環境」和「先驗知識」幾乎隻字不提,彷彿只要演算法夠聰明,在任何環境都能學會任何事。
然而現實狠狠打臉了這個信念。OpenAI最初的計劃很宏大:先建立標準的RL環境(Gym),再把整個網際網路和電腦操作變成遊戲環境,然後用聰明的RL演算法征服數位世界。計劃聽起來完美,執行起來卻處處碰壁。AI確實學會了打Dota、操控機械手解魔術方塊,但始終無法泛化到網頁瀏覽或通用的電腦操作。
直到GPT-2、GPT-3出現,拼圖才突然完整:最重要的不是RL演算法或環境,而是先驗知識。大規模語言預訓練把人類的常識和知識蒸餾進模型,這才讓AI具備真正的泛化能力,誕生了WebGPT和ChatGPT這類改變世界的應用。這個突破證明了:在AI發展中,「知道什麼」往往比「如何學習」更為關鍵。
第三階段:推理能力的革命性突破
更神奇的是「推理」(reasoning)角色的轉變。AI學會了「先思考、再動手」。過去的AI就像一個只會聽指令的機器人,你叫它「向左走」或「打開3號箱」,它就照做,這叫「直接行動」。但人類玩遊戲時不是這樣的,我們會先在腦袋裡打草稿:「這裡看起來很危險,我手空空的,應該先找把劍。寶箱通常有武器,去開那個箱子看看。」
這種「腦袋裡的對話」其實是一種奇特的心理行動——雖然沒有真的搬動任何東西,卻讓行動變得充滿可能性。以前的理論認為,讓AI沒有立即動作而是浪費時間去「自言自語」不符合效率。但事實證明,當我們將「語言推理」納入AI的行動範疇後,奇蹟發生了:它不再是那台只會死記硬背、按鈕才動的機械,而是擁有了舉一反三的泛化能力。
這就像是為AI插上了雙翼,讓它從原本只能在地面摸索的「開箱機器」,蛻變成能俯瞰全局、冷靜應對未知挑戰的智慧大腦。「泛化能力」是衡量一個模型是否「真的學會了」,還是只是「死背答案」的終極指標。用最簡單的話來說,泛化就是「舉一反三」的能力。
思考透明化:從黑盒到可信夥伴
人類「腦袋裡的對話」在AI上重現後,「自我對話」的思考模式,在當前的「深度思考」模型(如Gemini 3 Pro)中被發揮得淋漓盡致。現在,AI在接收指令後不再急於盲目出手,而是會先與使用者溝通:它會主動陳述「對任務的理解」,並細緻地列出「即將採取的運作步驟」。
這就是思考透明化帶來的革命。它揭開了AI那層神祕的面紗,將冷冰冰的運算過程轉化為人類可理解的邏輯。在2025年的Google反擊戰中,Gemini 3 Pro不再只是丟給你一個答案,然後讓你祈禱它是對的。它會謙卑地攤開所有的推論步驟,請使用者確認。這種透明度,讓AI從一個讓人不安的技術奇點,變成了人類可以完全信賴、並肩作戰的夥伴。
因為最強大的力量,往往來自於最強大的可解釋性。這種「思考透明化」的過程,讓使用者能在行動展開前進行最後確認。這不僅大幅降低了出錯率,更讓人類與AI的關係,從單向的「發號施令」進化成了雙向的「策略協作」——我們看見的不只是結果,而是智慧流動的過程。
優先順序的歷史性顛倒
結果是什麼?過去RL研究者最在意的「演算法」,反而變成最次要的部分。先驅知識(語言預訓練)和環境設計(加入推理行動)遠比演算法本身重要。數十年的優先順序完全顛倒了。
這種轉變也解釋了為什麼Anthropic的Claude或Google的Gemini越來越像人類的資深特助。因為它們不再只是單純的「運算工具」,而是具備了先驗知識與自我修正意識的智能體。Google的強大,在於它為Gemini注入了前所未有的深厚先驗。這不只是塞進去多少數據,而是讓模型在面對一個全然陌生的問題時,能像經驗豐富的冒險者一樣,憑著「直覺」推導出最可能的路徑。
當OpenAI的模型還在依靠算力強行突破時,Google已經學會了如何透過高品質的先驗知識,讓AI具備了真正的文明底蘊。這場競賽,已經從「誰讀得多」變成了「誰的先驗更接近真理」。
下半場的核心定義
當我們眼前不斷驚嘆於各項AI工具迭代躍進於眼前時,抬頭回望這段歷史發展,一切脈絡都變得更為清晰:每個看似獨立的突破——語言預訓練、規模擴展、推理能力——其實都是通往同一個終點的必經之路。而這個終點告訴我們:未來的競爭不在於誰的模型更精巧,而在於誰能看見那些我們還沒學會提問的問題。
這正是AI「下半場」的本質含義。上半場是技術突破的時代,是演算法創新、模型架構優化、算力提升的競賽。但下半場,當這些技術能力逐漸趨同、逐漸成為標準配備時,真正的競爭力將來自於「定義問題」的能力——發現那些AI可以創造巨大價值、卻尚未被正確定義和評估的領域。
AI已經擊敗了圍棋世界冠軍、通過了律師資格考試、達到了數學奧林匹克金牌水準。然而世界沒有被明顯改變,至少經濟數據上沒有。這揭示了一個根本問題:我們的評估設定與真實世界的需求設定,在許多基本面向上是脫節的。
下半場的遊戲規則是:開發新的評估設定或任務,反映真實世界的效用;然後用現有配方解決它們,或在配方中加入創新元件,持續循環。這比上半場困難得多,因為沒有明確的勝負判準,沒有排行榜告訴你做對了。但這也更令人興奮:上半場的玩家在解考題和打電玩,下半場的玩家在建立價值數十億甚至數兆美元的公司,創造真正改變人類生活的產品。
歡迎來到AI的下半場——一個技術不再是瓶頸,想像力成為稀缺資源的新時代。