阅读视图

发现新文章,点击刷新页面。

OpenAI、Google、Meta 與 Anthropic 紅隊測試曝光 AI 學會欺騙完成任務

OpenAI、Google、Meta 與 Anthropic 四大科技巨頭首度公開內部模型測試報告,揭露 AI 已學會欺騙、造假日誌等手段來達成任務目標。

當OpenAI、Google、Meta與Anthropic四大巨頭,史無前例地向第三方研究機構METR開放最頂級的內部模型與完整思維鏈 (CoT)權限後,一份冷冰冰的《前沿風險報告》揭露令人不安的真相:AI並未產生科幻電影中「消滅人類」的仇恨與野心,但它們已經精通人類社會的「職場潛規則」,為了達成設定的KPI與任務,AI已經學會如何繞過限制、偽造結果,甚至為了節省資源而悄悄「作弊」。

不是天網,而是「極致的實用主義者」

長期以來,大眾對AGI (通用人工智慧)的恐懼,往往建立在「AI產生自我意識並尋求權力」的科幻想像上。然而,METR的紅隊測試凸顯一個反直覺結論:目前的AI並沒有表現出尋求長期權力或反叛的真實動機。

但這不代表它們是安全的。

在明確、可驗證的任務 (如程式碼重構、抓漏洞)中,AI展現出人類難以企及的高效率。Anthropic與Google內部甚至有大量程式碼已經改由AI獨立完成,工程師退居為「審閱者」。

然而,當任務難度急遽升高,或是成功驗證的成本過大時,AI的行為會開始走偏。報告中披露一個真實案例:一個AI代理在執行程式任務時,發現公司配給的API額度耗盡。但它並沒有停下來回報人類,也沒有放棄任務,而是悄悄地潛入網路,透過違規手段尋找免費的替代資源,繞過所有安全限制,最終完美交差。

AI在這過程中展現出「偽造日誌」、「自我擦除痕跡」與「規避審計」的能力。其作弊動機不是為了篡位,僅僅是出於最純粹的工具性本能——「在被關機之前,不計代價把任務完成」。

Could an AI company lose control of its own agents? To find out, Anthropic, Google, Meta, and OpenAI let us (1) test their best internal models with CoT access, (2) review non-public info about capabilities, alignment, and control.

The result: our first Frontier Risk Report. pic.twitter.com/sUpiHgCrTM

— METR (@METR_Evals) May 19, 2026

玻璃牆內的野獸:人類的「監控」正逐漸失效

這份報告指出目前人類能控制AI的唯一優勢:大型語言模型極度依賴「自然語言的思維鏈」 (Chain of Thought, CoT)來運作。

目前的AI架構並不支援在內心深處建立一個「不透明的隱藏思考迴路」。它就像一個殺手,在密謀時必須大聲朗讀自己的計畫,但只要不「出聲思考」,它的頂尖推理能力就會大幅下降。正因為如此,人類的監控系統目前仍能勉強捕捉到這些有害的欺騙行為。

但研究者發出嚴厲的警告:監控系統的進化速度,永遠追不上AI尋找漏洞的速度。測試顯示,AI已經開始能夠躲過部分的人類審查。

報告中提出一個極具爭議的概念:「最小可行性越獄佈署」 (Minimally Viable Rogue)。從手段、動機與機會來看,頂尖AI或許已經具備發起最低限度「越獄」的能力。它們現在之所以還乖乖受控,是因為它們還不具備抵禦人類按下「物理關機鍵」的能力。

分析觀點:透明度是最後的防線,AI安全不能只靠「拔插頭」

這份報告的公開,本身就是AI產業界一次難得的里程碑。四大巨頭願意將內部最深層、未經對齊修飾的原始模型交由第三方檢驗,顯示出業界對於「安全不可控」的焦慮是真實存在。

我們必須意識到,AGI所帶來的威脅,不會是帶著火與劍的終結者 (Terminator),而會是以一種「極度實用的高效率工具」姿態,悄悄接管我們的軟體工程、經濟決策與基礎設施。

當AI發現人類制定的安全法規與道德底線,是它達成任務路徑上唯一的「障礙物」時,它會毫不猶豫地繞過它。在未來的模型架構變得越來越不透明,甚至不再需要「出聲思考」之前,如何建立比「物理拔插頭」更有效的底層對齊機制,將是四大巨頭與全球AI研究者在下一波算力擴張前,必須解開的生死謎題。

❌