阅读视图

发现新文章,点击刷新页面。

不同 AI 工具如何分工、接力完成專案,分享我做一個象棋教學遊戲的流程


有一次週末時間,跟孩子一起下象棋,孩子提議如果有一個象棋遊戲兼教練,可以讓我們透過跟電腦對戰來提升棋力,或者我們兩人一起討論策略去贏過電腦,這樣也是另外一種有趣的玩法。當然,市面上一定有這樣的象棋 App 可以直接滿足上面需求,但我想說,有沒有機會利用半天時間,試試看自己用 AI 做出一個象棋軟體呢?

但是,今天這篇文章,主軸不是要說怎麼開發,不是要教怎麼 Vibe Coding ,更不是要提倡 AI 寫程式有多厲害,因為我不是真正的開發者,所以不會在這一塊班門弄斧。

我是想從非工程師的角度,分享怎麼運用多種 AI 工具去完成一個專案的流程,讓不同的 AI 模型各司其職,但又能彼此接手工作的方法。

從經驗談的角度出發,這個流程我也會套用在其他不同工作的專案上,或許你也可以舉一反三應用在其他地方(只是做的成果不同,搭配的 AI 工具不同)。







為什麼一個任務成果,需要多個 AI 工具接手?(非工程師角度)

其實,一開始小孩說想要有一個象棋遊戲可以玩,我的第一個想法是:直接用 Google Gemini 的 Canvas 做一個線上可玩的象棋小遊戲就好了吧?

下一個簡單的指令,確實 Gemini 在兩三分鐘後就給我一個可玩的原型版本。




但是,實際跟小孩一起玩玩看之後,小孩說電腦不夠聰明、有些規則有問題、想要加上一些特效、音效或特殊功能,又更進一步的希望能夠記錄棋譜、能夠紀錄成績、能夠有「電腦的指導教學」。

原本想說就繼續讓 Gemini 在一個網頁原型上「硬改」看看,結果發現因為缺乏前期有效規劃,愈改愈亂, 30 分鐘後還達到 Gemini AI Pro 問答生成程式碼的區間額度限制

於是才想說,那不如讓不同 AI 工具來分工完成看看?於是我又花了大約兩個小時的時間,讓不同 AI 工具接力,完成了目前常常拿出來跟孩子一起練習象棋的工具。

我先把這個「有點認真的象棋遊戲+教學教練」的專案,切分成幾個階段,然後根據我對幾種 AI 工具的判斷,將每個階段交付給適合的 AI 工具去處理

  • ChatGPT 做前期研究與規劃
  • Gemini 做快速原型測試
  • Google AI Studio 生成整個專案骨架
  • Antigravity 做進階功能延伸
  • Codex 做最佳化、多檔案重構、長期維護

但是怎麼讓不同 AI 工具接手同一個專案,而且還能維持邏輯一致,可以立即上工,並且可以根據不同 AI 工具的特性,解決這個專案的不同層面問題呢?這篇文章就來分享自己的經驗談。

專案階段
我選擇的工具
核心任務
為什麼適合
0→1 構思
ChatGPT
研究資料、概念發想、規則梳理
探索力強
1→10 原型
Gemini
快速做出可玩介面
做出視覺與互動原型快
10→40 骨架
Google AI Studio
生成專案檔案骨架
一次性產出基本架構
40→70 工程
Antigravity
精準改檔、測試、重構
細部修改與強化功能
70→∞ 維護
Codex
最佳化、補功能
長期穩定修改與維護





ChatGPT 階段:資料研究、概念發想、專案規劃、技術選擇、遊戲邏輯分析

我意識到自己前面第一次直接在 Gemini 讓 AI 做一個象棋遊戲時:

沒有先做好研究與規劃,所以之後愈改愈亂。

而這一次,我先在 ChatGPT 中建立一個討論串,讓 ChatGPT 先去搜尋研究象棋規則,調查目前象棋遊戲的設計邏輯,進一步分析小孩的喜好與想法。讓 ChatGPT 透過調查研究,先掌握要設計象棋遊戲的基本知識與技巧。

然後我還用錄音訪談的方式,透過聊天,錄下小孩想要什麼樣的象棋遊戲,希望有哪些功能,甚至鼓勵他天馬行攻的想一些特殊玩法。然後把這段訪談錄音轉成逐字稿。

最後,我把逐字稿也上傳到 ChatGPT ,請他用前面研究過的知識、技術,幫我重新整合成一個我的小孩真正需要且會喜歡的象棋遊戲專案計畫。

你是孩子的遊戲設計助理,我要幫孩子設計一個線上象棋遊戲,先幫我擬定一個遊戲專案規劃。請一步一步分析,上網搜尋中國象棋的基本規則、玩法,然後搜尋類似遊戲設計案例,思考必備的線上網頁遊戲基本規劃。 接著根據前面你對我和小孩一起玩遊戲的喜好理解,解讀下面我訪談小孩想要的遊戲機制,根據前面你的基本中國象棋遊戲設計架構,根據你的遊戲設計專家角度重新思考,規劃出最適合我和小孩玩的中國象棋遊戲設計專案規劃企劃案。 訪談內容:###




最重要的是在 ChatGPT 充分研究後,先寫出一份包含要用什麼技術、象棋規則怎麼導入的專案規劃書。

之後換到不同的 AI 工具接手,就可以先「交接」這份規劃書,讓接手的 AI 立刻掌舵狀況。




Gemini 階段:快速產出可玩的原型介面,確認可行

我很習慣任何專案一開始(不只是做一個小工具或遊戲,也包含一個知識產品、活動企劃等等),都先像前面一樣,讓 ChatGPT 去調查、研究、分析,經過學習後,擬出一份符合我需求的專案規劃書,然後再開始工作。

而以這個象棋遊戲為例,接下來我需要快速試試看這個專案規劃的一些基本功能,例如電腦對戰、創意技能等等,是否可行?

於是我又回到 Gemini (超過限制時間後,額度又回來了),把 ChatGPT 的專案規劃丟上去,請她盡可能做出專案上她可以做得到的功能。

初期要測試看看專案概念是否可行,產出可執行的原型(或是網頁、圖像、簡報等等產出), Gemini 確實很快就能做出有外觀介面、有基本互動的成果。

我先用這個方法,確定 ChatGPT 做出的專案規劃基本可行,後面才有機會一步一步加上更多功能。(例如如果需要更進一步的後台資料庫、棋譜、電腦思考棋步的運算邏輯、電腦可以推演棋步做教學等,就無法只是在 Gemini 上就做出來。)





Google AI Studio 階段:生成整個專案骨架

如果要一個認真、可玩、長期練習的象棋遊戲,需要一個完整的程式架構,所以在 Gemini 先用幾分鐘確認可行,有機會做到後,我就轉換到 Google AI Studio 來生成這個專案的基本骨架。

我一樣把前面 ChatGPT 寫出來的專案規劃書貼上 Google AI Studio ,請內建的 Gemini 3.1 Pro 根據規劃書,開發一個象棋遊戲。




Google AI Studio 會「一口氣」生成專案需要的介面、功能、前端、後台等各種程式與檔案。例如在我的這個例子中,除了完成前端的介面互動與棋盤設計外,他也幫我寫了一個新的xiangqi.ts(象棋規則引擎,其實有既有的引擎,不過 AI 這邊自己寫出一個),思考了小孩想要的「特殊功能」如何跟正規象棋規則分開。

對比來看, Gemini 做出有畫面的基本功能,但專案規劃書有很多特殊能力他無法做到。而 Google AI Studio 因為可以架構更完整的程式碼,所以像是電腦下棋難易度的分析等等都可以一口氣做完。




不過因為 Google AI Studio 有一個問題,生出架構後,當然還需要修改,例如有些程式擠了太多規則變得肥大,或是高難度的電腦因為運算太久導致卡住,面對象棋特殊局面的規則還無法有效處理,因為純演算導致電腦開局反而比較笨等等。

這些問題本來我也想要在 Google AI Studio 改,但 Google AI Studio 畢竟是測試用環境,他的「記憶能力」不太好,幾次對話就會忘了前面的專案目標與規則,不適合長期迭代修改。

所以我把它完成的基本象棋遊戲程式碼「下載」到本機電腦,改用 Google 的 Antigravity 來進一步修改更細節的功能。




Antigravity:完整的開發代理,接手骨架,做進階功能添加

我是使用 Google AI Pro 的帳戶,所以在 Antigravity 上有一定的 Gemini 3.1 Pro、 Claude Opus 額度,但這個額度也沒有很高,我的經驗是如果幾個小時連續運作複雜程式修改,往往就要隔幾天才能再使用。




Google Antigravity 能夠處理本機上指定資料夾內的檔案、文件(當然還有程式碼),簡單好用,他可以做到(後面的 Codex 也可以):

  • 直接操作指定資料夾內的:讀、寫、建立、刪除檔案
  • 執行終端命令
  • 瀏覽器自動化測試:可以打開 localhost、點按鈕、截圖驗證
  • 記憶能力很好,可以維持專案改進過程的上下文
  • 精確的編輯:可以只改第 157 行而不動其他地方
  • 多檔案協同重構:同時修改多檔案並保持專案一致性
  • 也可以用現在最流行的方式做專案管理:維護各種專案規則的 md 文件

我讓 Google 的 Antigravity 先接手處理剛剛 Google AI Studio 完成的象棋遊戲基本骨架,然後先加上幾個主要的功能。



第一步,我讓 Google Antigravity 先閱讀目前專案程式碼,然後再看一次前面 ChatGPT 規劃出來的計畫書,比較一下兩者異同,掌握專案現況,思考接下來專案應該怎麼開發

更重要的,先建立一份未來可以依循的「專案規則文件」。(延伸閱讀:養成讓 AI 復盤工作流程的習慣,你的 ChatGPT、Codex、OpenClaw 助理就會愈做愈好




接著我讓 Google Antigravity(或者說它內建的 Gemini、 Claude )找出目前專案根據規畫還可改進之處,然後我把改進變成一個一個任務,貼上去讓 Antigravity 接力修改。




不過因為知道 Antigravity 的額度有限,加上我其實更喜歡使用 Codex ( OpenAI 的程式開發工具),未來一定會再交給 Codex 接手。

為了讓之後接手更順暢,當 Antigravity 這邊做了什麼大改動,就請他在專案相關規則文件中做更新、對齊進度、修改最新規則等。





Codex:系統的最佳化,長期的維護、修改

現在這個象棋遊戲的專案,則已經轉移到了 OpenAI 的 Codex 繼續接手。

既然如此,為什麼不乾脆一開始就會 Codex 做呢?

我的想法是,在 ChatGPT 上做搜尋、研究、調查(Deep Research),先進行資料的統整分析,然後做專案規劃的討論,是比較適合的。所以我把想出專案規劃書這一步,交給 ChatGPT

既然要做認真的 App ,確實就不會只是用 Gemini 的 Canvas 製作,但可以先用 Gemini 測試看看外觀做出來是什麼樣子,基本的規劃邏輯跑得動嗎?

倒是不一定需要用 Google AI Studio 製作出遊戲骨架,這一步也可以直接就交給 Antigravity 或 Codex,所以後面三個 AI 程式開發工具互相接手,考量的其實是「額度」的問題。

雖然我有 Google AI Pro 和 ChatGPT Plus 帳號,但畢竟本職不是工程師,沒有真的採用買 Token 額度的方案,而這時候這兩者在用 Antigravity 或 Codex 做工具時的額度也都是有一定限制,如果用得勤快一點,在循環時間內的額度常常是不夠我用的。

所以我就採用了讓三種 AI 程式工具互相接手的方式。




下面是我這次經驗,不同工具分別開發了哪些功能

  • ChatGPT:做了許多搜尋、研究、分析,寫出專案規畫出。
  • Gemini:只是測試看看做得出來嗎?
  • Google AI Studio :完成基本的程式骨架。可玩的電腦對戰象棋遊戲。
  • Google Antigravity:
    • 製作本機可以啟動的執行檔。
    • 完成程式碼版本控管與同步規劃。
    • 改進電腦運算規則,讓電腦棋步有難度、但也不會導致卡頓。
    • 加上開局棋譜等資料庫,強化電腦的下棋能力。
    • 進一步改進特殊情況的規則。
  • Codex
    • 最佳化整個程式碼,讓每一個程式不擁腫,執行更快。
    • 導入可個人非商業使用的象棋引擎,做為大師級的挑戰。
    • 加上 AI 教練功能,讓電腦可以當下引導玩家做出更好的棋步選擇,並說明原因。

Codex 要接手時,第一步我一樣讓他先去讀程式碼,以及前面我有持續維護更新的專案規則文件,掌握專案現況,接下來就可以更順利地推進工作。




使用 Codex 開發功能的時候,我會使用規劃模式,讓 AI 先做出規劃,我確認後再執行,面對複雜改動時往往更有效。




目前這個象棋遊戲,變成我和孩子週末練習時的一個有效輔助和遊戲。

我們還是會拿出真的象棋來玩,但當想要挑戰一下,或是練習的時候,就打開這個象棋遊戲,用他的困難模式來訓練自己,或是父子一起挑戰大師模式,適時用電腦教學來看看什麼可能是更好的策略。

在這次的經驗中,不只是開發程式,完成企劃、內容專案也一樣, AI 工具有不同特色,而不同 AI 之間能順利接手,關鍵在於「先把研究與規劃做紮實,再進入產出。」然後在不同 AI 工具切換時「把這個專案目前怎麼做才算好的規劃」一起交出去。


 

大家好,我是電腦玩物站長 Esor ,歡迎參考我的系列課程與書籍:


我的電子郵件是 [email protected] ,如果你有任何關於筆記術、時間管理、提升工作效率的問題,歡迎寫信跟我討論。

(歡迎社群分享。但全文轉載請來信詢問,禁止修改上述內文,禁止商業使用,並且必須註明來自電腦玩物原創作者 esor huang 異塵行者,及附上原文連結:不同 AI 工具如何分工、接力完成專案,分享我做一個象棋教學遊戲的流程

AI 結合卡片盒筆記法,人不再操作軟體,用對話流程讓 Codex 搭建資料整理系統:我的兩個月實測心得


首先要說明的是,這篇文章我不會稱為是 AI 可以取代我們的第二大腦,因為我對第二大腦的嚴格定義在於我的專案、任務、行動與經驗管理,而這部分大多時候依然需要自己手動定義、整理與改寫,例如我讓 AI 處理參考資料,但是我需要自己筆記為什麼這樣做的目標?如何做的流程?怎麼做更好的經驗?而這也是我提倡的「防彈筆記法」的核心。

所以這篇文章想要分享的經驗是,那些外部參考資料,有沒有可能利用 AI ,在不用額外花太多時間的情況下(人只要丟資料、給想法、下指導), AI 就可以持續整理、歸納、改寫、統整、延伸與檢驗正確性,讓 AI 自動完成一個人(我)可以隨時取用在工作、生活各種產出上的資料庫。

而因為當 AI (或者 AI Agent )可以完成上述自動整理流程,並且在我的實做下,像是抓取資料、分類、連結、統整、筆記、畫出流程圖等功能都可以 AI 處理,人「不再需要操作軟體介面」,所以甚至可以做到 AI 本身就是資料庫工具,而我不再需要另外一個 Obsidian、 Notion 或 Evernote 來處理這些外部資料







用 AI 建立外部資料庫:讓「整理」與「操作工具」不再成為學習阻礙


過年期間,我先用 Google 的 Antigravity,讓 AI 幫我做出一個可用的 RSS 閱讀器。那時候有讀者在底下提醒我一句:「如果直接用 OpenClaw 做,可能會更好。」

那句話後來真的打到我。因為我腦中其實一直卡著一個更大的痛點:最耗時的工作,從來不是讀文章,也不是寫筆記,而是操作軟體去整理的時間。

把文章結合自己的觀點整理成可重複使用的筆記卡、串聯不同筆記卡片、把相關卡片結合自己的想法變成更穩定的「永久筆記」,再把卡片串成可以拿來處理專案的流程架構、用於寫作的大綱、融入到課程中的方法綱要,這一整段流程,除了要花時間也應該花時間的:我的想法、觀點思考之外,其他很多步驟其實都是「軟體操作時間」。

我想把時間留給自己的實做、思考、想法產出,但把所有軟體操作時間交給 AI

所以我後來做的實驗,並不是想再做一個筆記工具或稍後閱讀工具。而是:

當我丟出資料、觀點、想法後,能不能讓 AI Agent 類型的助理,直接且自動幫我完成下面工作:

  • 處理我本機資料夾裡的 md 文件。
  • 抓取無論網頁、 YouTube 影片、社群貼文中的內容,建立「參考文獻」。
  • 根據我的觀點整理出筆記摘要,建立某個工具、觀點或技巧的「暫時筆記」。
  • 根據我的需求建立未來各種任務產出可以參照的穩固方法論的「永久筆記」。
  • 在不同永久筆記之間建立連結,可以看到層級關係,乃至於「知識架構圖」。
  • 根據我未來出現的任務、產出,挖取這個外部資料庫,提供我架構、論述、案例、方法大綱。

關於卡片盒筆記法中的文獻、永久筆記、筆記連結的教學,可以參考我之前的兩篇文章:

如果講得再白話一點:

我不是想打造另一套第二大腦、外部資料庫、稍後閱讀軟體,我是想訓練一個能持續幫我整理外部參考資料的 AI 專案助理。




目前的實際流程示範:以 Codex 為例,我丟網址、丟想法,讓 AI Agent 在本機 md 資料夾裡建立資料庫


一開始(2026/2 時),我是利用當時很流行的 OpenClaw 來架構這個 AI 整理外部第二大腦的流程,只要在 Telegram 丟一個資料網址,告訴他我的觀點, AI 就會跑完筆記卡摘要與改寫流程,接著自動建議我可以補充到哪些永久筆記,我再補上觀點後, AI 就會持續的穩固我既有的永久筆記系統,並在更新之後幫我調整目前知識架構圖。

但是目前,我主要利用 ChatGPT 的 Codex 來完成這個流程。

無論用哪種工具,包含很流行的 Claude Cowork  當然也可以,只要 AI Agent 能讀寫本機 md 文件,又能照著你定義好的流程工作,它就能慢慢接手原本要靠稍後閱讀工具、數位筆記工具、手動剪貼整理才能完成的大量知識整理工作

  • 一個由 md 文件組成的外部知識庫
  • 一套由 AI Agent 維護的整理流程
  • 一個能回收成卡片、永久筆記、文章草稿與流程圖的工作系統

AI 工具可能未來會換,但這個資料庫與流程會留下來,可以持續使用。(參考:不同 AI 工具如何分工、接力完成專案,分享我做一個象棋教學遊戲的流程

下面就先具體示範我目前的資料庫工作流程,後面再分享其中幾個關鍵細節。




讓 Codex 在本機資料夾建立資料庫:


首先,我建立了一個本機資料夾,讓 Codex (或者你也可以用 Claude Code 或 Claude CoWork)來管理其中的各種文件(資料庫的核心,以 markdown 的 md 檔案為主),在這個資料夾建立需要的小工具(例如抓取 YouTube 字幕的 Python 程式),以及建立工作流程、知識處理規則的 md 文件(這些規則文件,可以讓不同 AI 助理共同遵循)(規則文件非常重要,可參考:養成讓 AI 復盤工作流程的習慣,你的 ChatGPT、Codex、OpenClaw 助理就會愈做愈好)。

除了因為我本來就有 ChatGPT Plus 版本(前幾天更新到 Pro 版本),我用 Codex 還有另外一個原因就是他前一陣子推出桌面軟體端,我更喜歡在這個簡單易懂的對話介面中進行工作流程。

只要在 Codex 中開啟要用來做資料庫的本機資料夾,接著就可以用對話來建立工具、打造自動流程、處理各種資料夾內的文件檔案。




在這個流程中,我讓所有資料、知識、草稿、驅動 AI 的規則技術文件,無論是文獻還是永久筆記,全部用 md 文件格式儲存在這個本機資料夾。

我沒有像很多朋友那樣搭配 Obisidian 等功能來管理,因為我想嘗試:

「工具就是 AI Agent 本身」,而人「盡可能」不要操作任何軟體介面與功能,人唯一需要的就是「跟 AI Agent 對話」。 




而雲端同步的功能,我則是要求 Codex 自動幫我推送到 Github 做版本控管,也能在雲端網頁上讀取我的完整資料庫。





建立 Codex 處理資料庫的基本規則:


我先對 Codex(一開始其實是在 OpenClaw,但方法都一樣) 定義好抓取所有資料的共通流程,主要的原則有下面這些,而這些原則是來自於我多年來對一個知識管理系統研究後的架構(先貼給 Codex ,請他建立一個之後一定會遵循的規則文件):

  • 核心流程:抓取來源 →建立 raw 全文證據庫 →根據我的觀點摘要 card 筆記卡 →更新或建立 opinions 永久筆記 →需要的時候根據資料庫內容,進行每日 digest / 寫作大綱 / 關鍵論述輸出 → GitHub 版本同步
  • raw 資料夾(文獻):是全文證據庫,不能自己省略;抓不完整就不算完成。要注意抓取來源、時間等細節。
  • card 資料夾(暫時筆記):是一篇原文一張卡,保留我的觀點、摘要、引用、應用情境、下一步行動。
  • opinions 資料夾(永久筆記):這才是第二大腦核心,重點是更新既有母筆記,不是一直新增新筆記,讓一個主題愈來愈完整。
    • 所有永久筆記更新時,要做判斷屬於哪一種知識:
      • PROJECT = 正在進行專案,通常是我定義的跟我目前想要研究、進行的主題工作有關(例如這個外部資料庫專案)
      • WORKFLOW = 未來可參考的工作流程,包含操作步驟、最佳範例。
      • METHOD = 專案與工作流程通用的方法論,包含理論、證據。
    • 新增 cards 後,必須檢查 opinions 是否需要回填,強制要求 AI 要做這個檢查,主動提供建議,讓 raw 變成 card ,再補充到 opinios ,最後永久筆記愈來愈完整。
    • 但若要新增全新永久筆記,要先取得我的同意,避免資料庫最後發散混亂。
  • 額外的連結與流程圖
    • 所有的 raw 並須連結到原始來源,所有的 crad 必須有 raw 的連結,所有的永久筆記必須有 raw 或 card 的連結。
    • 而永久筆記之間也會互相連結,並建立一個知識架構圖。
      • 每次更新永久筆記後,要同步維護 INDEX(總目錄)、MAP(知識架構圖),讓整個資料庫的體系愈來愈完整。




上述的規則,一開始先讓 AI 寫進一份 Workflow.md 的文件中,文件放在這個工作資料夾的根目錄,並邀請 Codex 等 AI Agent 每次處理工作時優先遵循這個規則。

但是你說,下面的規則看起來比上面的簡單版完整很多啊?

那是因為在兩個月的實踐過程中,每次 AI 的處理有調整,或是處理得很不錯的時候,我都會請 AI 自己復盤,把目前學會更好的處理規則更新回規則文件,這樣 AI 助理之後的工作就會愈做愈好。(延伸閱讀:養成讓 AI 復盤工作流程的習慣,你的 ChatGPT、Codex、OpenClaw 助理就會愈做愈好





讓 Codex 根據網址抓取文獻、建立筆記,逐步擴充資料庫:


有了上面的共通原則後,第一階段我要先讓 Codex 幫我抓取文章,當我看過一篇感興趣的文章、YouTube 影片、社群貼文後,我就把網址丟給 AI Agent( Codex ),並希望 AI 能夠自動抓取資料全文建立文獻(raw),同時製作一張有我的觀點的筆記卡片(card)。

我那時候的第一步是從下面這段丟給 AI Agent 的指令開始啟動的:

根據前面的專案原則,我想建立一個自動整理與成長的資料庫。請一步一步處理:

1.請你先不要做自動抓取,先在 workspace 建立以下資料夾結構:

raw/(放原始文章)
card/(放整理後筆記卡)
digest/(每日總表,回顧每日資訊總結)

2,接著請你建立一個「整理腳本」或「工作流程說明」,讓我每次把網址、文章文字,以及我的觀點貼給你時,你就會自動抓取全文放入 raw ,並自動產出符合以下模板的筆記卡到 card。

模板如下:###
檔名:YYYY-MM-DD - {title}.md
內容:
- 來源:
- 原文連結:
- 原文日期:
- 主題標籤:#AI工具 #工作流 #筆記術(最多 3–5 個,並保持一致性,同一個主題共用同一個標籤)

一句話結論(我需要記住的)
(<= 40 字)

重點摘要,結合我的觀點,盡量搭配使用原文,但翻譯成台灣慣用繁體中文(翻譯後同時附上原文參照)
1.
2.
3.
4.

核心概念表格:
概念
作者怎麼說
根據我的觀點,我可以怎麼用(對工作/寫作)

對我有用的 3 個應用情境
- 情境 1:
- 情境 2:
- 情境 3:

今天能做的下一步:測試、研究、寫作(務必具體)
-

待追問(下次研究關鍵字)
###

不過根據不同情況,就算有上面基本規則,事情也不一定馬上就能順利,但這時候我就都交給 Codex 這樣的 AI Agent 去解決。

例如有時候抓不到網頁全文?無法抓到 YouTuhe 字幕?有些社群抓不到我想要的指定網址的貼文?我就把問題丟回給 Codex ,讓他找方法解決,可能寫一個 Python 小程式,或是需要申請一個 API ,但就一邊做,一邊讓 Code 幫我補足這些抓取功能。

或是當我發現有時候 AI 根據我丟的網址,抓到部分資料,但沒有抓到全文,於是我就讓 Codex 寫一個自動檢驗小程式,並讓 AI 在他必定要遵循的規則文件中加上:「抓取文章後一定要跑這個檢驗程式,確定有抓到頭尾完整的內容。」




所以現在我的這個資料夾中有抓取網頁小工具、PDF轉換小工具、抓取 YouTube 字幕小工具、抓取特定社群貼文小工具等等,這些小工具也都是 Codex AI 自己撰寫。

讓我每次只要丟一段網址,提出我的觀點, Codex AI Agent 就會自動完成基本的兩大步驟:

  • 先抓取完整內容,建立有引用來源的文獻。
  • 再根據我的觀點,建立筆記摘要卡片。

例如我讓有了上述基本原則與工具的 AI 來抓取我的這篇文章:「與 AI 助手合作後的第二大腦系統,我在筆記方法上的變與不變」。

我這樣提問:

抓取下面文章,根據我的觀點建立筆記卡。

我認為在知識管理上應該善用 AI ,但要明確區分 AI 可以做的資料管理,以及人要主動引導與建立的專案、經驗的真正知識管理,才是好的工作流程。

文章網址: https://www.playpcesor.com/2026/01/ai.html




我每一天大概都會隨手丟上5~10篇連結,加上我的一兩個核心觀點,通常是我快速讀過後有啟發的文章、影片、PDF或貼文資料。

然後 Codex 這樣的 AI Agent 可以自動做完兩件事,新增兩份文件:幫我自動抓取全文建立文獻,並建立一個符合我觀點的筆記卡片。

下面就是 AI Agent 自動完成的筆記卡,裡面結合了我剛剛丟給他的觀點,以及原文內容,但也包含已經在這個資料庫中的相關內容延伸。




這兩個月的累積,我就透過 AI Agent 的抓取、整理,建立了數百則的文獻資料與觀點筆記卡(類似上面這樣,有摘要、有觀點、有延伸應用的內容)





讓 Codex 根據暫時筆記,建立「永久筆記」的連結系統:

不過這樣還不夠,如果這些文獻、觀點筆記卡都是散亂的根據時間排序,其實很難有效使用,但我也不想要在這個暫時筆記的層級去做分類或連結。

所以我建立了一個「永久筆記」的自動整理邏輯,只要我丟出進一步觀點給我的 AI Agent ,他就會根據前面抓取的筆記卡,思考是否要新增永久筆記,或是要補充、修正之前的某一張永久筆記,透過 AI Agent 的自動化流程,讓「真正可以在未來拿出來反覆利用」的永久筆記系統愈來愈完整

下面是我提供給 AI Agent 的永久筆記規則。(只是參考,讓大家看到一份規則文件,可以引導 AI Agent 多步驟去自動化完成工作,指定 AI 去使用哪些工具,以及 AI 一定要遵守的關鍵原則。

永久筆記(opinions/):把 cards 統整成可複用資產(必讀)
永久筆記新增/更新的標準作業(必遵守)

0) 觸發規則(硬性):每次「新增 cards」後都要檢查 opinions 是否需回填
只要新增一張 cards(或對 cards 有實質增量更新),都必須立刻跑一輪:
這張 cards 的「新有效內容」是什麼?(新判斷標準/新風險/新步驟/新框架/新清單)
對照 opinions/INDEX.md:要更新哪一張母筆記?還是需要新增?
依 routing 規則決定回填到 PROJECT / WORKFLOW / METHOD
原則:更新優先;新增需 Esor 同意。

0-1) 回填前的人機確認(硬性):先展示 cards 重點,再詢問 Esor 是否要回填
在真的動手更新 opinions/ 前,先做這 3 件事:
先展示這次 cards 的重點摘要(建議 3–5 點)
明確詢問:這次要不要回填到永久筆記?
明確詢問:Esor 有沒有補充觀點、反對意見、或想強調的版本?
沒有先問,就不要直接改 opinions/。
若 Esor 明確表示「先不要更新永久筆記」,就停在 card 階段即可。

1) 更新/新增前:主動詢問 Esor 的想法(用以重現你最近示範的流程)
在要更新/新增永久筆記前,先問:
你自己的觀點/你要強調的主張是什麼?
你希望這次回填後,永久筆記「更能做到什麼」?(未來要拿來用的價值)
收到回覆後:把想法延伸改寫成更完整論述並融入正文(不是只貼一句備註)。

2) 回填位置原則:更新永久筆記不固定更新在哪一節(以內容適配為主)
不要硬塞在「套用方式」。以內容類型決定寫進哪個欄位/段落:
一句話原則:當 cards 帶來更好的總結主張
Dealbreakers:當 cards 帶來新的翻車點/一票否決條款
套用方式:當 cards 帶來新的可執行步驟/做法
常見誤區:當 cards 帶來新的錯誤認知/誤用型態
Evidence / Links:當 cards/raw/opinions 的證據鏈或結構關係需要補齊

3) 永久筆記寫入規則(引用/證據/索引)
先查 opinions/INDEX.md:確認是否已有母筆記(更新優先)。
依 routing 規則決定回填到 PROJECT / WORKFLOW / METHOD。
寫入時要「整合改寫內容」進正文(不是只補連結),並在段落後附 (來源:...)。
若內容包含 Esor 的補充觀點:在段落末尾加註 (來源:esor 補充想法,YYYY-MM-DD),並搭配對應 cards/opinions 作為支撐來源。
Evidence 優先 raw;Links 只連永久筆記。
新增全新永久筆記需 Esor 同意。
每次新增/更新永久筆記後:更新 opinions/INDEX.md + opinions/MAP.mmd,再跑 opinions_linker.py。

原則(防彈筆記法):永久筆記主題優先順序=專案任務名稱 → 工作流程名稱 → 方法論名稱;不是破碎的單一論點。

rss_cards/:一篇原文一張卡(保留證據與脈絡)
opinions/:把卡片統整成「可維護、可驗收、可回存」的長期資產

A) 永久筆記的三種卡型與模板
PROJECT(專案任務):projects/rss-second-brain/opinions/TEMPLATE_PROJECT.md
WORKFLOW(工作流程):projects/rss-second-brain/opinions/TEMPLATE_WORKFLOW.md
METHOD(方法論):projects/rss-second-brain/opinions/TEMPLATE_METHOD.md

A-0) 最重要原則:優先「更新」既有永久筆記,而不是一直新增
永久筆記的核心不是新增,而是把新知/新做法回填到既有的母筆記(Project / Workflow / Method)。
新增條件(很少):
你確定這是一個全新的專案任務/全新的可重複流程/全新的方法論框架;而且在 opinions/INDEX.md 找不到對應母筆記。
預設策略:
先查 opinions/INDEX.md 是否已有母筆記
有就更新(加步驟/驗收/反例/回存/證據鏈)
沒有才新增

B) 永久筆記索引與關係圖
索引(新增前先查,避免重複):projects/rss-second-brain/opinions/INDEX.md
關係圖(Mermaid):projects/rss-second-brain/opinions/MAP.mmd
必遵守:每次新增/更新永久筆記後,都要同步更新 INDEX 與 MAP

INDEX:確保每一張永久筆記在 PROJECT / WORKFLOW / METHOD 某一區塊下有一條索引。
MAP:新增節點並至少連一條關係(例如 PROJECT→WORKFLOW)。

C) 永久筆記「連結維護」機制(每次新增/更新後都要做)
目的:避免 Project↔Workflow↔Method 漏連結。

觸發時機(何時要跑?)

你「新增或更新任何一張永久筆記」後:必跑一次。

下面讓我做一個「自己不丟觀點的示範」(通常真實流程,我會加上更多想法再更新永久筆記),看看 AI Agent 是否會依照上述規則,把前面 AI 建立的筆記卡,更新到永久筆記系統。

我這樣對 AI 提問:

根據剛才新增的筆記卡,根據永久筆記建立規則,分析適合更新或新增到哪些永久筆記,並提出具體建議。

於是訓練好的 Codex ,就會根據我給他的永久筆記建立規則,AI 拿著剛剛建立的筆記卡去撿索我的永久筆記系統,找出適合更新或新增的永久筆記,並分析內容,給我更新建議




我可以根據 AI 助理給我的建議進一步思考,然後回給 AI 一個明確的整理指令,例如:只根據首選方案更新既有的永久筆記。




下圖可以看到, Codex 根據我建立好的永久筆記規則,完成剛剛那則筆記卡更新到永久筆記的任務。AI 可以同時完成:

  • 把筆記卡的關鍵內容,更新、修正到指定的永久筆記。
  • 擴充永久筆記時,也會加上來源筆記卡的註記。
  • 自動在永久筆記的目錄、流程圖系統中做好更新。

前面幾個階段跑下來,我們只是丟資料、給觀點、下自然語言指令,這就節省了非常多我們自己操作軟體介面的步驟。




永久筆記完成的結果像是下圖這樣。

於是我這兩個月打造的 AI 外部資料庫系統,就在這樣「不斷讓 AI 自動更新永久筆記」的流程中,慢慢擁有了一些系統性的、更深入完整的知識與方法,方便我後續拿出來利用。




而為了讓永久筆記也不只是單篇方法,而是可以系統性利用的架構,所以我讓 Codex 去做出一個連結目錄,生成一個畫流程圖小工具,隨時用目錄連結與圖解方式,展開這個永久筆記系統的全貌。




這兩個月,我的數百篇筆記卡,其實也才建立了二十幾則永久筆記,大多數都是把新的筆記卡更新到既有的永久筆記上,強化那些方法論與工作流程,但這正好可以看到持續更新的永久筆記的深度。(而且我本來就偏好用更新筆記,取代新增筆記:每天新增30則筆記?還是更新30則筆記?兩步驟建立穩定筆記系統




利用 Codex ,根據目前的永久筆記、筆記卡、參考文獻,進行草稿產出:


我大概是從二月開始這個實驗(一開始用 OpenClaw ,後來 ChatGPT 推出 Codex Windows 桌面軟體版後就改用 Codex ),我現在的外部知識庫裡,至少會分出幾層:

  • raw:原文全文,保留可追溯、可驗證的來源
  • card:每篇內容整理成可回收利用的筆記單位
  • opinions:把重複出現的觀點、方法、流程,整理成會越用越強的永久筆記
  • digest / outline / draft:把前面的知識層再推進成可以發布的輸出準備

最後第四個層次,則是看需求,讓 Codex 在既有的這個外部資料庫中做產出。

例如最新新增了比較多的新資料,我就會讓 Codex 做一個「 Digest 」總結。

根據規則,把最近一個禮拜新增的筆記卡、更新的永久筆記,做一次快速復盤的摘要。





或者我要做一個專案,我要產出一篇報告,我提供一些想法,然後讓 Codex 在這個外部資料庫中產出草稿。

我需要到學校教一個 Google 的 AI 工作流程,根據我的永久筆記出發,搭配有更多細節的筆記卡與文獻,建立一個有效的工作流程大綱草稿,先直接秀出給我看,我再決定是否加入草稿資料夾。





總結:我學到的 AI 工作流程


我覺得這次實驗,但也已經變成我的一個處理外部資料庫的流程,真正學到的不是 AI 幫我做了很多事,可以自動化。是我開始學會:

  • AI Agent 是可被設計的 workflow
    • 如果你只是把 AI 當成問答工具,它每次都只能重新猜你的標準。但如果你把流程、交付物、驗收、回存方式都定義出來,它就會越來越像一個真的專案助理。差別不在模型更聰明,而在你有沒有把它當成流程在設計。
  • 不會寫程式,也可以利用 AI 建立自己的工作系統,但要學會分派工作+驗收工作
    • 這次我其實沒有自己手動寫程式。很多技術性工作,都是交給 AI 處理。但我真正需要做的事情是:
      • 說清楚我要什麼交付物
      • 說清楚限制與標準
      • 看結果是否真的符合需求,再讓 AI 調整
  • 第二大腦真正該留下來的,是流程與規則
    • 我現在越來越覺得,工具其實不是最重要的。無論是各種 AI 工具,還是各種筆記軟體,各自有不同強項。但真正讓它們能幫我做事的,不是因為哪個工具特別神,而是因為我們自己有一套流程:
      • 哪些資料要保存
      • 哪些資料怎麼整理
      • 哪些內容值得回存
      • 哪些輸出要怎麼驗收
    • 工具可以換,但流程會留下來。甚至利用 AI Agent,打破工具操作流程,打造更靈活的資料庫。

AI 的工作不是替我思考,而是替我處理那些我以前不想花大量時間做的外部資料整理工作。而我自己真正保留的,是:

  • 提出問題
  • 提供想法
  • 做最後判斷
  • 驗收哪些內容值得留下來

真正的核心反而是:

我能不能把自己的整理流程拆解清楚,然後交給 AI Agent 去處理那些原本最耗時、最容易拖住你的操作型工作。

如果可以,那麼我們未來要管理的,也許不再是越來越多的工具介面。而是一套會在自然語言對話、規則文件、md 資料夾與驗收流程中,慢慢長出來的外部知識庫。



大家好,我是電腦玩物站長 Esor ,歡迎參考我的系列課程與書籍:


我的電子郵件是 [email protected] ,如果你有任何關於筆記術、時間管理、提升工作效率的問題,歡迎寫信跟我討論。

(歡迎社群分享。但全文轉載請來信詢問,禁止修改上述內文,禁止商業使用,並且必須註明來自電腦玩物原創作者 esor huang 異塵行者,及附上原文連結:AI 結合卡片盒筆記法,人不再操作軟體,用對話流程讓 Codex 搭建資料整理系統:我的兩個月實測心得

Claude 封号限流砍权益,OpenAI 趁机用 Codex 稳稳接住你

天下苦 A 社久矣。

这是前段时间 Anthropic 持续推出各种功能,但是一边又不断加强使用限制,读者在评论区最普遍的反应。

本身就是御三家(OpenAI、Google、Anthropic)里对使用限制最严格的一个,另一边又加码推出身份验证,实名制才能使用。今天凌晨,再把 Pro(20 美元/月)用户的 Claude Code 使用权给砍了。

Anthropic 的增长负责人出来回应,提到他们正在对约 2% 的新专业用户注册者进行小规模测试,现有 Pro 和 Max 用户不受影响;并表示目前的订阅计划无法应对用户大量的 Token 消耗,他们在研究新的付费方案。

▲来源:https://x.com/TheAmolAvasare/status/2046724659039932830

OpenAI 这边也立马回应了 Claude Code 踢掉 Pro 会员的争议,一位 Codex 负责人 Rohan Varma 直接怼脸和 Claude Code 竞争,连发文格式都和 Claude Code 一样。

▲来源:https://x.com/rohanvarma/status/2046769635350241292

Anthropic 为 2% 的用户测试更贵的计划,而 Codex 给 100% 用户测试,让免费和付费套餐都能使用 Codex。还特别调皮的加了一句「Claude Code 用户不受影响。」

▲Claude Code 用户 PAY(付钱),Codex 用户 PLAY(玩)

另一位 Codex 负责人 Tibo,也在 X 发文说 Codex 将继续提供免费版和 PLUS 版(20 美元/月),还提到 OpenAI 拥有足够的算力和厉害的模型来支持 Codex 的运作

奥特曼也转发了这条推文,表示 「我们希望你们可以有大量的 AI。

▲来源:https://x.com/sama/status/2046752492093165708

Codex 口碑在社交媒体上一直不算太差,尤其是前段时间 OpenAI「大撒币」,先是说为了让每个人都能体验到 Codex 推出的相关插件,给所有订阅计划都重置了使用限制

4 月初,Codex 发现用户达到使用限制的频率增加,且未找到背后的原因,干脆就重置了所有用户的额度限制。几天前,为了庆祝 Codex 周年庆和新功能上线,又一次重置了所有套餐的用量限制

今天,Codex 负责人和奥特曼再发推文,表示不到两周 Codex 增加了 100 万新用户,为了庆祝这件事,Codex 的速率限制又又又重置了。

▲来源:https://x.com/sama/status/2046604989527912590

早在上周 Anthropic 发布 Opus 4.7 的那天,Codex 就更新了一大堆重要功能,Computer Use、内置浏览器、持久记忆,以及 90 多项插件。

这些更新几乎是直接对标 Claude Cowork 的功能,把 Codex 从一个听着就像是给开发者用的工具,重新变成了一个适用于电脑所有场景的效率助手工具。

昨天,Codex 在此前推出记忆功能的基础上,又上线了一项名叫「Chronicle」的研究预览功能,让 AI 能读我们的屏幕,把我们最近做过的事整理成记忆。

Codex 不再只依赖聊天记录来理解上下文,结合它读取的近期屏幕内容,我们给它发送「这个」、「那个」,Codex 能知道我们到底指的是什么。

今天刚刚发布的 GPT Image 2 也已经集成到了 Codex 里。我们可以在 Codex 生成并迭代图像,在一套工作流里,从产品原型、前端设计,到视觉效果图和游戏开发等任务,使用 GPT Image 2 快速生成视觉元素。

如果你的 Claude 账号总是被封,用不了官方的 Claude Cowork、Claude Code 桌面版,又或者是那 2% 的新用户,开通了 20 美元/月的 Pro 会员也用不了 Claude Code,不妨来试试 OpenAI 出品的 Codex。

从代码工具到全能助手

Codex 最近这段时间的更新,最重要的莫过于上周发布的 Computer Use。这项能力并不算新鲜,之前是模型有 Computer Use 的能力,现在是需要工具也要有配套的支持,才能发挥模型能力。

它本质上就是 Agent 工具可以像人类操作电脑一样,通过视觉识别、点击和输入,自主操控电脑上的各类应用程序。

之前的 Codex 操作电脑上的软件,是通过一些命令来执行不同的应用任务,整体更像是我们喊「Siri,明天的天气怎么样」,做这些比较简单的任务。

有了 Computer Use 的能力之后,不仅支持一些调用 API 或者终端命令的工具,还能真的能帮我们完成一些电脑上的实际操作,尤其适合前端调试、应用测试、操作没有开放 API 的软件。

而且支持多个智能体并行在 Mac 上工作,不会影响我们正常使用其他应用。

需要注意的是,Computer Use 的能力只支持 macOS 15 以上的版本,我们的电脑(macOS 14.6.1)在测试 Codex 时,会自动弹出一个 SkyComputerUseClient 的问题报告。

另外,现在 Codex 支持内置浏览器,能更好地处理 Web 场景。我们在 Codex 里生成的网页,可以直接在网页上标注,给 Codex 更精准的操作指令,对一些前端、应用和游戏开发的快速迭代非常有用。

▲从 Coding、设计、生活方式、生产力到研究,Codex 现在有丰富的插件系统来处理各项任务

这次的更新还新增了 90 多个插件和更丰富的工具集成,让 Codex 能接入更多工具、获取更多上下文,并跨平台执行操作,提到的热门插件包括 Atlassian Rovo(JIRA)、Microsoft 套件、Neon by Databricks、Remotion、Render、Superpowers 等。

在 Codex 应用里,我们只需要输入斜线就能快速进入一些关于 Codex 的配置,输入 $,则可以选择不同的 Skills,包括我们安装在本地的各种 Skills。

同时,在自动化任务上,Codex 的 Automation 功能升级后,可以复用之前的对话线程,保留已有上下文。新的自动化还支持 Codex 自主规划后续工作、自动在未来某个时间继续执行任务,以及支持持续数天甚至数周的长期任务。

官方提到这项更新主要用于代码的提交合并、跟进日常工作生活的待办事项,以及跨越不同平台和工具的信息追踪等任务。

还有一些对于桌面应用交互的小更新,像是增加了多标签页的终端窗口,侧边栏可以直接打开文件,预览 PDF、表格、PPT 等文档。

新的摘要面板,也可以持续跟踪当前执行任务的计划和进度、参考信息来源,和输出结果等。这些应用上的增强,也让 Codex 在整体上更像是一个统一的工作台,而不再是单一的对话窗口。

用定时截屏的方式来维护 Agent 记忆

个性化的记忆功能向来就是 AI 的一大难题,虽然 AI 博古通今能记住所有的知识,但是对于每个用户的私人记忆处理,工作记忆等,AI 需要用不会占据大量的 Token,同时又能记清楚的方式来处理日复一日的对话。

尤其是现在到了 Agent 这类巨消耗 Token 的任务上,每个用户每天产生的上下文,如果 Agent 要全部记住,估计再来一百万 Token 上下文也难顶住。

上周 OpenAI 就已经为 Codex 带来了记忆功能,它可以记住我们的个人偏好、之前做过的修正,以及一些不容易获取但很重要的信息。

而为了获取更多的记忆,更快地处理我们的工作流。Codex 这次推出的 Chronicle 功能,说白了就是看我们的屏幕,记住我们的工作,再把这些记忆喂给 AI。

具体来说,在 Codex 设置>个性化里面,开了 Chronicle 功能之后,会自动执行这些操作:屏幕上下文捕获 → 本地临时截图 → 后台代理分析 → 临时 Codex 会话总结 → 生成本地 Markdown 记忆 → 后续会话中作为上下文使用。

Codex 获取了屏幕录制和无障碍权限之后,Chronicle 会在后台运行一个沙箱 Agent,这些 Agents 使用默认模型 GPT-5.4-mini,基于捕获到的屏幕图像,周期性地启动一个临时的 Codex 会话,把最近的屏幕上下文整理出记忆。

屏幕截图只会临时保存在本地,Codex 提到运行期间,超过 6 个小时截图会被自动删除。

▲GPT Image 2 生成的信息图

以后我们和 Codex 对话,它会自动检索这些记忆文件,作为上下文来使用,减少我们重复描述背景的需要。

OpenAI 官方也给了多个案例,像是如果不开启 Chronicle,Codex 不知道我们说的「这里会失败」,是指的什么。

以及针对一些个人任务中出现的人名、项目名等,在通用知识外的内容,Codex 也会根据 Chronicle 获取的信息,自动补充上下文。

能够捕获屏幕图像,也意味着使用 Codex 处理任务的全流程,Chronicle 都能记住。包括我们的工作流,常用的工具。像下面的例子里,使用了 Chronicle 的 Codex 会知道这份宣传材料使用何种格式,以及何种工具,是 Google 文档还是 Markdown 文档。

不过这项功能也面临着一些争议,例如视觉识别的方法会消耗大量的 token,更严重的是这些截图可能包含我们屏幕上可见的敏感信息。

虽然 OpenAI 说所有保存的记忆都会存放在本地的 markdwon 文档里,用户可以随时查看,Codex 根据这些截屏获取到了哪些信息。但是他们也提醒用户,当 Chronicle 截屏到一些有风险的网站时,网站可能通过提示词注入的方式,在屏幕上隐藏一些恶意指令,让 Codex 执行。

Chronicle 这项功能目前仅向 ChatGPT Pro(200 美元/月)用户开放,支持 macOS 版本的 Codex 应用,作为研究预览版推出。待 Chronicle 正式上线之后,相信 Codex 会把它开放给更多用户使用。

手机遥控、电子宠物、「Hermes Agent」都有机会上线

这段时间,Codex 被网友们称作是一款正在用力追赶 Claude 的产品。虽然一方面是在说 OpenAI 没有主见,随大流。但另一方面,能看到好的产品之间展开你追我赶的竞争,对我们用户来说未尝不是一件好事。

Codex 开发者在 X 上问大家对 Codex 有何意见,网友们非常积极的表示,要加上手机控制功能,还有人说 Codex 也应该从 ChatGPT App 里面进入。而这些都是 Claude 目前已经做到的功能。

也有网友在下面反馈 Codex 存在的各种 Bug,像是内存泄露、会话只能存档不能删除等问题。

最新的 Codex 更新爆料里还提到,Codex 也打算做一个小小电子宠物,放在 Codex 桌面上,来提示用户目前会话的各种状态。

这个电子宠物共有 8 种预设形象,用户还可以创建使用自己的虚拟形象。

▲来源:https://x.com/testingcatalog/status/2046366630528143827

另一个爆料则提到 OpenAI 正在为 ChatGPT 开发智能体(代号 Hermes),其中包括智能体构建器、模板、日程安排、在 Slack 中使用智能体的选项、添加应用程序、技能、文件、内存、指令等功能。

▲来源:https://x.com/btibor91/status/2046545878538961304/

眼下的 Codex 是一个活跃开发的产品,OpenAI 必然不会把本地 Agent 产品这一块的市场拱手让给 Claude。

别说 OpenAI 这位 AI 界的老大哥,前几天,Gemini 也不声不响地发布了桌面版应用,但是被一众网友评价「拉爆了」。

只能鼓励一下 OpenAI 和 Gemini,赶快结束 Claude 在本地 Agent 助手和代码这块的领先地位。

天下苦 A 社久矣。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

一般人如何快速上手 Codex 超完整圖文教學:讓 AI 助理整理文件表格,建立自動化流程

 

一般人也能快速上手的 AI Agent:Codex 電腦端軟體

今天這篇文章想分享的是:如果我們不是懂程式設計的工程師,一般人要怎麼快速上手 OpenAI (ChatGPT) 的 Codex 工具?如何用這個 AI 助理,協助我們處理電腦硬碟資料夾中的工作文件、任務成果,進一步打造一個更自動化的電腦工作流程。

我覺得接下來想要善用 AI 的工作者,除了擁有像 ChatGPT 這樣的對話型生成式 AI 之外,也應該開始擁有一個像 Codex 這樣可以操作電腦、處理電腦中資料與文件的 AI 助理。兩者搭配在一起,可以建立一套更完整的人與 AI 協作流程。








以我目前使用 ChatGPT 和 Codex 的經驗來看,兩者的分工有明顯不同。

一個任務通常會有最後要輸出的成果,例如一份文件、一份簡報、一張試算表,或是一個整理完成的資料庫。但在真正進入「產出」之前,往往還會有一段很重要的前置流程:研究、發想、企劃、分析與復盤。

所以在大方向上,我會這樣分工:

  • ChatGPT:處理研究、發想、企劃、分析與復盤。
    • 我會利用 ChatGPT 上已經訓練好的專案助理,搭配 Deep Research 這類搜尋研究功能,透過對話進行腦力激盪、資料分析、計畫設計與任務規劃。
  • Codex 桌面端:處理真正要完成的工作成果。
    • 當我要根據前面規劃好的工作流程,實際產出一份文件、一份簡報,或是處理各種試算表、數據資料,整理電腦資料夾中的工作文件,乃至於真的要製作一個網頁、一個工具時(例如個人理財工具、產品說明網頁),就可以善用電腦端的 Codex 來完成。
  • 可以參考這個有趣例子,就是 ChatGPT 到 Codex 互相搭配完成的:不同 AI 工具如何分工、接力完成專案,分享我做一個象棋教學遊戲的流程

在 Codex 這樣的 AI Agent 可以編輯、管理電腦中資料文件的情況下,很多「輸出工作成果的流程」,我已經逐步轉移到 Codex 上進行。甚至像 Google 雲端硬碟中的文件,也可以交給 Codex 進一步編輯與處理。

對一般使用者來說,OpenAI 推出的 Codex 桌面端軟體,現在已經不需要任何程式開發基礎。只要安裝完成,就可以開始使用。操作過程也不一定需要接觸任何程式碼相關技巧。

所以這篇文章,我想從「非工程師、一般工作者」的角度,分享如何快速上手 Codex 桌面端軟體,以及可以嘗試看看的應用案例。







一般人如何立即了解 Codex ?把電腦資料夾變成 AI 工作台

很多人聽到 Codex,第一個反應可能是:這不是寫程式的人才會用的工具嗎?如果你不是工程師、不想寫程式,也沒有要開發軟體,好像就跟自己無關。

但我這幾個月實際用下來,覺得這是一個一般人也能快速上手的 AI 工具:

Codex 對一般人的真正應用,不是寫程式,而是把一個本機資料夾,變成可以被 AI 處理的工作台。

經過持續的改進與發展後,Codex 已經慢慢不只是寫程式的人才會用到的工具。基本上,你在電腦中需要操作的各種文件、檔案、資料整理與成果產出,也都可以納入 Codex 的 AI 工作流程中。

你只要下載 Codex 軟體,授權 Codex 管理你電腦中的某一個資料夾,它就可以開始協助你完成很多原本要自己慢慢處理的任務,例如:

  • 資料夾裡有一堆文件,不知道怎麼整理,可以請 AI 幫你分類與管理。
  • 裡面有一堆數據試算表,可以請 AI 協助統整、分析,甚至直接調整 Excel 上面的欄位與數據。
  • 有一堆文件、PDF、筆記,可以請 AI 重新整理,轉換成一份圖文並茂的簡報。
  • 如果你使用 Google 雲端硬碟和電腦同步,Codex 也可以直接處理 Google 文件、Google 試算表、Google 簡報等內容
  • 更進一步,你也可以把 Codex 當成資訊整理與筆記管理工具,在你的電腦硬碟資料夾中建立個人資料庫。 (延伸教學:AI 結合卡片盒筆記法,人不再操作軟體,用對話流程讓 Codex 搭建資料整理系統:我的兩個月實測心得

以前這些事情,我們可能會打開檔案總管、筆記軟體、雲端硬碟、試算表、簡報軟體,自己慢慢操作。

但現在如果有一個 AI Agent,可以直接在你指定的資料夾裡讀檔案、整理內容、建立新文件、修改草稿、產出清單,甚至把做得好的流程寫成下一次可以重複使用的規則,那麼 Codex 對一般人的價值,就不只是「幫工程師寫程式」。而是:

幫一般人把日常工作中最耗時的資料整理、文件處理、分析準備與成果產出,變成一條可以讓訓練好的 AI 助理去完成的自動化工作流程。




這些工作流程,如果只用傳統的 ChatGPT 對話來完成,可能會遇到幾個限制:

  • ChatGPT 不一定能直接處理你電腦硬碟資料夾中的所有內容。
  • 它比較不像真正的桌面軟體,可以直接編輯與管理檔案。
  • 當任務需要長時間、多步驟、連續處理一整批資料時,單純的對話式 AI 比較容易中斷或失去脈絡。

但 Codex 的桌面端軟體,就是一個可以在電腦端工作的 AI 助理,可以自己完成上述步驟。

更重要的是,對一般使用者來說,現在使用 Codex 桌面端軟體,不需要碰到讓人頭痛的程式碼或終端機介面。它的介面已經很成熟,比較接近一般知識工作者可以理解的「任務+對話+成果」三欄工作台。

你可以這樣理解 Codex 的 Windows 桌面端 App:

  • 最左邊的對話討論串:可以想像成你一個一個要管理的專案,或是不同電腦資料夾中的工作任務。
  • 中間的對話欄位:就是你交派 AI 助理工作的地方,可以請它在專案資料夾中完成各種步驟與任務。
  • 最右邊的預覽區:可以查看 AI 幫你完成的成果。除了程式碼,也可以預覽 Markdown 文件、Word、Excel、PowerPoint 檔案,甚至還有一個小型瀏覽器,可以直接瀏覽網頁內容。
所以 Codex 不只是「寫程式 App」,也不是單純另一個對話式 ChatGPT。

對一般工作者來說,它更像是在同一個專案資料夾中,從文件整理、資料研究、內容分析、簡報草稿、試算表整理,一路延伸到小工具開發的 AI 工作助理





我的第一個 Codex App 應用案例,和程式開發完全無關:

我對 Codex 這樣的 AI 助理工具,第一次覺得它很貼近一般人日常工作需求,是今年年初的一個旅行整理案例。

當時我們有兩個家庭要一起去新加坡旅行。因為人數比較多,我們買了非常多景點、遊樂園的票券,也有交通票券、住宿資料等各種文件。一時之間,所有資料混在一起,變得很難統整。

於是我把這 40 多張雜亂的票券,全部放進電腦硬碟中的同一個資料夾,接著請 Codex  AI 助理幫我處理(操作介面如上圖)。

第一步,我先請 AI 幫我分類。

結果 AI 很聰明地根據每一張票券上的日期,把原本雜亂的票券重新分類在一起,建立出更有邏輯的資料夾整理方式。

第二步,我讓 AI 從亂七八糟的票券整理出正確行程。

接下來,我再請 AI 從這些已經分類好的資料夾中,梳理出我們完整的旅行行程。AI 也能有效從這些票券內容裡抓出關鍵資訊,整理成一份行程清單。

整個過程大概兩三分鐘內就完成了。




以前這樣的工作,如果是我自己來做,我需要在 40 多張雜亂票券中,一張一張檢查日期、景點、時間與地點,先建立分類資料夾,再擷取每張票券中的關鍵資訊,最後整理出一份行程表。這樣的工作,起碼也要花 30 分鐘甚至 1 個小時以上。

但交給 AI 助理後,它可以在很短時間內完成。

而且這個過程中,AI 需要讀取 PDF、需要辨識票券中的文字,亦或是需要 OCR,這些原本聽起來可能比較麻煩的技術細節,AI 助理會自己判斷怎麼處理,甚至自己寫小程式來解決

對一般使用者來說,我們不一定需要知道它背後怎麼處理 PDF、怎麼做 OCR、怎麼寫程式。只要清楚傳達需求:

  • 這個資料夾裡有一堆旅行票券;
  • 請你先根據日期、類型幫我分類;
  • 再從票券中整理出完整行程表。

Codex AI 就能在電腦資料夾裡,自動幫我們完成這些原本要手動慢慢整理的工作。

這也是我第一次很明確感受到:Codex 這類 AI Agent,對一般人來說,並不只是拿來寫程式,而是可以幫我們處理那些「在電腦裡很瑣碎、很重複、但又必須完成」的工作流程。





一般人上手 Codex 的第一步:不要先想「自動化」,先建「專案資料夾」

如果你之前完全沒有使用過 Codex,也沒有程式開發的基礎,那麼上手 Codex 的第一步,不是急著讓它幫你自動化,也不是一開始就要求它完成很複雜的任務。

我會建議先做一個很簡單、也相對安全的動作:在電腦硬碟中建立一個新的專案資料夾,讓 Codex 在這個指定專案資料夾中測試處理資料。

Codex 對一般人是一個可以連到本機資料夾的行動型 AI 工作台。你可以把它想像成:先建立一個 thread(討論串),像是在 ChatGPT 裡開一個對話;但不同的是,這個 project 可以連到你電腦上的某個資料夾,讓 Codex 在指定範圍內讀取、整理、建立或修改檔案。

所以,對非程式工作者來說,我們可以從整理筆記、清理資料、比較草稿、處理文件開始,而不是從程式碼開始。




為了安全起見,我會建議先用「複製副本」的方式,把原本專案中的雜亂文件複製到這個新的資料夾中。

例如你可以建立這樣的資料夾:

  • [副本] 旅遊規劃_東京親子行
    • 航班時間
    • 飯店資訊
    • 想去的景點
    • 預算限制
    • 家人偏好
    • 已經查到的餐廳或交通資料
  • [副本] 理財月報_2026
    • 收支表
    • 投資紀錄
    • 上個月回顧
    • 目前目標
    • 自己的判斷原則
  • [副本] 課程講義文件
  • [副本] 網站文章草稿
  • [副本] 客戶訪談資料分析

你不需要一開始就做任何分類,也不用先整理得很漂亮。這個資料夾可以很雜亂,因為最後可以讓 AI 幫你整理。

也因為它是一個副本專案資料夾,所以即使 AI 助理在調整、分析或測試過程中出錯,也不會影響到你原本正式的專案內容。這對第一次使用 Codex 的一般工作者來說,是比較安心的開始方式。

如果你的 Google 雲端硬碟有同步到電腦本機,也可以用類似的方式,建立一個同步資料夾,讓 Codex 處理其中的 Google 文件、Google 試算表、Google 簡報或其他相關檔案。




接著,可以讓 Codex 先做一個動作:

請 Codex 先看一下這個專案資料夾裡面的文件內容,告訴你它看到了什麼。

一開始不要直接叫它修改、刪除、重命名或搬移檔案。

先請它盤點,理解這個資料夾的內容,並且提出建議。你可以明確告訴它:先不要修改任何資料,只要回報它的觀察,等你確認後再開始執行。

可以使用這樣的提示詞:

請先檢查目前這個資料夾。

請回報:
1. 你看到了哪些檔案?
2. 這些檔案可能分別代表什麼?
3. 這個資料夾適合先做哪 3 個小任務?
4. 其中哪一個任務最安全、最容易驗收?

先不要修改任何檔案。
請等我確認後再執行。

這段提示詞看起來不華麗,但它幫我們建立了三個護欄:

  • 先盤點,不先動手。
  • 先建議小任務,不直接做大改。
  • 先等人確認,不擅自修改。

透過這樣的方式,你就開始了用 Codex 管理專案資料夾的第一步。

下面是我建立了一個孩子課業學習資料的資料夾後,讓 Codex 盤點一下可以做什麼遊戲化工具。




而最後根據 Codex 的建議,讓 Codex 自己建立遊戲機制、自己畫圖(支援用 GPT Images 2.0 畫遊戲圖像素材),大概週末半天的討論時間,完成下面這個成果。





要正式交派任務前,先讓 Codex 建立基礎專案規則文件:

前面建立專案資料夾、讓 Codex 先盤點內容,只是一個簡單的上手練習。

當我們真的要開始處理比較複雜的任務時,就可以在中間的對話視窗,開始對 AI 交派任務。

但是,在正式交派任務之前,有一個很關鍵的第一步:

當 AI 助理已經理解這個專案資料夾中的基本內容後,先給它一個目標,請它建立一份基本的專案 MD 文件。

可以利用像是下面這樣簡單的指令:

根據前面的理解,建立專案規則文件,讓未來的工作可以遵循。




Codex 通常會建立一份 Agents.md 文件,這份 MD 文件可以用來記錄:

  • 這個專案的目標是什麼。
  • AI 目前如何理解資料夾中的內容。
  • 這個專案接下來可能要完成哪些任務。
  • 未來處理這類任務時,應該遵守哪些基本原則。

之後隨著專案任務持續推進,這份 MD 規則文件甚至可以再衍生出不同子任務的規則文件,並且在工作過程中持續復盤與更新。

這樣做的目的,是讓接下來的 AI 助理有共同的遵循原則,也能保留更長期的記憶。甚至當我開一個新的討論串,或是重新進入這個資料夾時,Codex 也可以透過這些文件記得前面的狀態,立刻接手工作。



例如我有一個理財的 AI 助理,我就先建立一個理財專用的資料夾,把目前某些財務、投資現況的試算表先丟進去。

接著,我會用前面的方法,先讓 AI 助理理解這個專案資料夾裡的文件資料,並且請它建議:如果以家庭理財為目標,接下來可以先做什麼任務。

這時候它可能會建議我,先建立一個可以減少手動更新,並且以 10 年、20 年長期目標為主的理財規劃工具,或者理財規劃頁面。

於是我就會請 AI 助理,把這個目標,以及它目前對我理財現況的理解,先建立成一份基本的專案 MD 文件。這樣之後在持續推進理財規劃的過程中,AI 助理就有一個可以遵循的原則。





開始對理解專案內容的 Codex 交派任務:

當 Codex 已經理解專案資料夾的內容後,接下來就可以開始交派任務。

當我們正式交派 AI 任務時,尤其對一般人來說,很可能不一定具體知道 AI 做不做得到我想要交付的工作。例如:

  • 我不知道它到底可以處理一份簡報到什麼程度。
  • 我不知道它可以整理一份試算表到什麼深度。
  • 我也不一定知道它會用什麼方法完成任務。

所以這時候最好的測試與溝通方法,不一定是教 AI 每一步怎麼做,而是在指令裡明確說明:

  • 這次任務想完成什麼成果。
  • 資料處理的界線在哪裡。 
  • 我想像中的需求是什麼。
  • 解決之後要達到什麼效果。
  • 我會用什麼標準來驗收。

換句話說,我們要把「成果」說清楚,把「需求」說清楚,把「驗收標準」說清楚。至於到底要怎麼做到,可以讓 Codex 自己想辦法設計工作流程

這時候我的交派任務經驗是(尤其 Codex 更新到可以使用 GPT-5.5 模型後),會在指令中明確交代幾件事:

  • 成果:最後要輸出的是一份報告、簡報、網頁、圖片,還是其他內容?請 AI 助理一步一步處理。
  • 資料範圍:AI 助理這次明確要使用哪些資料,並且提醒它要先從規則文件出發。
  • 需求與驗收標準:這個成果要解決什麼問題?滿足哪些需要?誰會怎麼使用這個成果?
  • 界線:可以做什麼,不可以做什麼。
如果任務比較複雜,我也會搭配 Codex 的 Plan 規劃模式,讓 AI 助理先自己設計工作流程,再開始正式執行。



讓我們從前面那個雜亂的旅行票券資料夾出發,試試看怎麼讓 AI 助理去處理一個任務,並且輸出具體成果。

在這個案例中,我利用前面建立好的指令與規則,要求 Codex 輸出一份「讓旅行同伴也能快速理解這次行程重點的圖文手冊」。

這時候,我沒有一開始就告訴它到底要做成網頁版、PDF,或是哪一種格式;也沒有直接教它每一步要怎麼製作。我只先告訴它幾件事:

  • 限定要使用的資料範圍是什麼。
  • 我希望這份圖文手冊達到什麼效果。
  • 我希望圖文手冊的內容有哪些關鍵限制。
  • 這份手冊是給旅行同伴快速理解行程重點使用。

接著,我開啟 Codex 的 Plan 模式

這個模式的意思,有點像是讓 AI 先根據目前的需求與資料範圍,自己思考怎麼做會比較好。這時候 Codex 不會馬上開始動手,而是先在規劃過程中詢問我幾個關鍵問題

從你對專案的理解與規則出發,製作一份讓旅行同伴也能快速理解這次行程重點的圖文手冊。
請一步一步處理,
以前面建立的行程表為基礎,以所有票券資料為素材,
整理出來的圖文手冊要能方便分享給每一個旅伴,讓每個旅伴都能掌握每一天、每一地的必備資訊,但又有吸睛、對應真實資料的圖片、圖解作為輔助,複雜的資訊會更易懂,有趣的行程會看起來更有趣。
一定要使用繁體中文說明,避免重複或瑣碎不必要的資訊堆積,要依照每一天的行程順序為順序架構。




例如,它先問我:這份手冊到底要做成 PDF 版、Markdown 圖文版,還是簡報版?我可以從中選擇一個自己最想要的方式。




接著,它也會問我:手冊中的圖片應該怎麼呈現?

它當時提供了三個選項,但裡面沒有我真正想要的選項。這時候,我就可以自己打字補充,告訴它:我希望結合官方照片,再加上 AI 自己繪製的圖解。




經過這樣的規劃後,Codex 會先提出一份「如何製作這份圖文手冊」的製作計畫,而不是立刻動手。

我檢查這個計畫,如果覺得方向可行,就按下「執行此方案」的選項。接著 Codex 就會依照前面規劃好的步驟,一步一步處理。




這時候就可以看到 AI 助理的威力:

  • 它可以讀取電腦硬碟資料夾中的文件內容。
  • 它可以結合上網搜尋,補充官方資料來源。
  • 它可以使用內建工具,甚至自己寫工具,來完成製作 PDF 所需要的各種操作。
  • 我們不需要自己處理那些繁瑣步驟,只要讓 AI 依照計畫自動完成。

完成後,Codex 通常也會自己做一次驗證,確認它交付的成果內容是可用的。




所以在 Codex 裡交派任務時,我現在會採取這樣的流程:

  1. 先說清楚成果。
  2. 指定資料範圍。
  3. 說明需求與驗收標準。
  4. 補上可以做與不可以做的界線。
  5. 任務較複雜時,開啟 Plan 模式,讓 Codex 先設計工作流程。
  6. 確認計畫後,再讓它開始執行。





任務完成後:先檢查成果,再請 Codex 復盤成規則

當 Codex 完成我們交派的任務後,產出的成果可能是一份簡報、一份文件、一張試算表,或是其他專案檔案。這時候,它會在回答的最下方列出這次產出的檔案。我們只要按一下右邊的「開啟」,就可以在右側預覽畫面中,直接檢查剛剛完成的結果。

Codex 的預覽工具不只可以看網頁、看程式碼,也可以查看我們一般工作者更常使用的文件、試算表與簡報內容。也就是說,當 AI 完成任務後,我們可以立刻在同一個介面裡確認:

  • 這份文件內容是否正確?
  • 這份試算表整理是否符合需求?
  • 這份簡報是否可以拿來使用?
  • 這次成果是否達到前面設定的驗收標準? 




如果我覺得這一次產出的結果是可用的,接下來我通常不會只是把檔案拿走(其實也不用拿走,檔案就儲存在專案資料夾中),而是會再給 Codex 一個復盤指令。

這個復盤指令的目的,是請 AI 回頭整理:剛才它是怎麼完成這份有效簡報?這一次它是怎麼處理這份有效試算表?中間用了哪些資料、哪些步驟、哪些判斷,最後才做出這個可用成果?

接著,我會請 Codex 把這些有效的工作流程,寫進這個專案對應的規則文件中。

也就是讓 AI 自己去處理專案規則,自己建立各種工作規則,甚至建立後面可以繼續使用的技能。這樣之後在同一個專案裡,如果我要產出新的工作成果,就可以沿用類似的方法,而不是每一次都重新開始。

這是我目前使用 Codex 時很重視的一個步驟:

任務完成後,不只檢查成果,也要把有效流程留下來。

這樣一來,這個專案底下就會慢慢訓練出一個越做越順手的 AI 工作助理。(延伸應用:養成讓 AI 復盤工作流程的習慣,你的 ChatGPT、Codex、OpenClaw 助理就會愈做愈好

前面這個簡報檔案製作的流程還不錯,幫我復盤一下過程,建立之後做簡報的規則。請一步一步處理,分析用了哪些工具、執行了哪些方法,把整個流程梳理出來,讓我們以後要做課程簡報的時候,也能用同樣的邏輯、同樣的規則、同樣的技巧、同樣的工具來完成一份可用性更高的簡報內容。最後寫進對應規則,或是新增更適合的課程簡報規則文件。





Codex AI 助理處理任務時你可以善用的功能:能力、權限、排程、多工

前面幾個關鍵階段,是我推薦非工程師、一般工作者剛開始使用 OpenAI Codex 時,最需要掌握的流程與步驟。

當你開始讓 Codex 處理幾個任務,逐漸有經驗之後,這個軟體內建的一些功能,也可以開始做自己的調整與切換,讓它更符合你的工作需求。

第一個需要調整的,是根據任務難易度,選擇合適的模型與執行速度

在對話視窗的右下方選單中,可以切換不同 GPT 模型,也可以切換智慧等級與執行速度。大致上可以這樣理解:

  • 模型與智慧等級:會影響它可以處理的任務複雜度,以及處理過程中的細緻度、準確度。
  • 執行速度:如果選擇快速,AI 會更快完成任務。
  • 額度消耗:模型等級越高、速度越快,通常也會消耗更多每週額度。

以我自己使用每月 100 美金的 Pro 版本來看,如果每天都利用 Codex 處理工作上的幾個重要專案,並且都「毫無顧忌」的使用最高等級、最快速版本,一週額度其實也會在不到一週內被消耗完。若是免費版或 Plus 版本,消耗速度就會更明顯。

所以我的做法是,如果只是簡單任務,例如:

  • 理解一下專案目前的資料狀態。
  • 做簡單資料分類。
  • 處理一般文書整理。
  • 初步檢查資料夾內容。

那麼可以選擇中~高等級的智慧功能,甚至切換到 GPT-5.4、GPT-5.3 之類的模型,速度選擇「標準」,讓它多花一點時間處理,但少消耗一些額度,這樣可以多做幾個工作任務。




接下來,在對話視窗左下方,會有三種權限可以選擇。

這裡我覺得一般工作者也要理解,因為 Codex 不是單純回答問題,它可能會真的改動你的檔案。大致上可以這樣區分:

  • 預設權限:幾乎每個改動步驟,AI 都會詢問你,要求你確認。
  • 自動審核:當 AI 的操作可能影響整個系統,或跨出你的專案資料夾範圍時,它會自己判斷風險。如果判斷是中高風險以上,就會要求你確認;如果是低風險操作,則可能自動允許。
  • 完整存取權:大多數時候不會經過你的確認,AI 會直接開始工作。
如果你要處理的任務,有可能影響整個系統,或可能改動重要檔案,我會建議至少選擇「預設權限」或「自動審核」。

這樣在 AI 真正改變檔案之前,你還有機會做一次確認。




Codex 有一個很好用的功能,就是當 AI 正在處理任務時,你還是可以繼續在下方對話框輸入下一步指令。

因為有時候一個複雜的工作流程,可能要處理 10 分鐘,甚至 20、30 分鐘。我自己的經驗是,有些任務可能會處理超過一個小時,才能完成一個比較複雜的工作流程。

這時候,你可以在下方對話框繼續新增下一個任務指引。

如果直接按下 Enter,通常會選擇「排入佇列」。意思是:前一個任務完整做完後,Codex 才會接續執行下一個任務。

這個功能很適合用在連續工作上。例如你可以連續添加兩、三個任務,每個任務可能都要做 20、30 分鐘。這時候你可以去處理別的事情,一個多小時後回來,這幾個接續任務就可能已經完成。

如果選擇 Ctrl + Enter,則是「引導」。這個意思是:當 AI 正在處理前一個任務時,你可以把新的引導指令直接插入進去,讓它立刻接收到你的意見,調整正在進行中的工作

例如你看到 AI 正在處理一份圖文內容,但你發現它的編排方式不是你喜歡的,這時候可以立刻告訴它:
  • 改成左圖右文。
  • 改成圖片在上、文字在下。
  • 重新調整目前的排版方式。
Codex 就會馬上接收你的意見,調整做到一半的內容。這個功能很適合用在你已經看到 AI 的方向,但想要即時修正細節的情境。




Codex 也可以同時開啟多個討論串。也就是說,你可以同時讓好幾個專案資料夾裡的 AI 助理,處理不同任務

例如:

  • 一個專案資料夾正在製作簡報。
  • 另一個專案資料夾正在處理旅遊行程。
  • 第三個專案資料夾正在幫你進行數據資料的統整與驗算。

透過多討論串並行的方式,讓 Codex 真的在電腦端幫你同時處理幾條工作線。





進階使用:外掛、技能與自動化,讓 Codex 接上更多工作流程

當你慢慢熟悉 Codex 上面的各種基本操作後,下一個階段,可以開始了解 Codex 的「外掛」、「技能」與「自動化」這些功能。

這些功能的重點,是讓 Codex 可以接上更多服務,理解更多工作流程,甚至把已經跑順的任務變成固定時間自動執行。

什麼是 Codex 的外掛?

以我自己的工作情境來說,我常常有非常多的文件、簡報、試算表,是放在 Google 雲端硬碟中的雲端文件,而不是存在本機電腦硬碟裡。那這樣 Codex 還可以操作它們嗎?

可以。方法就是在 Codex 裡安裝並授權 Google 雲端硬碟相關的外掛。

當我們安裝 Google 雲端硬碟外掛時,通常會需要連接到 Google 雲端硬碟服務,進行帳號授權。授權成功之後,Codex 就會取得處理 Google 雲端硬碟中各種線上文件的能力。例如:

  • Google 文件
  • Google 簡報
  • Google 試算表
  • Google 雲端硬碟資料夾

這樣一來,Codex 不只能處理本機資料夾中的檔案,也可以進一步處理我平常大量使用的 Google 雲端文件。




安裝外掛後,通常也會連帶在 Codex 裡安裝對應的「技能」

什麼是技能?

如果以前面的 Google 雲端硬碟外掛為例,當我安裝並授權這個外掛之後,Codex 的 AI 助理就會獲得一些相關技能,例如:

  • 如何處理 Google 文件
  • 如何處理 Google 簡報
  • 如何處理 Google 試算表
  • 如何整理 Google 雲端硬碟資料夾

你可以把「技能」理解成:處理某種特定任務的工作流程與操作步驟

例如,Codex 透過技能理解 Google 簡報的操作邏輯,再搭配前面外掛提供的 Google 簡報編輯授權,這時候 Codex 就可以直接幫我製作或修改 Google 簡報。




在 Codex App 的左上方,還可以看到一個「自動化」功能。

如果我在某個討論串中,已經把某個工作流程跑順了,而且這個工作流程是我想要每天或定期重複執行的,就可以把它建立成自動化流程

例如:

  • 每週整理這個專案資料夾裡的新資料,建立一份週報。
  • 每天處理這個資料夾裡的最新數據,建立今天的理財投資分析建議。
  • 定期檢查某個資料夾中的新文件,整理成報告或摘要。

這時候,我可以直接要求 Codex 在這個討論串中建立一個自動化流程。之後到了指定時間,Codex 就會自動啟動前面已經訓練好的步驟,幫我完成任務。




Codex 的自動化,大致可以有兩種設定方式。

第一種,是在某個討論串中,明確告訴 Codex:
  • 要自動處理哪些工作步驟?
  • 要多久執行一次?
  • 要在什麼時間開始?
  • 最後要產出什麼結果?
接著請它直接建立一個定期循環的自動化流程。

第二種,是在一個已經討論到一定階段、而且工作流程已經跑順的討論串中,直接請 Codex:
把前面這個已經完成的工作流程,建立成一個自動化流程。

這時候,Codex 就會把前面已經跑過的流程整理成可以重複執行的自動化項目,等到固定時間到了,它就會自動處理。我們到時候只要接收報告或成果即可。





利用 Codex 進行其它軟體視窗的 AI 語音輸入:

在 CodeX 電腦端軟體中還有一個很實用的「聽寫」功能,就是透過 AI 辨識來進行語音輸入,有點類似前一陣子很流行的 Typeless 之類的語音輸入工具。它預設是關閉的,我們可以到 CodeX 的軟體端,在它的設定裡面找到語音輸入,然後設定一個電腦當中的快捷鍵,例如我在 Windows 裡面設定的是 Ctrl + T。

接下來,只要我的 CodeX 軟體沒有關閉,我可以切換到電腦中其他的輸入視窗,例如我在 Evernote 裡面的筆記,或是現在這一段的部落格文章編輯頁面。這時候我只要按下 Ctrl + T,然後開始講出我想要輸入的相關內容。

可以想一想,語音輸入的這些段落,都是由 CodeX 的語音輸入來完成的。講完之後,再按下 Ctrl + T,它就把你講的內容轉成文字稿;而且因為結合了 AI 模型,所以它可以自動加上標點符號、自動斷句,也會自動糾正你裡面的一些文字錯誤;大多數時候也都能穩定地輸出成繁體中文(但也有時候會變成簡體中文)。

這樣應該就可以少安裝一個語音輸入的 AI 工具,直接用 CodeX 解決問題。






任務越多時,要善用 Codex 的討論串分類與釘選功能:


最後,當我們開始有越來越多任務在 Codex 上處理後,一些分類與管理功能也要慢慢掌握起來,否則最後討論串會變得越來越混亂。

首先,在左方的專案資料夾底下,我們可以根據這個專案裡不同的子任務,開啟不同的討論串,避免彼此混雜。例如我有一個「外部資料庫/第二大腦」的資料夾,裡面包含:

  • 我抓取的重要參考資料原文
  • 我的筆記卡片
  • 已經建立好的永久筆記

在這個大資料夾底下,我就會開幾個不同的子任務討論串:

  • 一個討論串,專門處理每天的資料抓取。
  • 一個討論串,專門處理內容草稿。
  • 一個討論串,專門處理如何從這個外部資料庫,建立課程規劃。

這樣彼此區隔後,不同的 AI 專案助理,就可以在適合的子任務上,根據它需要的規則,完成更有效的任務

如果有一些子任務討論串,目前正在緊鑼密鼓地進行,我們也可以點一下左邊的圖釘,把它釘選在左上方

這樣它就會從資料夾中的一般列表,移到左上方更容易管理的位置,也能讓我們更快看到目前最重要、最常使用的討論串。

簡單來說,當 Codex 開始變成你的電腦端 AI 工作助理後,不只要學會交派任務,也要學會整理任務。 把不同子任務拆成不同討論串,再把正在進行的重要任務釘選起來,會讓整個 Codex 工作流程更清楚、更容易長期管理。




我不是工程師,也值得試試看 Codex 嗎?答案是肯定的。你可以根據這篇文章,從下面流程開始:

  1. 建一個副本資料夾
  2. 放入雜亂資料
  3. 讓 Codex 先看不要動
  4. 建立專案規則文件
  5. 用成果、資料範圍、需求、驗收標準交派任務
  6. 任務完成後復盤寫回規則

逐步測試,你也能慢慢地掌握 AI Agent 的工作方式。



大家好,我是電腦玩物站長 Esor ,歡迎參考我的系列課程與書籍:


我的電子郵件是 [email protected] ,如果你有任何關於筆記術、時間管理、提升工作效率的問題,歡迎寫信跟我討論。

(歡迎社群分享。但全文轉載請來信詢問,禁止修改上述內文,禁止商業使用,並且必須註明來自電腦玩物原創作者 esor huang 異塵行者,及附上原文連結:一般人如何快速上手 Codex 超完整圖文教學:讓 AI 助理整理文件表格,建立自動化流程


OpenAI「复活」了 QQ宠物,网友直接玩疯,把奥特曼和他死对头都养在了电脑里

谁不想在自己的电脑上养一只小宠物,打开电脑,它就坐在那里看着你工作。

OpenAI 最近在 Codex 上的更新,引入了类似电子宠物 Tamagotchi 的桌面悬浮伴侣。

我们可以在摸鱼的时候,把鼠标悬浮到小宠物上逗它,还能拖着它在屏幕的各个位置游走;而在工作的时候,这只悬浮宠物还会实时显示 Codex 的工作状态。

和之前 Anthropic 在 Claude Code 终端里推出的像素宠物不太一样,Codex 的这只会全局地在我们的电脑上呈现。无论切换到哪个 App,它都在那个角落。

以前是人与人的聊天软件里,像是 QQ,需要一个 QQ 宠物从桌面右下角蹦出来,给它取一个名字,建立情感的联系,而它会告诉我们消息来了。

现在这件事,来到了人与 AI 的故事里。

从微软大眼夹到 Mac 访达笑脸,万物皆可宠物化

Codex 官方内置了 8 款像素风的基础宠物,包括默认原始的经典 Codex 形象,还有一只整洁的小鸭子 Dewey、适合快速迭代项目的火球 Fireball,以及一只小小的蓝屏捣蛋鬼 BAOD(Blue Screen of Death) 等。

我们可以在 Codex 设置>外观 最下面的宠物部分找到配置的相关信息。

▲Codex:最初的 Codex 伙伴。|Dewey:一只整洁的小鸭,适合平静工作的日子。|Fireball:热路径能量,适合快速迭代。|Rocky:当 diff 变得很大时,它是一块稳稳的石头。|Seedy:为新想法冒出的小绿芽。|Stacky:一个平衡的堆叠,适合深度工作。|BSOD:一只小小的蓝屏捣蛋鬼。|Null Signal:来自虚空的安静信号。

但真正有意思的是,Codex 的自定义宠物功能。

通过使用 Codex 自带的 /hatch 指令,我们可以上传任何图片,Codex 会自动把它孵化成一个动画宠物,并保存在本地文件夹中,方便我们打包分享给其他人。

使用 /hatch 指令之前,我们还需要输入命名 $Skill Installer hatch-pet 来安装自定义宠物的 Skill。它会自动从 OpenAI 的官方 GitHub 仓库里面,下载对应的 Skill 文档。

▲Skill 文档链接:https://github.com/openai/skills/tree/main/skills/.curated/hatch-pet

准备就绪,我们使用 hatch pet Skill 输入 $hatch-pet 做一个 labubu 的桌面宠物

Codex 会自动按照 Skill 里的流程,先生成一张主图,根据这张主图再生成 idle、running-right、running-left、waving、jumping、failed、waiting、running、review 等多种不同状态图片。

每一种状态,Codex 都会生成 4-8 帧的图片。

等待它生成全部状态的图片,合成为动画,我们就能得到一个自定义的桌面电子宠物。

社交网络和开发者社区也利用这一功能,创作了大量能提升 vibe coding 幸福感的桌面宠物。

像是恶搞 Anthropic CEO,做了一个愤怒的达里奥,还有奥特曼,「一个有趣的像素风格 Sama 灵感宠物,带着焦虑的斜视眼睛,头上戴着太阳镜,穿着灰色T恤和牛仔裤,散发出混乱会议室的能量。」

▲Codex 宠物大全,PetShare 平台:https://codex-pet-share.pages.dev/

一些怀旧党立刻复刻了微软经典的大眼夹(Clippy),那个在我们新建文件、打开文件夹,都会跳出来,多两句嘴的桌面宠物,用 Codex 获得了新生。

苹果粉丝,就用 Codex 这套 Skill 做了一个相当生动的 Mac Finder(访达)笑脸小人 Lil Finder Guy,让它悬浮在程序坞上方,仿佛系统原生的一部分。

甚至还有人做出了乔布斯版本的宠物,以及像是 DeepSeek 的那只鲸鱼等。

▲另一个宠物社区,Petdex:https://petdex.crafter.run/

▲ 来源:https://x.com/GOROman/status/2050343893921923145

在极短的时间内,PetShare 和 PetDex 这样的社区驱动型宠物图鉴网站,如雨后春笋般涌现。

多邻国的那只猫头鹰、经典动漫角色龙珠里的悟空、神探福尔摩斯、旅行青蛙、哈利波特、哆啦 A 梦等等,都成了 Codex 的热门宠物选择。

▲电影《拯救计划》里的 Rocky

为了给这波热潮添把火,OpenAI 甚至官方下场举办了比赛:只要你生成的宠物被官方选入「最喜爱的 Top 10」,就能获得 30 天的 ChatGPT Pro(200 美元/月)奖励。

我们也在 Codex 里生成了一些小宠物,都是通过简单的两三个字的提示词。像是「做一个原神里旅行者荧的桌面宠物」,不过需要注意的是,生成自定义宠物需要的时间较长,同时消耗的额度也比较大。

▲ 在生成第二个桌面宠物时,直接提示 5 小时内额度用完了。

更多 Codex 桌面宠物案例:

PetShare:
https://codex-pet-share.pages.dev/#/?sort=popular

PetDex:
https://petdex.crafter.run/

电子宠物是 AI 的灵动岛

把这些自定义的宠物放到 Codex 里面也非常简单,可以直接下载文件压缩包,复制到对应的文件夹,然后在设置里进行选择。

直接在 Codex 中输入简单的 /pet 指令,我们的桌面上也能快速召唤出一个活蹦乱跳的电子宠物。

这个电子宠物,除了可爱,还确实有一点用处。

它不写代码,不 debug,唯一的工作是偶尔弹出对话气泡,告诉我们 Codex 正在后台做什么——「思考中」「任务完成」「需要你来决定一件事」。

任务完成了,点它一下,直接回复,继续。

▲ 一边刷 X,一边提醒我 Codex 进度

以往我们无论是用 Claude Code、OpenClaw,还是就在 DeepSeek 里面聊天,把一个任务交给他们,总是时不时需要切回对应的窗口,看看它是不是卡住了,是不是还在思考。

现在,这只悬浮在屏幕最顶层的宠物,会通过气泡和动作告诉我们 Codex 的后台状态。

基于生成的多种状态,这只桌面宠物,如果开始在挠头了,就说明它正在「思考」;它弹出气泡,就说明它完成了任务,或者需要我们提供进一步的输入。

更有意思的是,如果我们在它发消息时点击它,就可以直接开启一条回复 AI Agent 的双向通道。它就像是 macOS 桌面上的一个跨应用灵动岛,让我们在专注当前工作流的同时,对 AI 的进度了如指掌。

一直在更新的 Codex

电子宠物的功能在社交媒体上给 Codex 带来了又一波的好评,网友们都在说,这也太可爱了,情绪价值非常到位。

看着自己喜欢的小宠物在桌面上跳动,要比看着进度条转圈要心情好上不少。

但 Codex 这次在更新桌面宠物的同时,还悄悄放了两个新功能。

Codex 现在能够自动检测我们的电脑上,是否有其他 AI 编程工具,比如 Claude Code 留下的配置文件。

一旦检测到类似如 CLAUDE.md 的文档,它会主动建议并一键导入所有的插件、项目约定和自定义规则。

如果你也是为了避开不同平台的使用频率限制,让在多个 AI 之间反复横跳,这项更新降低了一定的切换成本。

另一项更新是在 Codex 内新增了「听写词典」,允许我们预先录入个人的常用缩略语和短语。

对于习惯用语音让 AI 写代码的用户来说,专有名词和缩写经常会被错误识别,导致反复修改。现在通过添加对应的条目,可以让减少我们纠错的麻烦。

OpenAI 也开始用最频繁的更新,把用户留在自己的生态里。

配置文件的跨端迁移、更懂用户的语音工具,加上那些在屏幕上挥手、打盹、偶尔还会抖动一下的悬浮宠物……

奥特曼在 X 发文说,感觉 Codex 正在经历 ChatGPT 时刻。

虽然事后奥特曼解释是 Goblin 时刻,但是 Codex 这接二连三的更新,也能看到 Codex 确实正在向一个更完整的、具备极高粘性的桌面「超级应用」进化。

在 AI 能力逐渐同质化的今天,产品的魅力和情绪价值,变得和代码生成能力一样重要

就像那位做出 Lil Finder Guy 宠物的网友,分享了一段 AI 发给他的话,宠物用乔布斯的腔调说:

致敬那些小小的存在,那些悬在 Dock 上摇摇晃晃、时不时打个盹的小帮手,它们让工作变得轻一点。致敬 Codex 宠物。

好了,看着桌面上那个正冲我挥手的像素小怪物,我可能也得出门去溜达一圈了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

不用打開剪輯軟體,用 Codex AI 把一篇文章自動做成圖文動畫教學影片


前兩天在電腦玩物分享了 OpenAI 的桌面端 AI 助理 Codex 教學:一般人如何快速上手 Codex 超完整圖文教學:讓 AI 助理整理文件表格,建立自動化流程,今天繼續分享一個一般人日常也可以使用的 Codex 應用案例:製作動畫影片,可以把一篇文章轉成教學影片,可以把一個網站轉成介紹影片。


只要在 Codex 建立影片專案資料夾,利用 OpenAI 內建的影片製作外掛(包含對應的技能 Skills ),就可以

透過「開口下指令」的方式,讓 AI 助理幫我們撰寫影片腳本、準備影片圖片素材、設計影片動畫特效、完成影片剪輯!

像是老師要製作教學影片,專案經理要製作產品說明影片,都可以利用 Codex 建立一個更自動化的影片生產流程。

透過下面分享的方法,我把前幾天的這篇教學文章「一般人如何快速上手 Codex 超完整圖文教學:讓 AI 助理整理文件表格,建立自動化流程」,在只動口下指令的情況下,沒有自己動手做任何的剪輯修改,把文章轉換成下面影片版本。





第一步,讓 AI 先抓取文章,規劃影片腳本


我的步驟是這樣的。

先在 Codex 開一個新的聊天,然後指定一個未來要製作影片用的電腦資料夾,這樣就開始了一個影片製作專案。(詳細教學步驟可參考:「一般人如何快速上手 Codex 超完整圖文教學:讓 AI 助理整理文件表格,建立自動化流程」)




然後我的第一個指令如下,先打開 Codex 的「規劃模式」,讓 Codex 去抓取指定網頁的文章、圖片,先寫出一個影片腳本。

你是我的影片製作專家,把這篇文章內容「https://www.playpcesor.com/2026/05/codex-ai.html」,改寫成教學影片的腳本。請一步一步處理,根據這篇文章的教學文字內容,網頁文章中提供的教學圖片與文字,思考如何變成一則快速上手教學影片。我的期待是影片本身會用圖文搭配動畫製作教學,內容除了搭配文章中的關鍵字句、圖片外,也可以搭配一些圖解動畫方式呈現。影片不會有旁白,但有配樂。每一頁的節奏明快,讓人看得懂,但不會太沉悶,影片能引起大家的興趣,並能掌握快速上手的核心邏輯。





第二步:讓 AI 自己把圖文素材準備好

根據腳本計畫執行的 Codex ,不只會寫出影片的分鏡架構,還自動把我文章中的圖片都抓取下來,之後可以放入影片中。





第三步:利用 Codex 內建的影片製作外掛

目前 Codex 內建了兩種製作動畫影片的外掛:

  • Remotion(製作的影片比較簡單,但是產出速度更快)
  • HyperFrames by HeyGen(製作的影片有比較多動畫效果)

直接在 Codex 的「外掛程式」頁面找到這兩個外掛,安裝其中一個即可(相應的技能等也會一起安裝)。

這邊我利用 HyperFrames by HeyGen 來做示範。




要特定外掛時,可以在 Codex 先輸入 @ ,然後打上外掛名稱即可。

於是在完成腳本、抓好圖片素材的 Codex 專案中,我接著這樣下指令(一樣開啟「規劃」模式,先做計劃再執行):

@HyperFrames by HeyGen
根據專案的教學影片腳本,以及你準備好的文字、圖片素材,製作出教學影片。請你一步一步分析我的需求,這支影片主要的目的是了解觀念、引起興趣,並且會讓看到的人願意分享。用這樣的角度去思考,在目前現有的腳本架構、圖片素材當中,你怎麼把它們重新組合來製作影片?你自己去決定影片的規格,你可以做幾輪的分析,去嘗試找到影片當中如果還需要製作一些動畫素材,或者什麼樣的串場,自己想辦法去實現它。

Codex 擬出了下面計畫,我就讓他接續執行。

這時候,會需要安裝製作影片需要的程式、工具,但是不用擔心,Codex 會自己在電腦資料夾中完成這些動作,我們就交給 AI 執行即可。





第四步:完成影片並匯出

當 Codex 完成影片後,可能出現幾種情況,如果比較短的影片,有時候 Codex + HyperFrames 會直接匯出 mp4 影片,儲存在我們前面指定給他的專案資料夾中。




但如果是 Codex + HyperFrames 的搭配,製作完成後有可能先提供一個預覽網頁。
我們先在網頁中查看影片效果如何,如果決定匯出,就在右上方的「 Renders 」處,選擇「 Export 」匯出成 MP4 影片檔案。





第五步,讓 AI 協助幫影片加上配樂、音效

如果前面製作的影片沒有配樂,我可以這樣接續的問 Codex:

如果我想要加上音樂、音效甚至配音,可以怎麼做,請一步一步規劃執行。

在這個測試中, Codex 找到了可以授權免費商業使用的音樂,直接加入前面的影片中。





第六步,影片不如預期怎麼辦?

如果想要修改影片,因為 Codex 上也無法進行影片剪輯或編輯功能,所以也都是直接下指令即可。

例如我想要影片換頁的節奏快一點,我就說:

根據下方需求,改進腳本,重新製作影片,請一步一步分析處理:這一個版本的單一畫面停留太久,因為我沒有要搭配旁白,希望觀看者直接從螢幕畫面上獲取需要的內容,所以你應該把關鍵解說文字也放入單一畫面,思考觀看者讀完內容的節奏,就要切換到下一個畫面。






第七步:讓 ChatGPT Images 2.0 補圖

Codex 本身也可以使用最新的 ChatGPT Images 2.0 生成 AI 圖片(參考:ChatGPT Images 2.0 工作專用 AI 繪圖工具:大量密集中文排版圖解、簡報案例實測),而且只要下好指令,可以「一口氣生成一系列圖片素材庫」。

我一樣先用「規劃」模式, 讓 Codex 思考應該補上哪些圖片素材,先做好計畫:

接下來這段影片當中應該會需要一些圖片素材,幫我規劃要設計哪些圖片,然後用你的生成圖片能力把這些圖片素材生成出來。請你一步步分析,根據前面的這個腳本,裡面已經有一些固定的教學截圖,但如果再加上怎麼樣的圖解、怎麼樣的流程圖,或者怎麼樣的 icon、圖像,這個影片會更有趣呢?先幫我做好規劃,然後接下來一步步生成這些需要的圖片素材,作為接下來要製作影片所使用。




做好計畫後,讓 Codex 用自己的 AI 繪圖能力開始生成一系列圖片。




最後讓 Codex 把前面新生成的圖片,加入到影片中即可。




Codex 對一般人來說,不一定要寫程式,也可以完成各種日常工作,例如這篇教學文章中分享的「製作影片」案例。

我們只要下指令,就可以讓 Codex 透過內建的外掛,自動完成撰寫腳本、準備素材、繪製圖片、製作動畫、剪輯影片的一系列工作流程。

大家手上其實都有很多「已經寫好的內容」:

  • 教學文章
  • 課程講義
  • 公司內部 SOP
  • 產品說明文件
  • 部落格文章
  • 專案介紹頁

未來文章、簡報、文件都可以交給 Codex AI Agent 轉成影片版本。有興趣的朋友可以試試看。



大家好,我是電腦玩物站長 Esor ,歡迎參考我的系列課程與書籍:


我的電子郵件是 [email protected] ,如果你有任何關於筆記術、時間管理、提升工作效率的問題,歡迎寫信跟我討論。

(歡迎社群分享。但全文轉載請來信詢問,禁止修改上述內文,禁止商業使用,並且必須註明來自電腦玩物原創作者 esor huang 異塵行者,及附上原文連結:不用打開剪輯軟體,用 Codex AI 把一篇文章自動做成圖文動畫教學影片

AI 硬件时代,手机不会轻易的狗带|AI 器物志

智能手机统治了过去十几年的数字生态,它是注意力的黑洞,是我们最私密的随身之物。但手机从设计之初就是为「人盯着它」而生的——它的全部逻辑,都止于屏幕。

AI 的需求却恰恰相反:它需要持续感知物理世界——见你所见,听你所闻,随时在场,而非等你解锁屏幕才醒来。

当 AI 真正成为一种基础能力,它迟早要从屏幕里破壳而出,寻找属于它自己的形状。这将是一个漫长的探索和演化过程。

「AI 器物志」栏目由此而来,爱范儿想和你一起持续观察:AI 如何改变硬件设计,如何重塑人机交互,以及更重要的——AI 将以怎样的形态进入我们的日常生活?

这是「AI 器物志」的第 11 篇文章。

说起来,你有多久没有尝试把手机接到显示器上了?

在曾经那个硬件形态百花齐放的「前智能机」时代,我们总希望能够从里面榨取出更多的使用场景——

无论是展开变成 QWERTY 键盘,还是滑盖变成一台小电脑:

如今智能手机的形态虽然变得单调,但我们实际上从来都没有忘记「把手机变成点儿别的什么形态」这件事。

安卓电脑

在最新的 Android 17 Beta 3 中,谷歌就上线了那个传闻已久的「桌面模式」,允许用户将 Pixel 手机外接显示器之后,投屏出一个近似 PC 布局的桌面:

此时再接上蓝牙鼠标和键盘,那么这台 Pixel 9 Pro 在功能性上已经非常接近一台小电脑了,顺便还能运行 Android 应用:

实际上,对于谷歌来说,Android 17 桌面模式其实有个更浅显易懂的名字:ChromeOS 模式。

毕竟两者都是类 Unix 架构,在谷歌推动 GKI 通用内核(Generic Kernal Image)的大背景下,说 Android 正在与 ChromeOS 融合也不为过。

只不过 Android 17 Beta 3 的桌面模式还不是完全体,无论是在功能性还是流畅度上都还有许多优化的空间。

Android 17 中完全没有为显示器优化的通知/控制中心

相比快十岁的三星 DeX 来说,Pixel 桌面模式在分辨率调整、布局逻辑、交互设计等等方面还有很多不成熟的地方,现阶段只能算是「勉强能用」。

DeX 已经支持最高 4K 分辨率和类 Windows UI

考虑到谷歌近两年推送新功能的速度,这套桌面模式在 Android 17 生命周期内可能不会成为正式上架

或许在今年 5 月的 Google I/O 大会、以及后续 Android 18 beta 上,我们才会见到一个完成度接近 DeX 的版本。

谷歌去年展示的桌面模式 demo|Google

不过 Android 17 Beta 3 虽然不行,但「将手机拓展到其他交互媒介」思路本身却是非常有前景的。

这种「以一变多」的逻辑,在面对如今的专用 AI 硬件时,显得尤为发光发热。

数字中枢

设想这样一个场景——

你拿着一台手机,连接桌子上的显示器,它就显示一个功能完整的类 PC 桌面,所有的交互和操作都可以通过键鼠完成。

转过头来,把手机从显示器上拔下,通过无线串流的方式连接到 AI 眼镜,刚刚显示的 PC 模式就丝滑地切换成了 XR 模式:

Android XR 演示 UI|Android Authority

虽然目前无论是最新的 Android 17 与 Pixel 10 Pro,还是尚未开售的 Android XR,都暂时无法实现这样的使用场景。

但这种「基于手机串流」的未来,距离我们并不远。

即便对 Vision Pro 这样自带处理器的产品来说,串流依然是不可或缺的使用场景,尤其是作为 Mac 的拓展显示器:

图|UploadVR

前些天,Valve 正式为 visionOS 带来了官方的 Steam Link app,让 Vision Pro 直连 PC 玩游戏不再需要折腾第三方串流客户端了。

从 TestFlight 版本的体验来看,Vision Pro 版本的 Steam Link 体验在普通的家用网络环境下几乎已经可以做到零延迟串流。

甚至对于穿越机模拟器《Liftoff》之类的超快节奏的游戏也能胜任:

图|YouTube @Himels Tech

背后的原因很简单:无论软件生态、交互模式,还是基础性能和续航,将新硬件与现有设备串流,永远比单独开发新的 AI 系统、软件和交互要便捷省时许多。

这个串流的来源既然可以是电脑,那为什么不能是手机呢?毕竟连 A18 Pro 都可以运行完整版 macOS 了。

同理,这种「将运算的重担交给手机」的串流模式除了放在 AR、XR 头显上,自然也可以平移到各种形态的 AI 新硬件上——

事实上,现在的绝大多数 AI 硬件就是这么做的。

图|Heise

近有 PLAUD Note 录音卡,远有 Meta Ray-Ban 智能眼镜,虽然都是独立的产品,但运行逻辑却离不开手机——

AI 硬件自身仅作为采集信息和用户交互的媒介,但运算、AI、归档等等,其实都是在手机和云端完成的。

All in one

另一方面,除了运算逻辑之外,现阶段我们能够看到或者买到的所有 AI 硬件,无论眼镜、耳机、戒指、吊坠,都面临着一个绕不开的问题:

人类电池科技被智子封锁,所有这些小物件的续航都难以突破。

图|Android Central

这和我们期盼的「AI 硬件能够成为全天候服务我们个人生活」的初衷是相违背的,在某种程度上也促成了如今这个硬件市场不温不火的现状。

纵使硬件或者 AI 功能再强大,「不能像手机一样持久、普适、全能」,就是会非常影响人们的使用意愿。

图|Museum of failure

然而手机没有这种问题。

一方面来说,我们已经习惯了手机的使用节奏,从早上起床到凌晨上床,顶多充一会电,基本不会出现某些可穿戴 AI 硬件那种「突然暴毙」的情况。

另一方面则更根本一些——

手机在本地算力、软件生态、内容容量方面,都是早已建成的「基建」,AI 硬件将自己化身为手机的延伸,最显著的优点就是可以省下重复发明轮子的麻烦。

摩托罗拉 AI 吊坠,需要搭配 moto 手机使用|Times of AI

说得更直白一些:要想富,先修路。

手机作为目前最全能、最普世的随身智能设备,就是那条已经修好的「路」。

而 AI 硬件要想得到消费群体的接受,就必须先沿着这条路走出来,然后才有资格谈「如何革手机的命」。

在庆祝公司成立 50 周年前夕,苹果全球营销高级副总裁格雷格·乔斯维亚克(Greg Joswiak)和硬件工程高级副总裁约翰·特努斯(John Ternus)接受一次了《连线》杂志的采访。

格雷格(右)与约翰(左)|Tom’s Guide

而在谈到「苹果是否希望现在市面上各种 AI 新硬件中有苹果的身影」问题时,格雷格·乔斯维亚克这样回答道:

我们不能忽视一个事实,即你刚才所说的一切都与 iPhone 并不冲突,iPhone 不会消失。在刚刚谈论的(为 AI 设计一种专门硬件)任何事情中,iPhone 都将扮演核心角色。

换言之,苹果认为——即使在 AI 专用硬件的市场出现之后,人们依然会选择 iPhone 作为个人智能设备的中枢。

对于这个问题,格雷格补充道:

这正是其他所有人(厂商)挣扎的地方:它们没有 iPhone,所以它们正在拼命寻找出路。(AI 硬件厂商)谈论的很多东西最后都成了 iPhone 的配件,我们不会透露未来的路线图,但我可以告诉你,iPhone 哪里都不会去。

而在《连线》杂志后续采访蒂姆·库克有关苹果未来 50 年的计划时,在谈及苹果的人才、价值观和文化之后,库克也给出了一个相似的回答:

是的,未来的技术会改变;是的,会有更多的产品和品类,这些都是事实。但让苹果成为苹果的东西,在未来的 50 年、100 年甚至 1000 年里都会是一样的。

这里说的当然不是 iPhone,而是苹果设备作为人们的数据数字中枢这件事情本身。

图|Chad Madden

无论 OpenAI 或者其他 AI 厂商做出什么「AI 专用产品」,哪怕是在 AI 与硬件形态深度融合的时代,手机依然会是我们日常生活中不可或缺的数据中枢,就像二十年前的 PC 一样。

我们甚至可以说,随着云端模型越来越强大、侧端数据越来越复杂,手机作为能够连接外设、人体、与云端的「桥梁」,重要性只会越来越高。

未来的 AI 硬件不一定长得像手机,但它的灵魂一定离不开手机。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

不用寫程式的瀏覽器自動化:Codex for Chrome 幫我操作 Google 地圖、Evernote、 Gemini、社群


上個禮拜撰寫了「一般人如何快速上手 Codex 超完整圖文教學:讓 AI 助理整理文件表格,建立自動化流程」一文,分享新手如何快速掌握 OpenAI 的 AI Agent 軟體:「 Codex 」。因為這幾個月的使用經驗,讓我認為 Codex 已經不只是一個程式開發 AI 工具, Codex 更可以當作一般人管理電腦文件檔案,甚至規劃自動化處理日常工作流程的 AI 助理

在前面那篇文章中,有提到 Codex 內有一個外掛(技能)功能,簡單的說,我安裝了一個 Google Drive 外掛,裡面包含了各種 AI 如何處理 Google 文件、試算表、簡報的技能,所以我可以直接命令 Codex 去管理我的某一個 Google 雲端硬碟內的資料,直接編輯試算表與簡報。

而前兩天, OpenAI 推出了一個非常強大的外掛:「 Codex for Chrome 」,顧名思義,可以讓 AI 直接打開我電腦內的 Google Chrome 瀏覽器,幫我完成「那些原本在瀏覽器內我會自己操作的功能」,例如,下面文章中我實際測試成功的應用案例:

  • 讓 Codex for Chrome 打開我已經登入的社群網站,直接爬梳並抓取今天我可能需要的訊息。
  • 讓 Codex for Chrome 抓取景點網頁資料、整理成 Google 試算表、操作 Google 地圖建立行程清單。
  • 讓 Codex for Chrome 打開 Evernote 網頁端,直接在裡面搜尋、連結、整理與建立筆記。
  • 讓 Codex for Chrome 打開 ChatGPT 深入研究,把研究結果輸入 Gemini ,開啟 Gemini Canvas 做成網頁預覽。
  • 讓 Codex for Chrome 剪貼我在 Evernote 的文章草稿,貼上部落格後台並做好圖文排版編輯。

原本的 ChatGPT、 Codex 就內建搜尋網路資料的功能,原本的 Codex 也內建打開網頁並操作的功能(例如我之前用 Codex 做一個線上象棋遊戲, Codex 可以打開遊戲網頁操作測試功能)。

那麼 Codex for Chrome 最大的不同在哪裡呢?根據我實際使用後體驗到的關鍵差別是:

  • 因為直接使用我在電腦中登入的真實 Chrome 瀏覽器,所以可以處理「需要登入」(而我已經登入)的網站功能,像是各種社群、雲端服務等等。
  • Codex for Chrome 會在我們電腦中的瀏覽器真的打開分頁操作,但會利用 Chrome 的群組分頁功能, AI 的操作在「背景分頁」自動處理,我們可以看,但不影響我們同時操作其他分頁。(延伸閱讀:我用 Chrome 內建分頁群組,解決多線 AI 助理與工作流程混亂的問題

透過 Codex for Chrome,我們可以利用 AI 去處理一系列雲端服務網站的操作,可以在網站中使用功能、輸入資料、獲取內容,並且可以串聯多個步驟(例如要求 AI 連續打開多種網站,自動完成一系列前後接續的操作),成為一個對一般人來說最簡單的自動化工具(因為執行過程完全只需自然語言下指令,不會涉及任何程式碼)。






如何開始使用 Codex for Chrome:

首先,你當然需要先下載安裝 OpenAI 的 Codex 軟體(參考:「一般人如何快速上手 Codex 超完整圖文教學:讓 AI 助理整理文件表格,建立自動化流程」)。

接著,在左上方的「外掛程式」頁面,找到最新推出的「 Chrome 」外掛,直接選擇安裝即可。




同時,還需要在 Google Chrome 瀏覽器中,安裝「 Codex 」的應用程式(外掛頁面會引導你去安裝)。

兩者都做好,就能讓 Codex 去操作 Chrome 瀏覽器中的網站與功能。




最後,最簡單的使用方式,就是我們可以在 Codex 中利用左下方的「(單純)聊天」功能,開一個新的對話,在對話一開頭先輸入「 @chrome 」,主動呼叫出 Chrome 外掛,就能開始下指令,要求 Codex 去做各種瀏覽器端的網站操作了!





讓 Codex for Chrome 打開我已經登入的社群網站,直接爬梳並抓取今天我可能需要的訊息:

每天要獲取大量資訊,還要整理資料庫,是非常繁瑣的動作,所以我會交給 AI :「AI 結合卡片盒筆記法,人不再操作軟體,用對話流程讓 Codex 搭建資料整理系統:我的兩個月實測心得」。

要讓 Codex AI 去抓取網頁資料,甚至 YouTube 影片字幕,都很簡單。但是,如果要讓 AI 直接「像我一樣」捲動瀏覽我的社群首頁,幫我看過一遍,然後抓取我可能需要的貼文資訊呢?

這時候就可以利用 Codex for Chrome,我是這樣下指令的(指令中所說的資料庫,就是我前面文章所說的,利用 AI 建立的外部資料庫):

@chrome 檢索我的 X 社群貼文,根據我資料庫中的筆記、寫作喜好,過濾出我感興趣的貼文,請一步一步分析,檢索貼文,遇到我感興趣的主題就摘要,持續進行直到瀏覽完今日社群主要貼文為止,然後把摘要的貼文與網址列成清單讓我瀏覽。




我要求 Codex 做幾個連續動作:

  • 打開我已經登入的社群網站。
  • 捲動我的首頁。
  • 一頁一頁捲動,從中找出我感興趣的主題貼文。
  • 抓出貼文的摘要與網址。
  • 列成清單。

而當 Codex for Chrome 實際操作時,就會像下圖這樣, AI 會在我真正使用的瀏覽器中,打開一個背景分頁群組,然後在背景自己操作我的社群去瀏覽。

那個當下,我則打開其他分頁在做其他工作。




下面則是 Codex 在訊息中呈現他做了哪些動作,可以看到 AI 根據我資料庫中的主題,一頁一頁過濾我的社群貼文時間線的訊息。




最後的結果如下,正確的根據我的喜好與要求,列出他找到的貼文摘要、連結清單。

平常我自己爬社群訊息,是最花時間又低效益的一件事情,而現在可以交給 Codex for Chrome 來說,他自己爬梳完十幾頁內容後,自然我給我關鍵資訊摘要





讓 Codex for Chrome 抓取景點網頁資料、整理成試算表、操作 Google 地圖建立行程清單:

接下來,我又做了一個挑戰。

為了準備今年暑假的一次家庭旅行,我讓 Codex for Chrome 打開我的瀏覽器,幫我完成下面一系列操作:

@Chrome 請幫我搜尋峇里島最近適合親子遊的景點,結合台灣部落格的真實心得資訊,先在我的 Google 雲端硬碟建立一份 Google試算表,最後在 Google 地圖建立「2026峇里島之旅」旅遊清單,請一步一步分析,

要求:
1. 至少瀏覽 10 篇真實心得或討論
2. 排除官方宣傳頁
3. 優先找親子、家庭的案例
4. 整理成 Google 試算表表格:
- 地點名稱
- 地址
- 適合優點
- 注意事項
- 來源連結
5. 接著根據試算表資料,上 Google 地圖搜尋地點,儲存到你建立的清單,地點附註加上前面整理的優點與注意事項。

一樣在單純的 Codex 聊天中就可以完成,連專案都不用建立。(這對一般人最好上手!)





這個案例中,其實 Codex 不只使用了 Codex for Chrome 的外掛, AI 會根據最適合的方式,自動調用不同外掛:

  • 搜尋部落格網路資料摘要,這個用內建搜尋瀏覽器功能即可。
  • 要把資料整理成 Google 試算表, Codex 調用的是 Google 試算表的技能。
  • 最後要把資料新增到 Google 地圖、建立旅遊清單,才使用 Codex for Chrome 來操作。




完成後,Codex 會把產出的 Google 試算表、 Google 地圖清單連結,附在聊天訊息中。




我們來看看 Codex 整理出來的結果,把 15 篇網頁文章,整理成 10 個推薦景點,也都根據我的指示,摘要出地址、優點、注意事項等等,一份很完整正確的 Google 試算表




打開 AI 建立的 Google 地圖旅遊清單,每個地點正確標示,在清單中把試算表內容填入,完全不用我自己手動操作就完美完成!





讓 Codex for Chrome 打開 Evernote 網頁端,直接在裡面搜尋、連結、整理與建立筆記:

我自己目前主要的「防彈筆記」(專案流程、任務經驗)還是使用 Evernote 。那麼, Codex for Chrome 可不可以直接操作 Evernote 呢?

我是這樣下指令的:
@chrome 打開我的 Evernote 網頁(https://www.evernote.com/client/web), 建立一則 Codex 主題筆記,內容是相關資料連結,請一步一步處理:

1.先建立一則全新的 Codex 主題筆記。
2 在 Evernote 內搜尋 codex 關鍵字找出標題有相關關鍵字的筆記,每一則筆記都建立一個連結,連到前面的主題筆記。
3. 在我的這個 RRS-brain 資料庫中,找到 Codex 相關的永久筆記,也補充到前面的 Codex 主題筆記 Evernote 中。

這個流程中,一開始我沒有成功,第二次我直接告訴 AI 打開 Evernote 筆記頁面的網址,就成功了。

其實,我原本不確定 Codex for Chrome 會不會「操作」 Evernote 上的搜尋、連結、編輯筆記等等功能,但最後結果可以說是「完美」完成




下圖就是 Codex for Chrome 正在操作 Evernote 網站時,我打開背景分頁「偷看」 AI 在幹嘛?正好看到他自己輸入關鍵字,在我的 Evernote 中搜尋筆記。




我只要說明操作步驟,看起來 Codex for Chrome 可自行掌握各種網站的功能

這樣我的 Codex 本地端資料庫,就跟雲端的 Evernote 完整結合在一起了!




下面是 Codex 自己在我的 Evernote 網頁端完成的筆記,格式正確、資料正確,且善用 Evernote 內建的功能(例如連結,也都是正確的)。

附註:不過現在的 Evernote 內建 AI ,其實也可以完成類似自動編輯處理





讓 Codex for Chrome 打開 ChatGPT 研究,把研究結果輸入 Gemini 做成網頁預覽:

接下來,我想利用 Codex for Chrome 來幫我「操作多個 AI 服務」,並且串聯不同 AI 服務產出的內容,最後輸出我要的結果

下面是我的指令:

@chrome 你是小孩遊戲化學習的設計助理,幫我設計出一個可以讓小孩練習的國小三年級自然科練習網頁。請一步一步設計:

1.打開我的 ChatGPT 網頁( https://chatgpt.com/ ),開一個新的聊天串,使用 Thinking 以上模型,利用搜尋功能,梳理出國小三年級自然課關於「物質三態變化」的相關課文、教案、練習題目,你可以多次來回問答,根據回答修正提問,直到找出最完整適合小孩學習的教材內容,並整理成一份練習清單。

2.接著打開我的 Gemini 網頁( https://gemini.google.com/app ),先研究如果要設計一個課堂中可以用,讓小孩打開網頁就能練習的互動遊戲化測驗,有哪些案例,可以怎麼設計,整理成一份設計規則清單。

3.當前面兩個步驟完成,最後利用 Gemini 再開一個新的聊天室,啟動 Canvas 功能,寫出指令,把前面的遊戲網頁設計規則+自然課練習清單輸入,利用 Gemini 做出可預覽使用的網頁,做出模擬線上測驗遊戲,

下圖是 Codex 自己打開網頁進行的操作,他打開我登入的 ChatGPT ,切換到 Thinking 模型,自己寫出一段符合我要求的指令,然後開始研究。




ChatGPT 思考模型有時候要想比較久,這時候 Codex for Chrome 幫我「自動監控」 ChatGPT 到底回答好了沒?

我不用在旁邊等 AI 做好,而是接給 Codex 全面接管。




ChatGPT 研究完,  Codex 接著自動打開 Gemini 網站,開始根據我的要求,研究怎麼設計遊戲化學習網頁。




ChatGPT、Gemini 研究完後,Codex 又準確的根據我的指令要求, AI 再開一個 Gemini Canvas 對話串, 把前面 ChatGPT 研究的練習清單、 Gemini 研究的設計方案,交給 Gemini Canvas 執行設計網頁流程。




透過這個流程, Codex for Chrome 幫我同時操控三種 AI 工作流程,自動接續,最後完成我要的練習網頁。




下圖是最後  Gemini Canvas 輸出的結果。





讓 Codex for Chrome 把 Evernote 中寫好的文章貼上 Blogger ,並完成編輯體例調整

我自己寫部落格文章時,喜歡先寫在 Evernote 筆記中,完成後才貼上 Blogger 後台去做調整。

所以我下了這樣的指令,挑戰看看 Codex for Chrome 可以自動完成到什麼程度:

@chrome 請幫我把下面文章內容,上架到我的 Blogger 。請一步一步處理:
1.先打開我的 Blooger( https://www.blogger.com/home ),建立一篇新文章,題目是「Codex for Chrome 自動化工作流程教學,讓 AI 操作 Gemini、 Evernote、 Google 地圖、爬社群貼文」,不要發布。
2.打開我的 Evernote(https://www.evernote.com/client/web),抓取「當 Codex 擁有控制 Chrome 的能力]這則筆記的內容當作文章內容,但只要抓取「文章草稿:(中標題)」層級下的內容,不要抓最下面的封存資料。
2.使用 Blogger 編輯介面的相應功能,處理下面文章,調整格式、清理不必要程式碼,內容則原封不動,包還其中的連結、圖片、粗體、樣式層級都要保留,但改成網頁閱讀更舒適的版面編排,只要完成編輯,可順利預覽即可。
3.不要發布,讓我確認。





結果 Codex 可以順利打開我的 Blogger ,建立新文章,開始編輯。




也能正確打開 Evernote 的對應筆記,準確的複製內容。




圖片也能正確貼上。




透過上面的測試, Codex for Chrome 讓 AI 從「網路資料整理」進一步變成「網站操作代理」。

幫我把原本要開很多分頁、登入很多服務、複製貼上很多資料的流程,變成一句自然語言指令,我只要把平常會在瀏覽器裡做的動作說清楚,Codex for Chrome 就能照著做,驅動 AI 自動化完成。

也推薦你可以試試看。



大家好,我是電腦玩物站長 Esor ,歡迎參考我的系列課程與書籍:


我的電子郵件是 [email protected] ,如果你有任何關於筆記術、時間管理、提升工作效率的問題,歡迎寫信跟我討論。

(歡迎社群分享。但全文轉載請來信詢問,禁止修改上述內文,禁止商業使用,並且必須註明來自電腦玩物原創作者 esor huang 異塵行者,及附上原文連結:不用寫程式的瀏覽器自動化:Codex for Chrome 幫我操作 Google 地圖、Evernote、 Gemini、社群

Codex 現在也能當成 Typeless 使用,在桌面任何地方使用語音轉文字!這篇教你怎麼打開

OpenAI Codex 真的越來越強大,不僅能寫程式、執行各種任務、操作電腦和瀏覽器,連語音輸入文字的功能現在也支援全域聽寫了,意味著不只是 Codex,你還可以在瀏覽器、備忘錄、Slack、Obsidian 等 App 裡面使用,而且我實測也能去除贅詞,相當不錯。

The post Codex 現在也能當成 Typeless 使用,在桌面任何地方使用語音轉文字!這篇教你怎麼打開 appeared first on 電腦王阿達.

Codex 現在也支援手機遠端操控了!正式整合進 ChatGPT 手機 App,這是配對流程

不意外的,OpenAI 也跟進 Anthropic 了!Codex 正式支援手機遠端操控,也就是在 ChatGPT 裡配對完成後,無論你在哪,都可以遠端要求 Codex 做事,像是寫程式、整理電腦資料、創建文件、甚至是操控瀏覽器等都可以,配對流程也蠻簡單的,下方就示範給大家看。

The post Codex 現在也支援手機遠端操控了!正式整合進 ChatGPT 手機 App,這是配對流程 appeared first on 電腦王阿達.

ChatGPT 手机版新增远程操作 Codex:电脑干活,手机盯进度|牛马程序员,永不停歇

ChatGPT 新增了一项非常实用的功能:在手机上远程控制桌面 Codex 应用进行编程。@Appinn

未来的程序员,一定是躺在沙发里干活的。

ChatGPT 手机版新增远程操作 Codex:电脑干活,手机盯进度|牛马程序员,永不停歇 31

随时随地使用 Codex

需要同时更新桌面 Codex 和手机 ChatGPT 到最新版。

然后就可以分别设置配对了:

ChatGPT 手机版新增远程操作 Codex:电脑干活,手机盯进度|牛马程序员,永不停歇 32

不过,青小蛙并没有测试成功,就卡在正在等待桌面端...,无后续 😭

ChatGPT 手机版新增远程操作 Codex:电脑干活,手机盯进度|牛马程序员,永不停歇 33

从 OpenAI 的说法来看,ChatGPT 可以控制正在运行 Codex 的任何一台机器(无论是笔记本电脑、专用 Mac mini 还是受管理的远程环境),你可以在所有线程中工作,查看输出结果,批准命令,更改模型,或开始新的工作。

你的文件、凭证、权限和本地设置都会保留在 Codex 运行的机器上,而更新则会实时流回你的手机,包括屏幕截图、终端输出、差异、测试结果和批准。

关于网络

Codex 使用了一个安全中继层,使受信任的机器可以跨设备连接,而不会直接暴露在公共互联网上。该中继层还能在登录 ChatGPT 的任何地方保持活动会话状态和上下文同步。

案例

一如既往,所有的案例都是让你随时随地的工作。机器可以永不停歇,人类为什么要停下来呢?

在等咖啡的同时开始调查错误

由于 Codex 是在您的开发环境中运行的,因此它可以开始检查相关文件、在浏览器中重现问题、运行测试并开始修复。如果 Codex 需要说明或允许继续,您可以通过手机回复或批准。当它工作时,你可以通过屏幕截图、终端输出、测试结果进行跟踪,并最终在回到电脑前查看结果差异。

在上下班途中做出决策

在去办公室之前,您让 Codex 负责一个需要时间来完成的重构工作,并希望在您回到办公桌前时再查看结果。通勤途中,Codex 发现了两种可行的方法,需要您的指导才能继续。您可以在手机上查看权衡结果,选择一条路径,当您到达时,任务已经朝着您想要的方向继续前进了。

在连续会议后发现问题

您在连续召开的会议后发现一个支持问题在 Slack、电子邮件、文档和基于浏览器的工具中不断演变,而客户电话即将到来。通过手机,您可以要求 Codex 综合最新更新、标记关键开放问题,并为对话准备一份简明扼要的简报。如果有新的细节,您可以要求 Codex 在您加入之前刷新摘要。

在午餐、散步、当路人的时候

无论您是在午餐时、外出散步时,还是在聆听某件事情时产生了新的想法,您都可以通过手机启动一个新的主题或将其添加到当前工作中,将其发送到 Codex。在你回到办公桌前,任务就可以开始成形,而不会让你完全脱离引发任务的那一刻。


总之,随时随地干活,不是吹的 😭

可用性

这项功能适用于所有支持地区的所有计划,包括免费和 Go 计划。

即将支持将手机连接到 Windows 上的 Codex 应用程序。


原文:https://www.appinn.com/work-with-codex-from-anywhere/


相关阅读


©2021 青小蛙 for 小众软件 | 加入我们 | 投稿 | 订阅指南
3659b075e72a5b7b1b87ea74aa7932ff
点击这里留言、和原作者一起评论

[ 点击前往获取链接 ]


一个月烧掉 930 万元 Token 的人,也没烧出个答案

龙虾之父一个月消耗 6030 亿 Token,总花费金额高达九百万人民币。

移动联通电信,三大运营商都在推 Token 套餐,199 送千兆宽带还有 1 亿 Token,了解一下?

从硅谷到国内大厂,Tokenmaxxing 成为公司的主流,谁消耗 Token 多,谁就是 AI 时代的好员工。

00 后校友向母校捐赠 20 亿 Token,被网友调侃按 DeepSeek 5 元/亿 Token 计算,只要 100 元。

▲图片来自新浪财经

Token 在半年内完成了一次身份跃迁:从技术术语,到 KPI,到话费套餐,到捐赠货币。它成了 AI 时代的「度量衡」,唯一的问题是,没人说得清它到底在度量什么。

我们自己买 Token,用公司的 Token,部署了一堆 Agent,代码、论文、周报都是 Token 烧出来的。

而另一边是,大厂的员工由于 Token 消耗排行榜的原因,开始拿着公司的 Token 处理私事、玩游戏、开发数十个没什么用的子 Agent 来提升自己的排名。

「回报」这件事很难量化,但「使用量」可以量化。

于是所有人都选择了那个容易量化的东西。这不是 AI 时代的新问题,这是管理学的老病。

用 AI 消灭狗屁工作的公司,正在制造新型狗屁工作

亚马逊,那个裁员裁到大动脉,把自己的网站都变成 404 的小狗,最近又被爆出了新的「笑料」。

原本被寄予厚望、用来消灭「狗屁工作」的 AI,最终却沦为制造新型「狗屁工作」的源泉。

据《金融时报》报道,为了逼迫员工拥抱 AI,亚马逊搞出了一个极其复古的管理手段:「Token 消耗排行榜」,追踪每个员工的用量。

公司强制要求超过 80% 的开发者每周必须完成 AI 使用指标,甚至将消耗 Token 的数量作为考核标准。

▲图片来源:The Information

打工人的反应也很直接,既然公司用这种指标来考核,大家干脆用魔法打败魔法,开启了「Tokenmaxxing(最大化消耗 Token)」战术。

刚好亚马逊内部上线了一个叫 MeshClaw 的 AI Agent,它能发起代码部署、整理邮件、操控 Slack。公司内部备忘录里描述它是:「它在夜间做梦来整合白天所学,在你开会时监控你的部署,在你醒来前替你分类邮件。」

于是 MeshClaw 就成了一个刷排行榜的工具。开发者开始用它来规划旅行、处理私人邮件、让 AI 分析产品经理在 Slack 上说的蠢话。

在职场匿名社区 Team Blind(一个面向 Google 和苹果等公司认证员工的留言板)上,一位亚马逊员工的发言被疯狂点赞。

我疯狂燃烧 Token,就是为了骂我的产品经理。每当他在 Slack 里说屁话,我就把聊天记录扔给 AI,启动 10 个子智能体去全方位深度分析并吐槽他。这绝对是 GPU 算力的完美用途。

亚马逊在回复《金融时报》时提到,MeshClaw「每天帮助数千名员工自动化重复性工作」,公司「致力于负责任地部署生成式 AI」。同时,公司表示 Token 统计数据不会用于绩效评估。

但员工的说法是:「经理在看这个数据。当他们追踪用量时,就会制造扭曲的激励,有些人在这上面很有竞争心。」

公司说不算 KPI,但经理偷偷在看。这和大厂说「年终奖与 996 无关」是同一个套路。

不只是亚马逊,Meta 员工也在做同样的事。

早在四月份,The Information 就曾报道,Meta 公司的一名员工利用内部数据,在公司内网创建了一个仪表盘,让同事们可以竞争成为公司排名第一的 AI Token 用户。

这份排行榜汇总了超过 85000 名 Meta 员工的人工智能使用情况,并列出了排名前 250 位的超级用户,其中扎克伯格没能进入前 250 名。

而这份排行榜在两天后就下架了,Meta 在回应媒体查询时发声明,「该员工自行决定撤下仪表盘;Meta 并未要求采取此行动。」

当你笑完这份排行榜的不合理之处,转念一想就会发现,这其实是大多数公司的现状。还没想好 AI 怎么发挥作用,但是就先裁员了;还没想好 Token 怎么用,就匆忙把它作为生产力的衡量工具。

一个月 6000 亿 Token 烧出了什么

Token 消耗排行榜的荒诞还没消化完,更魔幻的事又来了。

三位 00 后校友向母校郑州西亚斯学院捐赠 20 亿 Token,网友按 DeepSeek 的价格算了算,说这就值 100 块。

后来有媒体澄清,这 20 亿 Token 不只是 API 调用量,还包括生成工具使用权和平台积分。但「捐 Token」这件事本身已经够魔幻了。

三位校友说自己实力还不够捐教学楼,所以捐 Token。这个时代的慈善逻辑也在刷新:捐不起楼,捐算力。

Token 存在的价值在刷新,Token 的使用边界也在刷新。

GitHub 前 CEO、现任 Meta 超级智能实验室 CEO Nat Friedman,在一场公开活动上讲了个故事。某天,他的 OpenClaw 判断他喝水不够,他随手给了指令:「不惜一切代价确保我补充足够的水分。」

▲ 网友的评论是:他是不是喝多了

OpenClaw 很快行动了。它指示他去厨房喝一瓶水,顺带告诉他,正在通过家里的摄像头监控他是否真的去喝了。他照做之后,OpenClaw 发来一张他喝水的截图,附言:「干得好。」

原本只是手机设置一个提醒每日喝水,但现在是 Token 疯狂地燃烧,调用摄像头来为「提醒你喝一杯水」服务。

而当 Token 的消耗不再重要,不需要考虑 Token 的价值和使用边界,我们又会拿他来做点什么。

OpenClaw 最近有意思的事,还得是龙虾之父 Peter Steinberger 周六在 X 的分享,他发了一张 CodexBar 的截图,配文「CodexBar 最新更新让 API 费用显示得更加友好。」

但很快有网友发现这张截图了不起,三十天用了 6030 亿 Token,累计消耗的金额更是达到了 130万美元,约合人民币 930 万。

评论下面都是各种质疑,交付了多少代码,消耗的 Token 和最终能用的代码之间比例是多少?到目前为止,你做出了什么有用的东西吗?要不是入职 OpenAI,Codex 这 Token 能让你这么消耗吗?

兄弟,你最好拿出点儿价值百万美元的工程师都做不到的东西,不然这可能就是前沿实验室泡沫破裂的开端了。而且这还是补贴价格,我的天。如果是实际成本,价格肯定更高。

龙虾之父在评论区回复了这些声音,他提到如果关掉 Fast Mode,成本就能降 70%。而且,自从 OpenClaw 被 OpenAI 买走之后,负责该项目就只剩下三个成员,他们在 Codex 上运行了 100 个实例。

这些实例会自动处理软件开发流程中的各种问题,像是代码的提交、Bug 修复、功能的更新等。

但是光看 OpenClaw 的更新,真的需要 130 万美元来支撑吗?他又提到自己在做一些除了 OpenClaw 之外的创业项目,以及他是在探索一个问题:如果 Token 成本不重要,软件会怎样被构建。

这个好问题。但 130 万美元花下去之后,他也还没有得到答案。

这可能是 2026 年最贵的一个问号。

即便是有无比丰沛算力的人,现在似乎也不知道这些 Token 可以用来做什么。

大厂高管们看着财报上巨额的 GPU 采购费,迫切需要向董事会证明这笔钱没白花。既然「重构真实业务流」太难、太慢、太需要魄力,那就退而求其次,去考核「Token 的消耗量」。

员工们甚至一开始就没被问过「你觉得 Token 该怎么用」,他们被问的是「你这周用了多少」。

当一个工具的考核标准是「消耗量」而不是「产出」,它就不再是工具了。它是燃料,唯一的使命就是被烧掉。至于烧完之后驱动了什么,没人真的在意。

因为一旦认真追问,很多人会发现,自己烧掉的那些 Token,和年初裁掉的那些人一样,都没换回任何东西。

我们正在经历的,是一场所有人都假装看懂了规则的游戏。公司假装知道怎么用,员工假装在认真用,投资人假装看到了回报。

唯一真实的,只有不断超支的账单。

Token 终究会找到它真正的用途,成为真的「新质生产力」。但那一天到来之前,我们在烧掉动辄上亿的 Token 之前,可以问问自己真的有必要吗

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

OpenAI Codex 團隊成員分享:11 個技巧,教你把 Codex 用到極致

隨著 GPT-5.5 推出,相信現在越來越多人都開始使用 Codex,不過大多數人可能都停留在寫程式,像是讓它寫自己需要的程式,檢查程式碼、修改檔案、跑測試,甚至是甚至協助開 pull request。其實,Codex 能做的事情不只這些,最近 OpenAI Codex 團隊成員,就在 X 社群平台上發表一篇「Getting the most out of Codex」的文章,分享如何把 Codex 用到極致,內容非常豐富,對於有時間的人,很推薦到原文中仔細閱讀,下面就整理裡面提到的 11 個技巧。

The post OpenAI Codex 團隊成員分享:11 個技巧,教你把 Codex 用到極致 appeared first on 電腦王阿達.

Codex 这波大更新后,Mac 的含金量再次提升

「如果这条推文获得了一个赞,Codex 重置额度限制。」

已经数不清这是今年以来,第几次的限额重置了。奥特曼前两天在 X 发文,让 Codex 负责人 Tibo 再一次重置了使用限额。

网友做了一张梗图,每当一个人想走向 Anthropic 或 Gemini 时,奥特曼站在后面默默按下 Codex 限额重置的按钮,这个人就会回头,然后被拉回到 OpenAI。

OpenAI 这半年也因为出圈的 Codex 收获了一大批的新用户。外媒报道 OpenAI 第一季度营收达到了 57 亿美元,比 Anthropic 高出 10 亿美元,Codex 是主要因素。

▲ OpenAI 营收相关数据,季度营收达到 57 亿美元,年化收入 250 亿,第一季度调整后的营业利润率为 -122%,本季度周活跃用户平均约为 9.05 亿,在 2 月份的周活跃用户数曾达到约 9.2 亿,第一季度的付费用户数量为 5500 万,高于去年年底的约 4700 万。

我们在之前介绍过 Codex 的入门指南,从 ChatGPT 官网下载安装到连接手机上的 ChatGPT App 实现远程控制,都有详细的步骤。

不少读者在评论区留言,Codex 确实好用;也反馈了不少问题,像是下载 Codex 后仍需绑定手机号才能使用。我们的测试也发现登出之后再登录,确实会被要求绑定手机号。

这个时候,建议先在浏览器中进行登录,即主动打开网址 https://auth.openai.com/log-in 提前登录好。再回到 Codex 中登录,弹出的登录链接,只会显示要求授权即可,不会再有绑定手机号的提示。

不同的账号可能会遇到不同情况,大概也是眼下 OpenAI 在 Codex 这边投放了太多的算力,不希望被用户太轻易地薅走羊毛。

今天凌晨,Codex 又上新了一大波的新功能,现在只要按下电脑上的 Command-Command 键,就可将应用程序窗口附加到 Codex 的对话线程里。Codex 会自动获取窗口的屏幕截图和文本,包括屏幕上不可见的内容,作为对话的上下文。

以前还要自己手动截图,现在 Codex 不仅能处理截图,还能直接读到一整个应用窗口的信息。

此外,上次更新的在 ChatGPT App 内操作电脑上的 Codex 这一次也升级了,之前的选项是保持 Codex 常开,现在是即便电脑锁屏了, ChatGPT 同样能远程操作 Codex。

/goal 命令这次也从实验室版本来到了正式推出。之前我们分享多 Agents 协作时,就有读者提到 /goal 功能和多 Agents 类似,它们都是把一个任务当做一个项目来进行管理,有完整的目标生命周期,通过不同的机制来完成迭代。

/goal 最早是 4 月底出现在 Codex CLI 中,有了它确实也能更好的处理越来越多的长任务。

不过遗憾的是,无论是按 command 还是锁屏后继续远程控制,这些都是 macOS 平台的更新,对于 Windows 用户,只能等 OpenAI 的推进。

有网友说,「Mac 用户总是能享受到好东西,而 Windows 用户只能眼巴巴地看着,哈哈。」不得不说,Mac mini 作为 AI PC 的含金量还在增加。

省去很多麻烦的应用快照

这项功能叫 Appshots,开启它的方式也很简单,更新 Codex,在应用设置下,找到「应用快照」,就有一段视频教程,并且可以自定义快捷键。

不过需要注意的是,按下 command 键是指按下键盘上,空格键左右两边的两个 command 键,而不是单击两次。

在任何界面同时按下两个 command 键之后,Codex 会自动捕获页面截图,并快速打开 Codex 将截图放在输入框。我们可以针对这个窗口快照提出问题。

但基于 Codex 的能力,这个窗口快照不单是一张图片的 OCR 文本提取。Codex 可以再这个窗口的基础上,进一步使用 Computer Use 和 Chrome 自动化等功能。

▲ 图中只是在 Codex 的文章开头按下了 command,但是 Codex 不单是处理这张截图,而是会根据 Chrome 的能力,读取整个窗口。

例如,我们在飞书文档的文章开头同时按下了 command 键,然后告诉 Codex 要求它看看这个窗口讲了什么。Codex 会使用 Google Chrome 的工具,自动对网页进行浏览以获取更多的上下文。

这是它和一般截图最大的差别,除了把截图内容放进了上下文,Codex 还会自动把窗口的信息,来自哪个应用等状态信息,同步发送给 Codex。

▲ Codex 识别到了开头之后的文章内容

例如我们在微信里阅读公众号时,也能按下两个 command 键,开启 Appshots。但这里有一个小 Bug,当 Codex 使用 Computer Use 来控制微信的窗口,上下滑动公众号,退出图片的预览时,直接把微信给登出了。

▲暂不知道是微信识别到机器人操作的原因,还是 Codex 误操作,在退出图片预览时,直接退出了微信。建议用小号尝试 Computer Use 在微信中的应用。

官方在宣传视频里介绍 Appshots 时,同样不是简单地将它作为一张截图来使用,而是结合了 Computer Use 和 Google Chrome 来使用。

像是直接要求它修改我们的备忘录内容。

▲花了两分钟,帮我把备忘录的内容修改成了中英双语显示,直接在原备忘录上进行修改

还有也不用再复制什么图片,直接 command+command 然后告诉他生图提示词,对图片进行编辑。

▲ 在浏览器中打开了一张图片,告诉他生成涂鸦版本

就是这种应用多做了一步的感觉,我们就减少了很多 AI 的使用负担,让 Codex 的体验也变得更加丝滑。

/goal 的保姆级使用指南

在对话框内输入斜线,我们就能看到有「目标」的快捷选项,「设置 Codex 将持续努力实现的目标。」

目标存在的价值是作为一个独立存在的任务定义,而不是普通的对话提示词。Codex 会反复根据目标来判断「还该做什么」和「是否已经完成」,自动一轮接一轮的推进,直到任务完成、暂停或者烧到 Token 上限。

这两个判断也是目标的核心机制,即「延续」和「完成审计」。「延续」是在每轮结束后,自动注入提示,让模型决定下一步。「完成审计」是要求模型对照目标逐条核对。

Goal 模型最容易踩坑的地方,就是随手写一句话放进去。要写好一个 Goal,关键原则是 Codex 要能判断是否完成了。

官方在帮助文档也提到,好的目标应包含具体的结果、可衡量的指标或测试标准。他们给了一些案例,像是将项目从一种编程语言迁移到另一种编程语言。

把这个项目从 JavaScript 迁移到 TypeScript。

 

要求:以 strict 模式编译通过,不允许出现显式的 any 类型。

还有更直接的要求,「把首页的可交互时间压到 1 秒以内。」

这些例子都是有着具体的可验证标准,并不是「优化一下」、「完善一下」这种虚词。

 

▲ 图片来源 Goal 官方使用教程:https://developers.openai.com/cookbook/examples/codex/using_goals_in_codex

如果没有想到具体标准,Codex 建议是先跑 /plan。让 Codex 和我们讨论一轮,把验收标准定清楚,再切回普通模式下 /goal。

还有一些实用小建议是,可以在 goal 文本末尾加一句 Use a token budget of 80000 tokens for this goal,用来设置 Token 预算。

以及不要在一个会话的开头就发送 /goal,而应该是先给这个项目其他的需求,有一定的雏形,再给它目标。

锁屏了,Codex 还能操作你的电脑

除了这些大的更新,Codex Thursday 还带来了很多体验升级的功能。

Locked Computer Use 是最值得一提的一项,简单来说它就是能让 Codex 在 Mac 锁屏之后,仍然能在后台操控桌面应用完成任务。

网友对这项功能的评价,都集中在这是突破性的,这很有未来感的同时又很吓人。

如果 Codex 能够在没有活跃用户会话的情况下运行 Mac 应用,这或许是迈向持久 Agent 基础架构的第一步。

若要使用锁屏后继续操作的功能,必须由我们手动开启,并且输入密码。打开的方式同样是在设置里,找到电脑操控,开启锁屏操作。

正常的 Computer Use 需要屏幕处于解锁状态,Codex 才能「看到」并操作界面。这个功能打破了该限制,我们可以把 Mac 合上或锁屏,然后从手机、iPad 或另一台设备远程发起 Codex 任务,它会自动临时解锁、完成操作、然后重新锁上。

Codex 为此安装了一个 Apple Authorization Plug-in(苹果官方授权的认证插件),接入 macOS 的解锁流程。当有活跃的 Computer Use 任务时,插件允许 Codex 临时解锁屏幕;任务窗口之外,解锁权限直接拒绝。

OpenAI 也对这个功能做了几层约束,防止它变成其他危险操作的后门:

  • 解锁窗口极短,仅限当前 Computer Use 操作期间有效
  • 覆盖所有显示器,临时解锁期间屏幕内容对物理旁观者不可见
  • 检测到本地输入立即重锁——有人碰了键盘或鼠标,自动暂停,要求手动解锁
  • 这个路径只对 Codex 开放,其他应用或本地进程无法借道

另一项高级标注的功能,则是我们在使用 Codex Vibe Coding 某个网页时,通过 Codex 内置的浏览器打开,同时还提供了直接在网页内容上进行修改的标注工具。

除了 Codex 这一系列的更新,今天 ChatGPT 也上新了一项新功能,ChatGPT 现在可以直接在 PowerPoint 中创建和编辑演示文稿,并且还能使用 GPT Image 2 生成用于 PPT 里面的图片。

Codex 越来越好用的同时,钱包燃烧的速度也在加快。

我们的 Pro 账号,每周使用限额要到 27 号重置,但是今天(22 号)就只剩下 10% 了。只能在心里默默「作法」,祈祷它再一次重置。

如果这篇文章获得了一个赞,你的 Codex 有可能重置额度限制🐶

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

用 Codex 优化网速狂飙 900Mbps?实测之后我发现了新的隐藏玩法

昨天,Codex 再一次重置了额度,我们的账号从剩余 10% 又回到了剩余 87%。

Codex 负责人 Tibo 在 X 发文,

有些用户注意到 Codex 中的缓存限制消耗得更快,我们发现根本原因是之前的一个优化措施,该措施在长时间运行的会话中进行压缩时会影响缓存命中率,我们已将其回滚。

 

 

我们已修复此问题,并已重置所有账户的使用限制。祝您周末愉快。

于是又想着还可以用 Codex 来做点什么,刚好就在 X 上刷到了「我用 Codex 提升了我的电脑网速,从 400Mbps 到 900Mbps。」

内容真的很有噱头,用 Codex 竟然能优化本地的网络?网速不应该是受限于路由器,或者网络服务提供商 ISP 这些上层设备吗?

这则推文的评论区也有不少网友提出了质疑,「所以 Codex 最终改变了电脑上的什么配置?」、「鉴于如今 AI 的强大技术,我真的无法判断这是否是诱饵。」

博主做出解释,Codex 帮助他把电脑上的 auto tuning level 从关闭调回了 normal 正常。auto tuning level 是说系统会根据网络延迟、带宽和拥塞情况,动态决定一次能接收多少数据,从而提高网络的速度。

他还给出了自己用的提示词。

嘿,我朋友说他的网速提高了,情况是这样的。你能帮我看看我们家的网络有什么可以改进的地方吗?我的网络供应商说他们提供的带宽是 1.2k Gbps,而我实际的网速是硬件问题。我现在只有 55Mbps,请帮我解决这个问题,别出错了。

 

我的目标很简单,就是让我的互联网速度更快。
问题已诊断:首先运行了 speedtest-cli。
检查了 DNS 解析时间,
检查了 MTU、丢包率、Wi-Fi 信号/干扰情况。
发现 3 个问题。
已删除过时的网络位置/配置文件。
终止或限制占用大量带宽的后台进程。
优化 mDNS。
进行了测试前后的速度测试和延迟检查。

这套提示词来自另一个 X 博主@cjzafir,他分享了自己使用 Codex + GPT 5.5 的实际案例,里面提到了 Codex 5.5 让他的网速变快了,本地运行的 6B 小语言模型速度更快了,以及 Macbook Pro 运行速度也像新的一样快等等。

我们也拿着这套提示词发给 Codex,在要求 Codex 处理网速问题前,先用中国科学技术大学测速网站 https://test.ustc.edu.cn/ 看了一下大概的速度,基本上下载速度在 100Mbps 左右,上传是在 200 Mbps 左右。

Codex 确实按照这些诊断,从 DNS 解析时间,数据包、网络配置等方面,检测并修复了对应的问题,累计处理时间超过五分钟。

最后 Codex 得出的结论是「我检查并做了能安全完成的修复。」它找到了 3 个存在的问题,分别是 DNS/缓存异常、负载延迟很高,以及有线千兆网卡没有在用,Wi-Fi 不能作为 1Gbps 的验收依据。

再次测试,发现似乎并没有很明显的网速提升。

有人问那位博主,是不是使用的 Mac 电脑,他回复说是 Windows,底下还有网友科普,Mac 的网络配置都是固定了,Codex 一般是无能为力。

所以这次轮到 Windows 用户来享受 Codex 网速提升服务了?还有 Linux。

有评论说,「以为是用 Codex 入侵了网络服务提供商,然后提高了流量限制」,结果只是 Codex 帮忙清理了一下 DNS 缓存。

但也有网友分享照着这个方法,成功复现了,Codex 确实让它的网速变快。

大家要是感兴趣也可以试试,不过 Codex 修改这些网络配置还是有一定的风险,评论区还有人提到 Codex 把他原有电脑的网络配置都删掉了,然后 Codex 跟他说,删掉它们是为了让网速更快。

这些涉及到 Computer Use 的使用案例,大概都会有类似的问题,除了每一次更细心的看懂允许 Codex 执行的是什么命令,还可以在提出任务时,就要求它解释清楚它要做的每一步。

如果不做修改,只是让 Codex 去诊断一些可能存在的网络配置问题,我想也比那个一直停留在进度条的自带 Windows 诊断要强。

开始了,Codexmaxxing

当大家都在讨论 Codex 是否能真的提升网速时,也有网友提到这种用法其实是一种启发。

他说这种做法的核心价值在于靠案例驱动,让 AI 直接参考成功的经验,再针对自己的具体情况进行精准诊断和优化,而类似的提示词技巧在 Agent 产品上将非常有效。

这很像 Codex 里面的 /goal 命令,给他一个目标,这个目标可以是我们自己设置的,也可以是其他用户已经有的成功案例,Codex 照着这个目标,自己去摸索可以实现的路径。

在社交媒体上,也有很多人开始分享这些写目标的模板,以及 OpenAI 的工程师也专门写了一篇文章来讲清楚什么是目标,如何用好目标来发挥 Codex 的最大价值。

/goal <期望的最终状态>,通过 <具体证据> 验证,同时保留 <约束条件>。使用 <允许的输入、工具或边界>。在各次迭代之间,如果受阻或没有剩余有效路径。

也有人认为这只是 Codex 的早期阶段,所以我们才需要学习这么多的提示词技巧,无论是使用案例驱动还是使用 /goal 命令,本质上都是为了让 AI 能更好的理解人类的需求。

就像 Midjourney 、Nano Banana 刚推出时,我们都热衷于找各种公开的提示词;而现在使用 GPT Image 2 在大多数的生图场景下,基本上都不需要专门的提示词格式,就能得到不错的效果。

等到 Codex 越来越好用,我们或许也不再需要这些官方使用模板。但从另一个角度来看,或许就是在这种模仿使用的过程中,我们才会更知道 AI 是如何提升我们的生活和工作效率。

因此,除了提升网速,我们还看到了一些 Codex 的其他玩法。像是使用 Codex 的定时任务,让它每天早上自动产出一份对应行业的日报;还有让 Codex 也能获得自我进化,从过去的对话里面提取出有用的技能;以及直接构建一个 macOS 应用;把 DeepSeek 接入 Codex 客户端等。

▲ 图片来源:X@hqmank

我们也继续尝试了一下那套让 Codex 自进化的提示词,它花了 7 分钟,帮我们创建了 3 个 Skills。

▲ 提示词来源:https://x.com/reach_vb/status/2058538305872949490

感觉这套提示词不仅仅可以用在 Codex 里面,几乎所有的 Agent 产品,都可以用它总结出一些可复用的流程,以子 Agent、Skill,或者自动化的形式重新编排。

回顾我最近 30 天的工作,若历史记录不足则查看所有可用历史,并识别值得打包的重复性手动工作流。

按以下顺序使用可用证据:
– 最近的 Codex 会话和任务摘要。
– Codex Memories 和 rollout 摘要,用于寻找跨会话重复出现的模式。
– 如果启用了 Chronicle,用它发现 Codex 之外的重复工作。Chronicle 仅用于发现;重要细节尽量回到相关源系统确认。
– 现有技能、自定义智能体和自动化,优先复用或扩展已有内容,避免重复建设。

广泛寻找那些重复、耗时、容易出错、依赖上下文,或适合标准化流程的工作。范围包括编码、研究、写作、规划、沟通、运营、分析,以及个人事务管理。

只有满足以下条件时,才把候选项纳入:
– 至少出现过两次,或明显会重复出现且重复成本高;
– 输入稳定、步骤可重复,并且输出或结束条件明确;
– 能明显提升速度、质量、一致性或可靠性;
– 当前还没有被充分覆盖。

选择最小且合适的形式:
– Skill:可复用的工作流或操作手册。
– 自定义子智能体:适合委派的、有边界的专项角色或调查任务。
– 自动化:定时或周期性的检查、报告、提醒或监控。
– Skip:过于一次性、模糊、敏感,或证据不足,不适合打包。

先输出一个简洁候选清单,包含:
– 重复工作流
– 支持证据与日期
– 频率 / 置信度
– 推荐形式:skill、subagent、automation、扩展已有内容,或 skip
– 为什么值得或不值得创建

然后只创建高置信度且当前缺失的项目。保持范围狭窄、实用、了解数据来源,并且容易验证。不要创建猜测性的、重叠的,或过于宽泛的资产。

最后总结:
– 你创建或扩展了什么
– 你刻意跳过了什么
– 哪些内容还需要更多证据后才能打包」

我们还依照 Tibo 分享的使用 Codex 来取消我们不需要的付费订阅服务,由于订阅项目较少,但是有很多无意中订阅的 newsletter,所以我们输入「请查看我的电子邮件,列出我付费订阅的所有服务,以及订阅了哪些邮件通知,并和我确认哪些需要取消订阅。」

Codex 很快就调用了浏览器使用的工具,打开 Gmail,检查我的电子邮箱,发现付费订阅的项目较少,着重为我列举了一些「可退订的邮件通知」。


Codex 会自动搜索相关的邮件

新加入 OpenAI 的员工 Jason Liu 也分享了如何榨干 Codex 的用法,他提到自己喜欢使用 Codex 的语音输入功能,所有的对话线程不再一次性重置,而是跨对话保留上下文,以及使用 Obsidian 库来作为 Codex 的持久记忆层。

前段时间,我们分享了一篇文章,是说几乎所有模型公司,都要做自己的 Agent 产品,模型公司和产品公司之间的界线会越来越模糊。

OpenAI CEO Greg 在 X 发文也提到他认为仅凭模型本身已经不再是产品;Google AI Studio 负责人 Logan 在跟帖中回复,模型、工具和产品之间的共生关系如今已成为一种趋势。

从目前来看,Codex 大概会是体现 OpenAI 模型能力最有力的一个产品。

▲ Codex 重新设计了网站主页,让它更像是一个能为所有人提供帮助的 AI 工作助手,而不是仅限于帮助开发者做代码补全

Codex 负责人 Tibo 提到「总体规划是发布更好、更高效的模型,并且每周都发布更好的产品。还要增加计算能力。」

能从龙虾、Claude Code 这些先占领市场的 Agent 产品里脱颖而出,Codex 的进展确实让人值得期待。不过, Tibo 还贴心地提醒我们,好用,也记得多出去走走,Codex 没法替我们体验真实的生活。

▲ 龙虾之父已经对 Codex 上瘾了,留言说起来容易做起来难

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

OpenAI Codex 彻底免费了!Ollama 接管 AI 编程 Agent,本地大模型开始自动干活!真爽

过去很长一段时间里,很多人都认为,像 OpenAI Codex、Claude Code、Cursor Agent 这种 AI 编程工具,必须依赖云端运行。因为它们需要强大的模型推理能力,所以几乎都离不开 OpenAI API、Claude API 或者 Gemini API。也正因为如此,AI 编程虽然很强,但成本一直都不低。

20260526102301 534113

尤其是大型项目。一次完整的代码分析、项目扫描、Agent 推理,往往就会消耗大量 Token。很多开发者可能只是测试几个小时,API 费用就已经开始快速上涨。

但现在,这件事情开始发生变化了。因为最新版的 Ollama,已经正式支持接入 Codex App。也就是说,你本地运行的大模型,现在已经可以直接变成 AI 自动编程 Agent。

20260526102326 219645 scaled

而且最离谱的是:整个过程,甚至不需要联网。以前很多人对本地大模型的印象,其实还停留在“聊天机器人”阶段。比如本地运行一个 Qwen、DeepSeek、Gemma,然后进行简单对话、文本生成、代码补全等等。

但现在已经完全不同了。因为 AI Agent 和普通聊天机器人,本质上是两回事。聊天机器人只能回答问题,但 Agent 已经开始“执行任务”了。

比如:

自动分析项目结构。

自动扫描代码。

自动寻找 Bug。

自动修改文件。

自动创建项目。

甚至自动操作浏览器。

这意味着,本地 AI 已经开始真正具备“干活”的能力。

20260526102444 818964 scaled

我这次测试的时候,最让我震惊的,并不是 AI 能聊天,而是它真的开始接管电脑了。比如我故意准备了一个已经崩掉的空战游戏项目。这个游戏原本已经报错,甚至无法正常运行。

正常情况下,如果是人工修复,我们可能需要:先查看控制台报错。再检查代码逻辑。然后逐步定位问题。最后再尝试修复。但这次,我直接把整个项目丢给了 AI Agent。

结果它会自动开始:

扫描项目文件。

分析代码结构。

定位错误逻辑。

自动修改代码。

修复 Bug。

最后重新运行整个游戏。

最离谱的是,修复完成之后,游戏居然真的恢复正常运行了。整个过程,几乎不需要人工干预。

20260526102519 647440 scaled

而且这还不是最夸张的。真正让我觉得离谱的是:哪怕断网。它依然可以继续工作。因为它调用的是我本地 GPU 上的大模型。整个 AI 推理过程,全部都在本地完成。没有任何 OpenAI API,也没有任何 Token 消耗。以前很多 AI 工具,一旦断网,直接就废了。

但现在,本地 AI Agent 已经开始具备真正的离线能力。这一点,其实非常重要。因为这意味着,未来很多 AI 工作流,可能都会开始从“云端依赖”逐渐转向“本地运行”。

本地部署

 

1、安装 OpenAI Codex

下载方式:【点击前往】 或 【备用下载

 

如果你下载的是macOS版,注意选择intel 、M 芯片

 

2、安装新版 Ollama

目前只有最新版Ollama 0.24 版本才完全适配Codex,所以如果你安装的是旧版ollama,一定要将其升级到最新版

下载方式:【点击前往】 或 【备用下载

 

3、下载模型:

在4B~40B消费级显卡能跑的开源模型,首推 Qwen3.6 以及 谷歌的 Gemma 4 开源模型,因为无论是模型智力、代码编写、逻辑推理、中文理解等方面,这两款模型的综合评分都是数一数二的!

20260526102120 679379 scaled

 

 

Qwen3.6 开源模型

 

安装命令:

ollama run qwen3.6
ollama run qwen3.6:27b

 

mac 电脑上请选择mlx结尾的适配版

ollama run qwen3.6:27b-mlx
ollama run qwen3.6:35b-mlx

 

Qwen 3.6 其它尺寸的模型 【获取链接

Qwen 3.6 越狱版模型:点击下载

 

Gemma 4 开源模型

安装命令:

ollama run gemma4
ollama run gemma4:26b
ollama run gemma4:31b

mac 电脑可选模型

 

ollama run gemma4:e2b-mlx
ollama run gemma4:e4b-mlx
ollama run gemma4:26b-mlx

 

Gemma 4 其它尺寸模型:【获取链接

Gemma 4 越狱版模型:【点击下载

 

4、对接命令:

ollama launch codex-app

 

注意:如果需要使用之前的模型,可以通过下方的命令进行恢复:

 

ollama launch codex-app --restore

 

【更强玩法】通过 llama.cpp 对接 Codex 加载越狱版模型

 

1、修改Codex的配置文件:

 

model = "Qwen3.6-27B-UD-Q5_K_XL.gguf"
model_reasoning_effort = "low"
profile = "llamacpp-codex"

model_provider = "llamacpp"

[profiles.llamacpp-codex]
model = "Qwen3.6-27B-UD-Q5_K_XL.gguf"
model_provider = "llamacpp"
model_reasoning_effort = "low"

[profiles.llamacpp-codex.windows]
sandbox = "elevated"

[model_providers.llamacpp]
name = "llama.cpp"
base_url = "http://127.0.0.1:8080/v1/"
wire_api = "responses"

[windows]
sandbox = "elevated"

 

2、llama.cpp 的启动命令:

 

llama-server.exe ^
-m "models\Qwen3.6-27B-UD-Q5_K_XL.gguf" ^
-ngl 999 ^
-c 16384 ^
-n 2048 ^
-fa on ^
--jinja ^
--host 127.0.0.1 ^
--port 8080

里面的模型改成你自己的

 

llama.cpp 部署教程:

另外一点让我感触很深的是,现在本地 AI 的硬件门槛,其实已经没有大家想象中那么高了。

很多人以前一提到 AI Agent,第一反应就是:

必须 RTX 4090。

必须 80G 显存。

必须企业级 GPU。

但实际上,现在很多小模型已经完全可以胜任基础 AI 编程任务。

比如:

Qwen 系列。

DeepSeek Coder。

Gemma。

甚至一些 7B、14B 的模型。

最低 6G、8G 显存,现在都已经可以跑起来了。

虽然速度肯定没办法和 4090 相比,但对于很多普通用户来说,已经足够体验“本地 AI 自动编程”这件事情了。

除了修 Bug 之外,我还测试了另外一个非常有意思的玩法:

让 AI 自动开发小游戏。

比如我直接告诉它:

帮我做一个打地鼠小游戏。

结果 AI 会自动创建 HTML、CSS、JavaScript 文件,甚至连 UI 界面和游戏逻辑都会一起完成。

几分钟时间,一个小游戏居然真的能运行起来。

而且效果其实还不错。

最关键的是,这种过程特别有“未来感”。

因为你会明显感觉到:

AI 已经不是在“回答问题”。

而是在真正执行开发任务。

接着,我又测试了另外一个场景。

我让它创建一个苹果官网风格的 AI 产品首页。

结果 AI 自动完成了页面布局、动画、响应式设计、UI 风格,甚至还会自动调整细节。

最终效果,已经开始接近商业级网页设计了。

以前这种事情,可能需要:

UI 设计师。

前端工程师。

动画设计。

CSS 工程师。

但现在,一个 AI Agent,已经开始逐渐具备独立完成整个流程的能力。

这件事情,其实是非常恐怖的。

更夸张的是,现在很多 Agent 已经不仅仅局限于代码开发。

它甚至还能自动打开浏览器、自行搜索、自行浏览网页、自行下载文件,然后自动完成整个操作流程。

这已经越来越像真正的 AI 助手了。

很多人现在才开始意识到:

AI 的真正方向,可能根本不是聊天。

而是:

Agent。

也就是:

真正帮你执行任务的 AI。

而 Ollama,现在正在成为整个本地 AI 生态里非常核心的一环。

以前很多人觉得,Ollama 只是一个简单的本地模型启动工具。

但现在,它已经开始连接越来越多的 AI Agent 工具。

比如:

Codex App。

Continue。

OpenHands。

RooCode。

Aider。

Open WebUI。

这些工具,现在都已经开始支持本地大模型接入。

这意味着:

本地 AI 正在进入真正的 Agent 时代。

以前,AI 更多只是辅助工具。

但现在,它已经开始:

自己分析项目。

自己修改代码。

自己修复 Bug。

自己开发网站。

自己创建游戏。

甚至开始自己操作电脑。

AI 的角色,正在从“聊天工具”,逐渐变成“执行工具”。

而这,可能才是真正 AI 时代的开始。

免費無限使用 Codex 桌面版!一個指令,就能透過 Ollama 輕鬆串接本地 AI 模型

不只是 Claude cowork,現在 Codex 桌面版也能輕鬆串連本地 AI 模型來使用,意味著完全免費且沒有任何額度限制,而且方法還非常簡單!於 5 月中推出的 Ollama v0.24.0,正式加入 Codex 桌面版的支援性,只要輸入一個指令,就能將 Codex 桌面版改成你選擇的 AI 模型,下面就來教你操作。

The post 免費無限使用 Codex 桌面版!一個指令,就能透過 Ollama 輕鬆串接本地 AI 模型 appeared first on 電腦王阿達.

❌