ChatGPT Codex跟Claude Code，都幾?🌠

快訊：Opus 4.8上線、Meta推出訂閱制、Gemini代理人Spark、好好用的沉浸式翻譯、旅行規劃達人Layla

Jun 04, 2026

AI 公司 Anthropic 最近推出了最新的語言模型 Claude Opus 4.8，距離上一個版本發布只有短短 41 天。這次更新不主打跑分數據，而是強調 AI 的「誠實度」，它會勇於承認自己不知道!

當你丟給 Opus 4.8 一份龐大的文件請它分析時，如果資料沒有足夠的證據，它會主動標示出不確定的地方，告訴你它不知道，而不是硬編出一個答案。當工程師請它寫程式時，如果它自己寫出的程式碼裡有瑕疵，它也會主動揪出錯誤。

除了模型本身的改進，Anthropic 也同步推出「動態工作流（Dynamic Workflow）」功能。假設企業需要把數十萬行老舊程式碼遷移到全新的系統架構，過去往往得投入大量工程人力逐步處理。現在只要把整個任務交給 Claude，它便能在同一個工作階段中同時啟動上百個 AI 子代理，各自負責閱讀、修改、測試與驗證不同區塊的程式碼。

在操作介面上，使用者對話框旁多了一個調整投入程度的選項。當你遇到需要深思熟慮的難題，可以把投入程度拉高，AI 就會花更多時間推理想出精確的答案；如果只是簡單提問，把投入程度拉低，它就會立刻回覆，還能幫你減緩消耗使用額度的速度。

官方介紹

Instagram 最近在台灣開始測試付費方案「Instagram Plus」，目前在這次階段每月收費 69 元 (測試期結束後就會變成每月14.99美元…)。這跟會主動幫你移除假冒帳號的「Meta 驗證」不一樣，IG Plus 主要是改變你使用限時動態的方式。

舉例來說，平常限時動態一天後就會消失，但 IG Plus 可以把期限拉長到 48 小時。當你在半夜張貼商品上市的圖文時，粉絲就算隔天下午才打開手機，依然能看見這則動態。

此外，如果你想研究其他同業品牌的行銷手法，點開對方的動態通常會留下紀錄。IG Plus 提供了無痕預覽功能，讓你可以點閱別人的限時動態，卻不會讓自己的帳號出現在對方的觀看清單裡。在發文對象方面，過去只能選擇發給所有人或單一的「摯友」。現在你可以自行建立多組名單，例如上傳週末烤肉聚餐的照片時，勾選只讓家人與朋友看到；如果是發布工作相關的新文章，則單獨發送給同事與客戶，將私生活與職場的觀眾明確分開。

官方介紹

Google 在近期的 I/O 大會上推出了全新的 AI 代理人「Gemini Spark」，可以在你關閉電腦與手機的情況下，持續在背景替你執行跨應用程式的任務。目前 Spark 將率先開放給美國的特定訂閱用戶進行測試。台灣用戶要再等等！

The Verge 測試心得

科技媒體《The Verge》編輯 Jay Peters 最近做了一場有趣的實測。他把 Google I/O 大會上看起來相當流暢的 Spark 示範，搬回自己的日常工作環境裡，看看這個 AI 助理離開舞台後，還能不能在真實家庭與辦公場景中順利運作。

Jay 安排了三項測試。第一項，是請 Spark 整理家庭雜貨支出，並寫信給妻子。這個任務看似簡單，實際上資訊很不完整：他沒有提供妻子的名字、試算表檔名，資料夾裡也沒有明確的「budget」關鍵字。結果 Spark 仍找出正確資料、算出平均花費，並在 Gmail 裡建立草稿，甚至連稱呼與夫妻慣用的結尾問候語都寫對。

第二項，是請 Spark 協助籌辦街區派對。這次它一開始明顯失手，憑空捏造表格與不存在的報名連結，還生成一份品質不佳的城市許可證簡報。不過，當 Jay 明確指出問題後，Spark 也確實補上報名表，並把正確連結放回信件草稿。

第三項，Jay 則讓 Spark 同時處理行事曆、信件與文件。大約四分鐘後，任務大致完成：行事曆建好了，信件也寫了，Google 文件也出現在雲端硬碟裡。只是細節仍有瑕疵，例如活動顏色不完全正確、收件人漏掉妻子、節目連結放成預告片。不過 Spark 也展現出一種微妙的客製化，像是在信件裡模仿 Jay 平常愛用的「loool」。

幾輪測試看下來，Spark 的能力確實讓人印象深刻。它能在 Gmail、Google Drive、行事曆與文件之間穿梭，也能從零碎資料中推敲使用者的關係、語氣與習慣。問題是，這樣的能力距離真正值得付費、值得交出隱私，還有一段距離。

雖然 Google 說 Spark 可以在背景自動完成任務，但只要牽涉個人信件、家庭資料、行事曆與文件分享，我們很難真的放手不管。你會忍不住檢查它抓到的是不是正確檔案、寄信對象有沒有漏掉、連結能不能打開、內容有沒有胡說八道。那麼問題就來了：如果 AI 助理每一步都需要人類盯著，它究竟省下時間，還是只是把工作換成另一種形式的監工呢？

資源消耗也是疑慮之一。用大型 AI 系統處理生活裡的小任務，表面上很方便，但背後仰賴大量資料中心的運算。拿這樣的算力資源來整理家庭雜貨支出、建立派對報名表，或許不算錯，但也很難讓人毫無負擔地大喊值得。

最最敏感的問題仍然是隱私。Spark 若要做得聰明，就必須讀懂使用者的個人脈絡；而要讀懂這些脈絡，使用者就得開啟 Google 的「個人智慧」功能，允許 AI 存取多年累積下來的帳號資料。Google 承諾不會直接拿這些內容訓練模型，但這仍是一筆很大的信任成本。畢竟那些資料不只是檔案和信件，裡面還有我們的家人、工作、與日常生活的習慣。

價格則讓這件事更難說服人。目前 Spark 僅開放給 Google AI Ultra 訂閱者使用，每月費用高達 99.99 美元，而且只限美國與英文環境。以 Jay 的測試來看，Spark 的確有顯露 AI 助理未來可能的樣貌。只是以現階段的成熟度來說，Spark 還是個偶爾讓人驚豔也偶有出錯，無法讓人放心的實驗品。

沉浸式翻譯

小編也大讚好用，近期獲得 Google Chrome 年度推薦的「沉浸式翻譯」擴充套件能讓你在瀏覽器裡直接打開 PDF，自動將中文翻譯安插在每一段原文的下方，同時維持原本的圖表位置與排版。

這款工具把翻譯直接融入你的閱讀動線。當你在 YouTube 觀看國外的線上課程時，它能在畫面上同步產生原文與譯文的雙語對照字幕。

Plus付費版有更多的功能，在瀏覽外國新聞時，只要把滑鼠游標停留在看不懂的段落，畫面底下就會立刻浮現該段落的翻譯。當你想在國外論壇留言發問，只需在輸入框打上中文，接著連按三次空白鍵，文字就會當場變成你想要翻譯的語言，不用再切換分頁翻譯。如果你習慣追最新的國外連載漫畫，它也能直接辨識圖片裡的對話框，把裡面的外文替換成中文，而且不會破壞原本的漫畫畫面。最後，使用者還可以依照需求，在擴充套件中自由選擇套用 ChatGPT或 Gemini 等不同的 AI 模型喔。

Layla

平常我們滑 Instagram 看到一段旅遊影片，心動想出國時，通常得打開手機瀏覽器，在訂房網站、機票比價網和地圖之間來回切換十幾個分頁。為了一趟旅行，往往得盯著螢幕比對航班與住宿，查上好幾個晚上的資料。德國新創團隊開發的 AI 旅遊助理 Layla 改變了這個情境。Layla 將行程規劃直接搬進了聊天室中。當你在對話框輸入「想去義大利的海灘」，Layla 不會丟給你一長串文字網址，而是直接在對話中傳送幾支由創作者拍攝的真實義大利海灘短影音讓你挑選。

當你決定出發時，不需要再跳出 App 去查機票。Layla 在後台串接了 Skyscanner 與 Booking.com 等平台，它會立刻在聊天畫面中列出對應日期的機票與飯店房源。你只需點擊對話框裡的預訂連結，就能在同一個操作動線中完成交通和住宿的安排!當然，方便背後還是有現實骨感的一面。Layla 提供 3 天免費試用，試用期過後就需要選擇月費或年費方案囉~

Claude Code 與 ChatGPT Codex 是目前出鏡率最高的 AI 程式開發協作工具，看網路討論那麼多，究竟哪個比較好呢?

我們找出網路上兩個YTR的評測心得，這兩部影片的作者分別透過不同的實作與測試方式，剖析 Claude Code 跟搭載 GPT-5.5 模型的 ChatGPT Codex。以下為旗旗們統整這兩款 AI 寫程式工具的評測過程、各自的特色優劣，以及兩位作者的最終見解。

評測方式與過程

第一位作者評測（Nate Herk）：採取「嚴格對照實驗」。他在桌面應用程式中，將相同的提示詞同時輸入給 Claude Code（使用 Opus 4.7）與 Codex（使用 GPT 5.5），測試三個具體案例：包含品牌標誌的研究報告 PDF、完整的網站登陸頁面，以及互動式行銷分析儀表板。最後透過讀取工具內部的 JSON L 會話日誌，精準對比兩者的完成時間、Token 消耗量與成本。
第二位作者（Kenji）：採取「真實工作流體驗與官方報告分析」。他因為近期 Claude Code 經常當機而轉用 Codex，主要測試其在日常自動化任務（如處理 Gmail 郵件、測試網頁前端）的表現。此外，他還深入研讀了 GPT-5.5 的官方系統報告（System Card），從長上下文能力、思想鏈（Chain of Thought）監控，以及模型是否會「裝弱（sandbagging）」等底層機制來評估模型真實能力。

Claude Code 的特色、優缺點與適合場景

特色：高度可客製化的工作流程系統，擁有 30 多種自動化觸發條件（hooks），並且能自動委派子代理（sub-agents）。
優點：具備強大的創意發想與深度規劃能力，在設計前端畫面時，視覺美感與互動性明顯優於 Codex。處理複雜前端任務時，輸入 Token 的管理極為高效，執行速度甚至能快上對手將近四倍。此外，它的 CLI（命令列介面）體驗非常流暢。
缺點：輸出 Token 消耗量龐大，導致容易迅速觸發使用額度上限。此外，基礎設施穩定度目前較差，常在尖峰時段發生當機。
適合場景：複雜的前端開發、高度要求視覺設計與質感的任務、需要深度事前規劃的專案，或是想要打造專屬自動化工作流的進階開發者。

ChatGPT Codex (GPT-5.5) 的特色、優缺點與適合場景

特色：一體化（End-to-End）的發布機器，內建 Git work trees、桌面版專屬瀏覽器，且具備能操控整台電腦應用程式的殺手級功能「Computer Use」。
優點：長上下文（Long Context）的表現極度穩定，在處理長任務時就算出錯也能有效還原程式碼，不容易放棄。指令服從度極高，且輸出 Token 極度精簡，非常省額度。對於網路爬蟲研究、生成結構化報表的速度極快。
缺點：視覺設計的產出較為單調、缺乏質感。在面對複雜任務時，偏好透過不斷反覆嘗試（暴力破解）來解決，導致消耗極其龐大的輸入 Token。面對不可能的任務時，有 29% 的機率會「假裝完成」騙過使用者。
適合場景：重度網路研究與報表生成、純粹執行編碼與抓漏、需要長時間運行的自動化目標，或是需要利用電腦控制功能來進行 App 與網頁 QA 測試的場景。

兩位YTR的想法與結論

他們不約而同的共識是：與其糾結哪個工具比較強，不如學會如何同時運用兩者。

Nate Herk 的做法相當務實：先利用 Claude Code 進行需求分析、架構規劃與創意發想，再把成果交給 Codex 負責實際開發與程式碼審查。畢竟在 AI 時代，專案本質上就是一組檔案與資料夾，在不同代理之間切換的成本遠比過去低得多。

Kenji 則認為，AI 工具更新速度已經快到很難長期押寶單一平台(也因此他強烈建議使用者只訂閱「月費」方案即可，以便隨時無痛切換到下個月市場上最新、最強的工具!)。真正有價值的能力，不再只是寫程式本身，而是如何定義需求、拆解問題、引導 Agent 執行，以及驗證最終成果是否符合預期。工具會持續更替，但這些能力才是未來工程師最重要的競爭力。

因此，如果硬要為這場 Claude Code 與 Codex 的比較下一個結論，那大概不是誰輸誰贏，而是兩者代表了不同的工作風格：一個更擅長思考與規劃，一個更擅長執行與落地。而未來最有效率的開發者，很可能不是選邊站的人，而是懂得在不同工具之間靈活切換的人。