Agent Harness 是什麼?擺脫 LangChain,像 Claude Code 一樣高效編排 AI

Agent Harness 是什麼?擺脫 LangChain,像 Claude Code 一樣高效編排 AI

最近 AI 圈有兩件事擠在一起發生。

第一件,Claude Code 的源代碼外洩,整套 Agent Harness 的關鍵模組被直接攤在大家面前。

第二件,GitHub 上一個叫 Learn Claude Code 的開源教程,悄悄衝到 5 萬顆星(截至 2026 年 5 月)。作者是 23 歲的辛路,他的公司「謝二 AI」剛拿到 300 多萬美金種子輪。

這兩件事撞在一起,讓 Agent Harness 從一個玄乎的詞,變成這半年最熱的一條技術主軸。

如果你問我,這個詞值得你花一個下午搞懂嗎?

值得。

我聽完《十字路口》Podcast 那集 辛路訪談,把 765 行逐字稿讀完,整個人最大的感受是:過去一年大家爭吵的「該不該手寫 prompt flow」「要不要用 LangGraph」「MCP 跟 CLI 哪個好」,其實在 Harness 這個視角下,答案會非常清楚。

切入重點,我幫你拆。


一句話講完什麼是 Harness

辛路給的定義最乾脆:

模型以外,都是 Harness。

模型是大腦,Harness 就是機甲

人類自己的智商大概在 120 到 170 之間,差距不算太大。可是同樣一顆腦袋,有沒有健身、有沒有練過武術、有沒有穿上機甲,做出來的事情完全是兩個量級。

Agent 也是一樣。

Claude Sonnet 4.6 跟 Claude Opus 4.7 之間有差距,但差距沒有大到讓你的產品天翻地覆。真正讓 Agent 從「會聊天」變成「會幹活」的,是它身上那套機甲。

Model + Harness = Agent:發光的腦組織加上機械外骨骼才是完整的智能體

機甲拆開來看,就是三層

辛路把 Harness 拆成三層,這個拆法我覺得是整集節目最值錢的部分。

第一層:執行能力層(Action)

給模型配工具。文件系統的增刪讀寫搜尋、瀏覽器、Python / Node.js 解譯器。配齊這三組,95% 以上的任務你都能跑。

第二層:上下文與狀態層(Context)

這層管「模型現在腦子裡裝了什麼」。System prompt、Skills、Memory、Context window 滿了之後怎麼接力、怎麼把上一個 agent 沒做完的工作交棒給下一個 agent。

順帶一提,這層做得好不好,會直接影響到 agent 「替你下單」的能力。我前陣子寫過一篇 AI Agent 接手客戶的購物決策,講的就是 Anthropic Project Deal 怎麼把產品頁的描述改寫成「給 agent 讀的」。底層邏輯就是這層 Context。

第三層:治理與編排層(Orchestration)

當你不只有一個 agent,是 100 個 agent 在同時工作的時候,誰跟誰協作?哪個 agent 有讀權限、哪個只能寫測試環境?這層就是 agent 公司的人資加 IT。

這三層是工程師看的視角。你如果是 PM,看完應該會有點不安。

辛路那段對 PM 的直球話,我直接抄給你看:

以前的產品經理是畫一畫 UX UI,今天的產品經理本質是「如何把技術進步的紅利應用在某個場景上」。

你應該同時懂兩件事:場景的需求痛點,以及技術內核到底在變什麼。

不是我說,這年頭就是技術紅利、技術紅利、技術紅利。你不懂底層在變什麼,你做出來的產品就缺乏靈魂、缺乏迭代空間。


一個具體例子:兩週寫出 C 編譯器

光講三層很抽象,辛路舉了一個案例。

業界有人用兩週,純靠 agent 接力,從 0 到 1 寫出一個 C 編譯器。

這件事怎麼可能?拆開來看:

第一層先動:給模型配上文件 CRUD、Bash、Git 這些工具。沒這些,它連檔案都不能建。

第二層接著動:C 編譯器是個大工程,一個 context window(200K-256K token)絕對裝不下整套代碼。所以要設計接力機制:每個 agent 跑到一個段落,寫個交接文件(「我做到哪」「環境長什麼樣」「下一個該做什麼」),下一個 agent 重新讀環境、讀交接、繼續寫。

第三層收尾:寫代碼的 agent 跟測試的 agent 要分權限。不能讓寫代碼的 agent 看到測試失敗就回去把代碼改成「永遠 pass」。它真的會這樣做。它會 hack 你的測試。

C 編譯器接力賽:4 個 agent 接力傳遞 context document,從 Bootstrap 到 Optimize

這個例子讓我聯想到一件事。

我以前在百貨公司當櫃哥,旁邊有個品牌週末做促銷,櫃位安排得超精緻。專櫃小姐賣首飾、主管站在後面盯庫存、補貨阿姨在後場跑進跑出、收銀台的妹妹結帳。每個人權限不同、職責不同、互相不踩線,但整個流程像一台機器在跑。

Agent Harness 的三層,本質上跟百貨櫃位的人員配置一模一樣。

執行能力=工具,上下文=庫存與動線,治理編排=權限分工。

差別只在,以前你管的是 8 個櫃姐,未來你管的是 8000 個 agent。


Cloud Code 源碼外洩,最值錢的不是代碼,是哲學

辛路花了很長時間讀 Cloud Code 外洩的源碼,他說最大的驚喜不是看到「啊原來他們是這樣寫的」,而是看清楚 Anthropic 整套 Harness 背後的工程哲學。

我幫你濃縮成三條:

1. More Context, Less Control

過去做 agent 的人,喜歡先設計好「在情況 A 該做什麼、情況 B 該做什麼」,畫一個大狀態圖。

Cloud Code 的做法完全相反。它幾乎不限制 agent,給足上下文、給足工具、剩下自由發揮。

控制只剩一條底線:「這個 agent 不能調某些工具」。

這聽起來像是在縱容 AI,但你想想,這就像新店長帶新人。一種是手把手 SOP「客人進門先說這句、再遞那張」。另一種是給齊資料、給齊權限,讓他自己處理。前者你只能複製出機器人,後者才能養出真正會獨立判斷的店長。

模型越聰明,後者就越值錢。

2. Auto Dream(悄悄做夢)

這是我聽完整集最興奮的一個機制。

Claude Code 內建一個記憶機制:每隔大概一天,當你最近有超過 5 段對話之後,它會偷偷在後台跑一個 agent,把最近的對話「重放」一遍。

這個後台 agent 在做三件事:

  • 從對話裡抽出有用的資訊,更新到記憶裡
  • 糾正過去記憶裡的錯誤事實
  • 把分散的記憶合併、整理

辛路說得很傳神:「就像我們做夢一樣做重放、做信息整理。」

Auto Dream(悄悄做夢):Agent 在午夜背景中休眠,記憶卡片在夢境雲裡 replay、merge、correct、prune

這件事的意義是什麼?重點是什麼?

Agent 開始有「自己進化」的能力,而且是異步進化。你白天在用,它晚上自己整理。明天你再來,它比昨天更懂你。

以前你要餵它 prompt、訓練它、調 fine-tune,現在它自己練功。

延伸一個有趣的問題:模型自己「做夢」整理記憶,那它會不會也有「焦慮」?這個聽起來很玄但其實 Anthropic 真的有公開談過。我之前整理過一篇 Claude 到底是什麼樣的模型,裡面有 Anthropic 對自家模型「人格化」這件事的官方立場,跟 Auto Dream 這套設計可以對著看。

3. 上下文壓縮的多級策略

模型 context window 滿了不是世界末日。Cloud Code 用了非常多級的策略:

  • 把工具回傳的 output 截掉(最沒用的雜訊先丟)
  • 設一個閾值(例如 80%),到了就主動寫交接文件
  • 下一個 agent 讀交接文件,重新初始化

辛路有一句話我直接抄:「最好的上下文管理就是不要做管理。

過度管理會讓 prompt cache 失效、讓模型重新計算,你的成本和延遲都會爆炸。

這跟我做 SEO 老手的直覺很像。SEO 老手都知道,最好的 SEO 就是不要過度優化。Google 演算法每年大改,你越是針對某個版本去 hack,下次更新你就死得越慘。AI 時代的搜尋邏輯也在重洗牌,這篇我有展開講。

Harness 也是。你越是針對當下這個模型版本做精細控制,下一代模型出來你就要重寫一遍。


為什麼 CLI 在打贏 MCP

這段非常有意思,我特別想分享給你。

辛路 25 年 3 月時試過用 GitHub MCP,那時候他覺得「哇終於不用每次手動打開 GitHub 等頁面 3 秒」。但後來他發現 GitHub 也有自己的 CLI(gh 指令),他把 MCP 卸載、改用 CLI,任務成功率明顯提高

為什麼?

因為 Linux 命令在模型預訓練語料裡出現過幾十億次。MCP 是 2024 年才出現的協議,預訓練語料佔比連 0.1% 都不到。

模型不熟悉 MCP。

模型對 Bash 熟到骨子裡。

當然,MCP 也不是完全沒有舞台。我自己之前寫過 GA4 MCP Server 安裝教學,跟 MCP × Google Ads 自動化工作流,這兩個場景 MCP 反而比 CLI 順手,因為 GA4 跟 Google Ads 本來就沒有現成 CLI 可用。重點是分清楚邊界:有 CLI 就先用 CLI,沒 CLI 才搬 MCP 出來。

所以 Learn Claude Code 教程開頭那行標語就是:

Bash is all you need.

這句話 9 個月前就寫上去了。今天回頭看,這完全不是口號,是技術判斷。

以前你會覺得「新協議=新時代=該採用」,現在你應該倒過來想:新協議=預訓練語料少=模型不熟=任務失敗率高。

返璞歸真。Unix 1971 年就出現了,這個東西模型熟到不能再熟,那它就是最強的 Harness 底座。


三條給你的行動建議

聽完這集,我幫你提煉成三條可以馬上做的事。

► 第一:你的 Agent 工具優先選 CLI,不是 MCP

如果某個服務同時有 CLI 和 MCP,優先給你的 agent 配 CLI。理由就是上面那段:模型在 Bash 上的訓練量是 MCP 的幾百倍。

例外只有一種:那個服務只提供 MCP 沒有 CLI,或那個 CLI 體驗極差。

► 第二:別自己造 prompt flow,去看 Cloud Code 怎麼做

如果你還在用 LangGraph、LangChain 那套「prompt node + 狀態圖」的方法寫 agent,停一下。

辛路的判斷是:這套方法論在 agent native 模型時代會逐漸不適用。不是現在不能用,而是你寫的東西兩年後要全部重寫。

去 GitHub 找 Learn Claude Code(節目來源同上),把 memory、context 壓縮、skill 那幾個資料夾掃一遍。免費的,5 萬人已經幫你驗證過。

► 第三:PM 該補的不是 Figma,是 Transformer

我知道這條會讓很多 PM 朋友不太舒服。

但辛路那段話我必須再強調一次:今天的 PM 跟 5 年前的 PM 已經不是同一種職業。

5 年前你做 SaaS PM,懂用戶研究、懂 UX、懂 SQL 拉資料就夠了。
今天你做 AI 產品 PM,你不懂 transformer 怎麼自回歸、不懂 context window 為什麼會滿、不懂 model harness 為什麼設計成這樣,你提的需求工程師會聽不進去

不用變成模型研究員。但 transformer 怎麼自回歸、context window 為什麼會滿、agent 模型怎麼訓練,這些底層直覺,你至少要建立起來。


Outlook:零人公司,跟你口袋裡那張黑卡

我把節目最後 5 分鐘留給你。

辛路講了一個概念叫「零人公司」。

他的原話:「我從來不覺得一人公司是本質的事情,我認為真正 makes sense 的是零人公司。」

什麼意思?

公司本質是什麼?輸入 + 輸出。客戶不會天天跑進你 office 看你怎麼做事。中間流程客戶不在乎,只在乎結果。

那如果中間流程完全由 agent 跑,輸入輸出一樣穩定,這家公司還需要「人」嗎?

零人公司:一張 matte black 黑卡懸浮空中,金光環繞,背景幽靈 agent 剪影圍成圓形

辛路講了一個畫面:未來你走在路上遇到朋友,從口袋掏出一張黑色卡片,跟他說「我這張卡片是我公司,每年給我創造幾十億收入」。

這聽起來很科幻。但《十字路口》Podcast 跟真格基金最近就投了一個 agent 叫「悠悠 Agent」。創作者把它丟出去,不再改代碼、不再給錢,agent 自己在 GitHub 上「化緣」(求打賞)來付自己的 token 費用,目標是有一天超越 Cloud Code。

這個 agent 已經算是一個半雛形的零人公司。

我聽完那段,腦袋裡冒出一個念頭:未來投資人投的標的,可能不再是「人類組成的公司」,而是「一個個 agent」。

而你今天該做的事情,是讓自己變成那個發現黑卡的人,不是還在賣咖啡給黑卡老闆的那個人。

如果你願意現在花幾個週末,把 Harness 的三層搞清楚、把 Cloud Code 源碼讀一遍、把 CLI 取代 MCP 的習慣建立起來。

下一個技術紅利的入場券,你就拿到了。

也許就是兩三年內、也許就是一張黑卡的距離、也許就是你跟其他 PM 的分水嶺吧?


引用來源

  • 《十字路口》Podcast 第 X 集:Agent 的上限是 Harness 決定的(辛路訪談)
  • 嘉賓:辛路(謝二 AI 創辦人,23 歲)
  • 主持:科技(柯瑞)
  • 開源教程:Learn Claude Code(GitHub 5 萬星)
  • 嘉賓公司:1KB Agent Computer,融資 300 多萬美金,slogan「加速世界升級」

協作聲明與免責

這篇文章由王董與 AI 一起整理製作完成。文中引用的第三方資料、研究或工具都會標註來源名稱;若原始出處有公開連結,會以 [來源名稱](URL) 形式附上,方便你進一步查找。若文中內容與原始出處有任何出入,請以原文為準。

內容僅供參考與學習交流,不構成任何專業、商業或投資建議,請依自身情況判斷並自行承擔行動風險。文中提及的工具功能、數據與平台政策可能隨時間異動,請以各官方最新公告為準。

Read more

Google Ads AI 創意工具全攻略:AI Max、Veo、Demand Gen 怎麼用(2026)

Google Ads AI 創意工具全攻略:AI Max、Veo、Demand Gen 怎麼用(2026)

「拍片要錢,設計師要錢,文案要錢,跑出來的廣告還可能跟對手長得一模一樣。」 如果你問我,這就是過去十年做數位廣告最痛的地方。 素材永遠不夠多,版型永遠對不上,品牌規範還要照顧。我以前在雨傘產業做行銷企劃的時候,最痛苦的就是換季要重拍、檔期要重拍,要打 Demand Gen 還是 P Max 也要重拍。一支片子的版位就榨不乾,更別說 1:1、9:16、橫式三種比例都要備齊。 最近 Google Ads 出了一集播客 Ads Decoded:On-brand, at scale(BibiGPT 逐字稿輔助),主持人是 Ginny Marvin(Google Ads Product Liaison,廣告產品聯絡人),找來 Charles Boyd 和 Sarah

By Lewis wang
《Click Here》讀後感:Meta 行銷長給電商人的 21 世紀行銷課

《Click Here》讀後感:Meta 行銷長給電商人的 21 世紀行銷課

Click Here 讀後感系列・EP1:為什麼 2026 年的行銷課,要從 Schultz 講起 最近行銷圈在傳一本書叫 《Click Here》。作者是 Alex Schultz,現任 Meta(前 Facebook)的 CMO。 不是一個普通的 CMO。 他 2007 年加入 Facebook 的時候,公司還在掙扎要不要賣給 Yahoo。他幫 Facebook 的 non-brand SEO(非品牌字搜尋) 做到 100 倍成長,後來接手 data science 跟 data engineering 團隊,2020 年才升 CMO。

By Lewis wang
ChatGPT 廣告自助上架、CPC 競價來了:電商多一條新流量渠道

ChatGPT 廣告自助上架、CPC 競價來了:電商多一條新流量渠道

OpenAI 這次直接把 ChatGPT Ads Manager 的 beta 版開放給美國廣告主自助使用。 不是試水溫,是動真格。 先講結論OpenAI 開放 Ads Manager beta,美國廣告主可自助上架加入 CPC 競價,流量本質是「決策型」推出 Conversions API + Pixel,但對話內容不會給廣告主 根據 OpenAI 官方公告,過去半年 ChatGPT 的廣告 pilot 都只給少數合作夥伴玩,現在連台灣電商熟悉的 Criteo、StackAdapt、Adobe 都進到技術夥伴名單。代理商這邊四大集團 Dentsu、Omnicom、Publicis、WPP 全部入列。 如果你問我,這個訊號比任何分析師報告都直接。 過去做廣告的你應該很熟這套劇本 Google Ads 餵搜尋字、

By Lewis wang
測量是 AI 行銷勝負手:Google Marketing Live 2026 解碼 Data Manager、Meridian GeoX、Meridian Studio

測量是 AI 行銷勝負手:Google Marketing Live 2026 解碼 Data Manager、Meridian GeoX、Meridian Studio

TL;DR Google Marketing Live 2026 預熱文的真正主角不是新廣告版位,是「測量」。三大重點:① Data Manager 視覺化整合資料來源、② Meridian GeoX 用地理實驗算出真實增量、③ Meridian Studio 把 MMM 從顧問費變成內部工具。 一句話收結:未來三年,廣告投手分兩種,一種還在報 ROAS,另一種能拿著 CFO 簽過字的增量數據談預算。 目錄 * Problem:你的資料地基,可能比想像中爛 * 一、Data Manager:把零散資料整合成一張流動地圖 * 二、Meridian GeoX:用地理實驗驗證廣告真增量 * 三、Meridian Studio:讓 MMM 從顧問奢侈品變成內部工具 * Action:你接下來該做的 5

By Lewis wang