Code with Claude 2026 舊金山場全 19 場筆記:當寫程式變便宜,整個矽谷在重建什麼?
倫敦場我整理過一輪,這次換主場舊金山。Anthropic 的 Code with Claude 2026 舊金山場 一共 19 場,我把逐字稿全抓下來啃完了。
跟倫敦場比,舊金山這場的卡司更猛。
除了 Anthropic 自己人,台上站的是 GitHub、Vercel、Cursor、Replit、Datadog、Cognition、Gamma、Harvey、Asana,還有做 Bun 的 Jarred Sumner 跟 Boris 同台實況寫扣。等於把「現在最會用 AI 寫軟體的一票公司」全請來,攤開他們的後台。
先給你一個數字感受溫度。
Anthropic 的 API 用量年增將近 17 倍,內部每位工程師的 PR 數成長 200%。Stripe 用 4 天做完原本估 10 週的 5 萬行 Scala 轉 Java。Datadog 近 4 個月有約 90% 的工程師(約 3000 人)在用 AI 寫上線程式。
這些不是 demo,是真的在跑、真的在賺錢的東西。
你沒時間看 19 場,這篇是你的動線地圖
19 場、每場 20 到 40 分鐘,加起來又是 10 小時起跳。
我把它依主題分成 6 組,每場給你講者是誰、在講什麼、最值得帶走的一句話。想深看哪一場,點標題直接跳 YouTube。
切入重點。
群組一:先聽老闆怎麼看大局
要理解這場大會的底氣,先聽 Anthropic 自己怎麼說。
01. Opening Keynote 開場主題演講 由 CPO Ami Vora 開場。核心論點跟倫敦場一致:模型能力是指數成長,但企業採用是線性的,這個落差就是機會。他們當場宣布 Claude Code 的 rate limit 對付費方案加倍(靠跟 SpaceX 的 Colossus 資料中心合作撐算力),並秀客戶戰績:Stripe 4 天完成 5 萬行語言遷移、Mercado Libre 兩萬三千名工程師全用 Claude Code、review 超過 50 萬個 PR。金句很適合貼在牆上:「Design for the next version of Claude, not just the current one.」(為下一代 Claude 設計,不要只為現在這版。)
02. A conversation with Dario Amodei & Daniela Amodei 與創辦人對談 Anthropic 兩位創辦人同台。Dario 說今年公司「成長得比指數還快」,原本規劃年成長 10 倍,第一季年化遠遠超過。他重提一年前的預測:2026 年會出現第一家「一人獨力的十億美元公司」,現在說仍在軌道上。他反覆引用 Amdahl's law 提醒:當 PR 產出快了 3、4 倍,那些沒被加速的環節(安全、驗證)就會變成新瓶頸。最有畫面的一句:「We're gradually making our way to the country of geniuses in a data center.」(我們正一步步走向資料中心裡的天才之國。)

群組二:模型到底進化到哪了
談怎麼用之前,先搞清楚手上的工具長到什麼程度。這三場是能力盤點。
10. The capability curve 能力曲線 Research PM Alex Albert 主講。SWE-bench Verified 一年前 Sonnet 3.7 是 62%,現在 Opus 4.7 達 87%,等於對難題的成功率高出三倍多。進步集中在三件事:會先規劃再動手、能從錯誤中自己爬出來、跨數十萬到百萬 token 維持注意力不用你顧。金句很實在:「Sometimes the best optimization you can make to your app is simply swapping in the latest model.」(有時對你 app 最好的優化,就只是換上最新的模型。)
14. The thinking lever 思考這根槓桿 Research PM Matt 拆解怎麼用 effort 跟 budget 控制 Claude 在推論時花多少 token。同一個交通模擬,low effort 約 50 秒、4,600 tokens;max effort 花 10 倍時間和 token 換更好結果。重點觀念:別把 thinking 當開關,要用 effort 這個旋鈕。設定品質門檻和預算,剩下的讓 Claude 自己搞定。
19. The expanding toolkit 擴張中的工具箱 Research PM Lucas 講一個很犀利的觀點:去年你要自己手刻的 scaffolding,今年直接隨模型出貨。工具呼叫的 router、retry、context 的 chunking/RAG、code execution 的 sandbox,現在都收斂成幾行 config。金句值得每個工程師刻在桌上:「補償模型不可靠的程式碼,半衰期只有幾個月;把模型連到你世界的程式碼,才會複利累積。」
群組三:Claude Code 進階與實況
這兩場讓你看到 Claude Code 現在到底能多狠。
03. What's new in Claude Code 新功能盤點 分兩大主題:開發體驗與自主性。開發體驗端有手機遠端接續 session、無閃爍全螢幕、改版桌面/網頁 GUI。自主性端是 auto mode:用 classifier 判斷工具呼叫危不危險、像不像 prompt injection,安全才放行,省掉一堆權限確認。還有 worktrees 讓 Claude 自己開隔離環境平行做多功能、auto memory 自管 memory.md。金句:「在你親自看每個 PR 前,更少需要核准、更多 agent 安全地平行工作。」
04. Live coding with Boris Cherny and Jarred Sumner 實況寫扣 Claude Code 負責人 Boris 跟 Bun 作者 Jarred 同台,用 Bun 的開源專案實演「robobun」全自動流水線:每個 GitHub issue 自動重現問題、開 PR,還硬性要求附測試、且新測試要在舊版 Bun 上 fail 才算數。重點是 robobun 現在已經是比 Jarred 本人還大的貢獻者。金句道出心態轉變:「PR 變成建議,是 Claude 寫的就不必有愧疚」,反而把「該不該 merge」的標準拉得更高。

群組四:把 agent 推上 production
demo 漂亮人人會,上得了線才是真功夫。這四場專治這段。
06. How to get to production faster with Claude Managed Agents Anthropic 發表 Claude Managed Agents,把 agent 上線需要的基礎設施包成託管服務。他們調查發現開發者三大痛點:context 管理、infra(憑證/安全/human-in-the-loop)、缺乏 observability(多數 agent「跑在 vibes 上」)。金句跟倫敦場呼應:「The bottleneck is increasingly infrastructure and not intelligence.」(瓶頸越來越是基礎設施,不是智能。)
08. Getting more out of the Claude Platform 把平台榨乾 Platform PM Brad 講三招控成本:prompt caching(input token 打 9 折、又不計入 rate limit)、context engineering(tool search、programmatic tool calling、compaction)、advisor strategy(便宜的 Sonnet 執行、貴的 Opus 當顧問)。金句直接到不行:「If you're not doing prompt caching, ignore the rest of the talk and go do that.」(你還沒做 prompt caching 的話,其他都別聽,先去做。)
12. Building with Claude Managed Agents and Asana AI teammates Asana 示範用 Managed Agents 打造「AI teammates」,把 agent 變成有權限控管、共享記憶的真團隊成員(已 GA、超過 21 個預建 agent)。最有感的點:多數企業還停在「單人模式」用 AI,缺的是會累積、能共享的組織記憶。Demo 裡 marketer 把顏色從綠改藍的回饋會寫進 agent 記憶,下次別人用就不會再犯同樣的錯。把 agent 當「新進同事」一樣 onboarding。
18. Memory and dreaming for self-learning agents 記憶與作夢 Platform PM Mahesh 把 memory 當成通往自學習 agent 的下一個基礎元件,並發表 dreaming。Memory 用檔案系統建模、讓 Claude 用 bash/grep 自管,Rakuten 用後首次錯誤降 90%。Dreaming 則是離線批次去掃近期的 session、找出共同錯誤跟有效策略,自動整理出更新的記憶,讓隔天的 agent 自動變強,Harvey 在法律 benchmark 上完成率提升 6 倍。
群組五:頂尖公司的大規模工程心法
這三場是規模最大、最硬核的後台拆解,做平台、做基礎設施的人別錯過。
05. Caching, harnesses, and advisors: Building on Claude at GitHub scale GitHub CPO Mario 跟 Anthropic 的 Brad 拆 Copilot 在數十億級規模上的心法。重點是 prompt caching 的命中率要做到 94 到 96%,掉到 70% 通常代表你有 bug,因為 cache 失效等於多付好幾倍。還有破除迷思:長 context 不一定貴,真正貴的是 compaction。金句該裱框:「Measure outcomes, not activity.」(衡量結果,不是活動量。)他們看的是程式碼的「存活率」而不是「接受率」,因為接受後又被刪掉,等於沒達成目標。
16. Evaluating and improving Replit Agent at scale Replit 總裁 Michele 講評估。他們當天開源了「vibe bench」:20 個來自真實使用的需求,讓 harness 端到端建出 app,再用瀏覽器操作加自然語言測試計畫自動打分。發現前沿模型跟開源模型差約 2 倍,而且模型擴展「自己寫的扣」時最弱,所以每個功能之間都該插入測試。金句很關鍵:「別把評估當成上線前最後一道關卡,要把它當成讓你每天交付更好 agent 的引擎。」
09. How Datadog built a universal machine tool for Claude Code Datadog 工程副總 Sesh 借工業革命的「工具母機(machine tool)」概念,打造 Tempr:agent 不直接寫任意程式,而是產出 blueprint,再編譯成正式的狀態轉移表,外加四層驗證關卡才放行。這種把 agent 包進一套受控流程的思路,跟我之前寫的 Agent Harness 是什麼 是同一個底層概念,想補底可以先看那篇。數據很猛:近 4 個月約 90% 的工程師用 AI 寫上線程式,其中至少三分之二由 Claude Code 驅動。金句很有畫面:「你不再寫程式,你在形塑工作,彷彿每個人都被往上升了三級到管理層。」

群組六:工程組織與一線團隊怎麼重排
模型變強之後,最痛的不是技術,是組織跟架構怎麼跟著變。這五場是第一線的重排實錄。
13. Running an AI-native engineering org 經營 AI 原生工程組織 Anthropic 的 Fiona 講當 coding 不再是瓶頸,組織流程怎麼重寫。技術辯論不再白板吵,直接讓 Claude 生 3 個 PR 比較;大幅砍掉 design doc 跟 product review,改成「go prototype」、討論都在 PR 上進行;並把資源加倍投到 verification。金句很精準:「when building is cheap, arguing is expensive.」(建構變便宜時,爭論變昂貴。)
07. Building AI-native: Cognition, Gamma, and Harvey 三家頂尖應用公司 Harvey、Cognition、Gamma 三家同台。共同經驗是:每次模型大躍進都「完全重構」產品,別做一時定生死的決策。Cognition 的 Devin 用量今年成長 5 到 7 倍;Gamma 七千萬用戶,靠 MCP 把自己變成別的平台裡的 agent,成了主要獲客管道。最值得經營者記住的一句(Harvey):「廣泛分發的個人 AI 生產力,不等於組織生產力。」跑得快 10 倍,也可能是 10 倍速地往錯方向衝。
11. Architecting for model step-changes:Vercel 爐邊談 Vercel 創辦人 Guillermo Rauch 對談。他說模型每次躍進都讓他們重構,而且因為模型更聰明,反而能簡化程式碼(砍掉舊的自動修語法管線)。一個很有意思的數字:Opus 的 token 只佔用量約 20%,卻佔總花費 70% 以上,代表大家把貴的算力花在真正有價值的產出上。他把 token 當成新的原料,全公司無上限預算讓人人能 ship。
17. Giving coding agents their own computers:Cursor 怎麼做雲端 agent Cursor 團隊講一個觀念:像 onboard 人類工程師一樣,給 agent 自己的電腦、工具跟文件。三原則:給它眼睛(你看得到的它也要看得到)、給它工具(你能跑的它也能跑)、維持高品質的 codebase(agent 是吃進什麼吐出什麼)。金句點破盲區:「你要像在乎開發者體驗一樣、甚至更在乎 agent experience。」
15. Building with Claude on Google Cloud Google Cloud 的 Ivan 戴上五頂帽子,示範用 Claude Code 加 Vertex 上的 Claude 模型,端到端建一個 app 並部署。亮點是 Google 新釋出的 Developer Knowledge API(含 MCP server,給新鮮文件)跟 Google Cloud Skills。重點訊息很接地氣:你不需要會 Google Cloud 怎麼部署,靠 Claude Code 加 MCP 跟 skills 就能完成。
看完 19 場,我自己最有感的一件事
如果你問我,舊金山這場跟倫敦場講的是同一件事,但講得更深、更狠。
倫敦場讓我看到「瓶頸從寫程式移走了」。舊金山這場讓我看到,當這件事成真,整個矽谷的頂尖公司都在做同一個動作:重建。
GitHub 重建快取策略、Vercel 重建建構流程、Harvey 每次模型升級就完全重構產品、Datadog 重建成「工具母機 + 驗證關卡」、Cursor 重建成「給 agent 自己的電腦」。沒有一家在原地優化,全部打掉重練。
這個畫面我看了很有感。
做行銷、做生意這些年,我看過太多人把工具當「加速器」,買來讓現有流程跑快一點。但這場大會講的不是加速,是重建。Datadog 那句「彷彿每個人都被升了三級到管理層」,講的就是這個。你的角色從「做事的人」變成「定義事情、驗收事情的人」。
工具把執行成本壓到趨近於零之後,誰還在原地把舊流程跑快一點,誰就會被那些打掉重練的人甩開。這個「coding 變便宜之後該蓋什麼」的題目,我在 王董週刊 #2:Coding is Solved 之後,Growth Hacker 該蓋什麼? 聊得更透,有興趣可以接著看。
所以這場表面在講工程,骨子裡是在問每個經營者:當執行不再是瓶頸,你是要把舊流程跑快一點,還是敢把它整個重建?

三件你今天就能做的事
看完別只收藏。給你三條可以立刻動手的:
► 先換上最新的模型,再談優化。 這是第 10 場 Alex 反覆強調的:有時對你 app 最好的優化,就只是把模型換成最新版。別拿著舊模型調半天 prompt。
► 把「驗證」當成引擎,不是關卡。 這是 GitHub 跟 Replit 的共識:別把測試/評估當成上線前最後一道關,要把它變成讓你每天都能交付更好成果的引擎。對應到你的工作,就是先想清楚「怎麼自動驗收」,再放手讓 AI 去做。
► 挑一個流程,問自己「該加速還是該重建」。 這是整場最大的提醒。挑一件你每天在做的事,誠實問:我是在用 AI 把舊做法跑快一點,還是敢重新設計它?前者人人會,後者才拉得開差距。
最後
這年頭就是模型、模型、模型。但這場大會看到最後,講者反覆在提醒的,反而是模型以外的東西:你的組織、你的驗證迴路、你敢不敢重建的決心。
模型會一直變強,這不用你操心。
該你操心的,是當大家手上的模型都一樣強,你還剩下什麼別人複製不走的東西。
想深入哪一場,上面每個標題點下去就是原始影片。完整的 19 場播放清單在這裡,挑你最有感的那幾場,週末泡杯咖啡好好看。
協作聲明與免責
這篇文章由王董與 AI 一起整理製作完成。文中引用的第三方資料、研究或工具都會標註來源名稱;若原始出處有公開連結,會以 [來源名稱](URL) 形式附上,方便你進一步查找。若文中內容與原始出處有任何出入,請以原文為準。
內容僅供參考與學習交流,不構成任何專業、商業或投資建議,請依自身情況判斷並自行承擔行動風險。文中提及的工具功能、數據與平台政策可能隨時間異動,請以各官方最新公告為準。