Code with Claude London 2026 全 24 場演講筆記:寫程式不再是瓶頸,那瓶頸跑去哪了?

Code with Claude London 2026 全 24 場演講筆記:寫程式不再是瓶頸,那瓶頸跑去哪了?

Anthropic 第一次把「Code with Claude」開到舊金山以外的城市,地點選在倫敦。我把這場大會放上 YouTube 的 24 場演講全部看完,逐字稿也都抓下來整理過一遍。

先丟幾個數字給你感受一下溫度。

過去 12 個月,Anthropic 的 API 用量年增將近 17 倍。Spotify 近 3000 人的工程組織,每天部署到 production 約 4,500 次,光是自動維護就累計合併了 2,500 萬個 PR。Base44 從創辦人一個人,長到 80 名工程師。Lovable 平台上已經被建出 5,000 萬個 app,每天新增 20 萬個。

這些不是 demo,是真的在跑、真的在賺錢的東西。

你沒時間看完 24 場,這篇幫你導覽

我猜你的狀況跟我差不多。

24 場演講,每場 20 到 40 分鐘,加起來超過 10 個小時。你白天要開會、要顧專案、要回客戶訊息,誰有那個美國時間一場一場啃?可是這裡面又確實藏著今年 AI 工程最值得知道的轉折,漏掉很可惜。

所以我把 24 場依主題分成 6 組,每一場給你講者是誰、在講什麼、最值得帶走的一句話。

想深看哪一場,點標題就能直接跳到 YouTube 那支影片。

這就像逛展,先給你一張動線地圖,你再決定哪個攤位要蹲下來細看。

切入重點。


群組一:先搞懂模型到底進化到哪了

要談怎麼用,得先知道手上的工具長到什麼程度。這四場是「能力盤點」。

01. Opening Keynote 開場主題演講 由 Claude Code 創造者 Boris 開場,多位 Anthropic 主管接力。核心論點很尖銳:模型能力是指數成長,但多數組織的採用速度卻是線性的,這中間的落差就是開發者的機會。他們秀出過去一年出貨 8 個 frontier 模型、平均一個開發者每週用 Claude Code 超過 20 小時。最讓我印象深的一句:「現在的預設,已經不是『我去提示 Claude Code』,而是『我讓 Claude 去提示 Claude Code』。」人退到後面一層了。

06. The capability curve 能力曲線 Anthropic 研究團隊 PM Jeremy 把這條曲線攤開講。SWE-bench verified 從 Sonnet 3.7 的約 60% 一路爬到 Opus 4.7 的 87%,解題量大概翻了三倍。進步集中在三件事:會先規劃再動手、能從錯誤中自己爬出來、長任務能撐到 1M token 還不迷路。最瘋的案例是 bun 創辦人 Jared 用 Claude 在一週內把整個 JS engine 用 Rust 重寫,而他本人根本不會 Rust。金句:「Evals 就是 AI 時代的單元測試與回歸測試。」

15. The thinking lever 思考這根槓桿 Anthropic 的 Alexander Bricken 拆解「test-time compute」,講白話就是讓模型在回答前多想一下,這跟把模型練大一樣能提升智能。他現場用紅綠燈車流模擬 demo,low、high、max 三檔花的 token 差到 10 倍,品質遞增但有邊際遞減。實用結論一句帶走:「拿不定主意時,就開 extra high。」

10. Picking the right model 怎麼挑對模型 Anthropic Applied AI 的 Lucas 給的建議很反直覺:別信公開 benchmark,自己建一套小 eval。他有個數據很打臉:在某個修 code 的任務上,便宜的 Haiku 4.5 開了 thinking 竟然拿到 100%。所以重點是什麼?「對的模型不是每個 token 最便宜的,而是每次『成功結果』最便宜的那個。」這句話我覺得做行銷投放的人也該抄起來。


Code with Claude London 2026 模型能力曲線:SWE-bench 從 60% 升到 87%

群組二:Claude Code 進階,別再盯著它跑

這五場是給已經在用 Claude Code、想用得更兇的人。共同主題:把它從「工具」變成「會自己做事的隊友」。

02. Beyond the basics 超越基本功 Claude Code 團隊工程師 Daisy Holman(前 C++ 委員會主席)講大規模環境下怎麼客製化。她點出 context window 大約就停在 1M token、不會再變大了,所以穩定的東西放最前面、每次任務才變的放後面,遵守「不要為你沒用到的東西付費」。金句:「讓 agent 更懂你 codebase 最快的方法,不是更聰明的模型,而是更緊的回饋迴路。」這場講的「harness 客製化」如果你還沒概念,可以先看我之前寫的 Agent Harness 是什麼,墊一下底再回來看會更有感。

05. The prompting playbook 提示工程手冊 倫敦的 Applied AI 工程師 Margo 示範用 evals 驅動的系統化改 prompt。她用一個電信客服 bot 當教材,一個個攻破失敗案例。最受用的一句:「如果你讀一份 prompt 都分不清哪句是 guidelines、哪句是 policy、哪句是 data,模型多半也分不清。」還有一個觀念要記住:指令本身不會增加能力,該給工具的時候就給工具,別叫模型心算。對 prompt 還很沒安全感的人,我另外整理過一篇 給天天用 AI 的人的 4 個 Prompt 技巧,可以搭配著看。

19. Build a proactive agent workflow 打造主動的 agent 工作流 Anthropic 的 Maya 介紹 Claude Code 的新功能 routines。重點是讓 agent 跑在雲端的 managed 基礎設施上,不再綁在你的筆電。觸發方式有兩種:定時排程,或事件觸發(原生支援 GitHub events)。她舉內部例子:有人設了一條「每週比對 main 的變更跟文件的差異,發現不一致就自動開 PR」。金句:「程式 agent 不該等你按 enter 才開工。」

23. Stop babysitting your agents 別再當 agent 的保姆 Claude Code 創始工程師之一 Sid 的進階課。三層技巧:verification(教 Claude 用人類那套 build、run、查 log、跑測試的流程自我驗證)、multi-Clauding(同時開多個 session,但他坦言超過 4、5 個自己也顧不來)、background loops(用 /loop 10 minutes babysit my open PRs 讓它定期醒來處理 PR)。最該想的一個問題:「你的 codebase 裡,有哪些是人類視為理所當然、但 agent 其實拿不到的東西?」

24. What's new in Claude Code 最新功能盤點 Anthropic 的 Ralph 一次講完近期新功能:手機遠端遙控 session、無閃爍全螢幕模式、桌面版大改版、會自動判斷動作危不危險的 auto mode、原生 worktree 支援、自動把你的 coding 習慣記進 memory.md。他把 CLAUDE.md 比喻成「入職手冊」、memory.md 是「工作筆記」,這個分法很好懂。金句很有畫面:「Claude 現在就是那個終端機了。」


Claude Code 從工具到隊友:背景 loop 與多 agent session 自主運作

群組三:從 demo 到上線,這段路最難走

很多人卡在「demo 很漂亮,但上不了 production」。這四場專治這個病。

04. Getting more out of the Claude Platform 把 Claude 平台榨乾 Anthropic Platform PM Puneet 講三招把成本壓下來:prompt caching(命中可享 90% 折扣,目標命中率拉到 80% 以上)、context engineering、advisor strategy(用便宜的 Sonnet 執行、貴的 Opus 當顧問,拿到前沿品質但成本砍好幾倍)。他講了一句很適合貼在牆上的話:「這場如果你只記得一件事,就記 prompt caching。」

13. How to get to production faster 用 Managed Agents 更快上線 Anthropic 技術團隊的 Michael 和 Harrison 發表 Claude Managed Agents,把 agent 上 production 需要的基礎設施都包成 API。核心觀點:「提升能力的瓶頸,其實是模型周邊的基礎設施,而不是模型智能本身。」現場還拉了 Cloudflare、Daytona、Modal、Vercel 一起站台。

14. Build a production-ready agent 手把手建一個可上線的 agent 這場是上一場的技術 deep dive,用一個 M&A 投資決策的 demo 做 live coding。重點是讓你看清楚 Managed Agents 那四個積木怎麼拼:agent、environment、session、events,還有 credential vault 怎麼讓 Claude 全程看不到你的 token。金句很妙:「這意味著 Claude 可以幫你打造出你自己的 Claude。」

11. Memory and dreaming 記憶與作夢 Anthropic 的 Ruvi 介紹兩個讓 agent 自我學習的功能。Memory 讓 agent 把前一個任務學到的東西帶到下一個;Dreaming 則是離線批次去翻 session 紀錄、找出模式、自動整理出更好的記憶。數據很有說服力:Rakuten 的生產 agent 首次錯誤降了 97%,Harvey 用 dreaming 在自家法律 benchmark 上完成率提升 6 倍。


群組四:雲端三雄怎麼跑 Claude

你公司用哪朵雲,這三場對號入座就好。三家的邏輯其實很像:把資料留在你自己的邊界內、計費整合、企業級安全。

08. Building with Claude on Google Cloud Google Cloud 的 Developer Advocate Ima 戴上 PM、設計、工程、資安、分析五頂帽子,示範用 Claude Code 在 Google Cloud 上把一個 app 從原型做到部署。亮點是新推出的官方 Google Cloud Skills 和 Developer Knowledge API,讓 Claude 拿得到每 24 小時更新的新鮮文件。

20. Build AI agents using Claude in Microsoft Foundry 微軟資深 Developer Advocate Marlene 帶的實作 workshop。重點訊息:產業正從單輪對話走向 agentic 系統。她用一個杯子蛋糕店場景,在 Foundry 裡接 Claude 模型、建 agent、再接 MCP 工具。金句點出本質:「你不能只靠模型變強,還需要能讓這份智慧真正被執行的系統。」

22. AI with Claude on AWS:從寫程式到編排 AWS 的 Antonio 自稱「對雲低語的人」。他講 AWS 上用 Claude 的三種方式,從直接用 Bedrock API、到數天前剛 GA 的 Claude platform on AWS、再到桌面版。一句話總結這年頭的工作型態:「我們其實是在對模型低語,而不是真的在寫程式。」


雲端三雄:在 Google Cloud、Microsoft Foundry、AWS 上跑同一個 Claude

群組五:工程組織重組,團隊長相變了

模型變強之後,痛苦的不是技術,是組織。這五場都在講「人」要怎麼重新排列。

03. Running an AI-native engineering org 經營一個 AI 原生的工程組織 (這場的逐字稿品質較差,以下是可辨識範圍內的重點,建議直接看影片。)核心觀察是:瓶頸已經從「寫 code」上移到「規劃」和「組織結構」,review 和 onboarding 反而成了新的卡點。一個有意思的轉變是,主管、VP 開始重新回到 codebase 裡動手。

18. From one person to 80 從一人到 80 人 Base44(已被 Wix 收購)的 Job 和 Gabrielle 講擴張故事。他們 onboarding 不寫文件,而是用兩個 prompt:「掃過所有 commit,給我一張組織知識地圖」「給我這個元件的 mermaid 圖」,讓 Claude 即時維護。還有一招很聰明:用 production 流量取代難建的 eval,因為使用者開心時沉默、壞掉時會在 chat 大聲罵,就用便宜模型去分類抱怨的強度。金句:「瓶頸會一直移動。」配上他們的信念「把一切保持得非常、非常簡單」。

21. Coding is no longer the constraint Spotify 的故事 在 Spotify 待了 15 年的 Niklas 分享。數字很猛:每天約 4,500 次部署、4,000 萬行的 monorepo、超過 99% 工程師每週用 AI 工具、PR 頻率增加 76%。他們的 fleet management 累計自動合併了 2,500 萬個維護 PR。但新痛點來了:「要 review 的 PR 多到爆炸。」約束從寫程式,轉移到了人類做決策的環節。

17. Building AI-native at enterprise scale 三家企業的轉型 monday.com、Doctolib、Delivery Hero 三家都成立於 2011 到 2013 年,要在龐大的舊 codebase 上轉型。Delivery Hero 的 Herogen 把 Jira issue 自動帶到可 merge 的 PR,近十天日均約 173 個,還用「council of agents」多模型互審把成功率推到約 85%。Doctolib 做到接近 100% 採用,連 PM、設計、法務都在用。共識金句:「別再等完美條件、完美使用情境了。」

07. Designing with Claude 從 prompt 到 production 的設計法 Anthropic Labs 的 PM Dan Carey 講一個三人小團隊怎麼在 10 週把產品從點子做到上線。他們不寫 PRD、不寫 vision doc,直接用「能跑的原型」溝通,因為「文件不夠精確」。最反骨的一句:「別去做那個『已經能用』的東西,要為那個『快能用』的東西做原型。」因為下一代模型可能直接幫你把它解掉。


群組六:別人家的實戰案例

理論看再多,不如看別的行業真的怎麼用。這三場是金融、法律、和一個 vibecoding 平台的第一線。

09. Building signals that trade themselves 會自己交易的訊號 Man Group(管理超過 2,000 億美元資產)的數據與 AI 主管 Tashara 分享,他們已經有真的在跑真錢的交易訊號,由 AI 想點子、取資料、回測、寫策略提案,人類只做審查。他們 1,700 人裡有 750 人在用 Claude Code。最值得行銷人、經營者抄下來的一句:「聚焦你的組織脈絡,那是你的 IP、你的護城河,是 AI 時代少數還安全的地帶。」前沿實驗室不會幫你解這個。

12. Lessons from Legora 法律 agent 的繼承學 Legora(為律師打造協作 AI,估值超過 50 億美元,ARR 從 100 萬衝到 1 億)的工程師 Jacob 提出一個很實用的框架:垂直領域的 agent,可以直接「繼承」coding agent 的進展,分三類處理,能重用的就重用、相似的就翻譯、剩下的自己發明。金句:「你就一直盯著 coding agents,他們每出一個新東西,你就拿過來用。」

16. How Lovable vibecodes at scale Lovable 怎麼大規模 vibecoding Lovable 平台規模驚人:5,000 萬個 app、每天新增 20 萬、月訪問 6 億。他們的核心機制是「自我修復」:偵測使用者是不是卡住了(連問三次 fix it 就算),然後用一個「抱怨工具」把問題送進 Slack,由另一個 agent 去調查、開 PR,每天大概 merge 10 個修復。金句很值得做平台的人記住:「平台上建的每一個 app,都應該幫忙改善下一個。」


看完 24 場,我自己最有感的一件事

如果你問我,這 24 場講到最後,其實都在繞同一個圈:瓶頸移動了。

以前你缺的是「會寫 code 的人」。現在 code 幾乎是免費的,你缺的變成「能審查、能下判斷、能定義要做什麼」的人。這個題目我在 王董週刊 #2:Coding is Solved 之後,Growth Hacker 該蓋什麼? 裡專門聊過一輪,有興趣可以延伸看。Spotify 那句「要 review 的 PR 多到爆炸」,跟 Base44 那句「瓶頸會一直移動」,講的是同一件事。

這個感覺我太熟了。

做數位行銷這些年,我經歷過一模一樣的轉折。早期你缺的是「會下廣告、會排版、會寫文案」的手,誰手快誰贏。後來工具越來越自動化,內容可以批量產,投放可以自動優化,缺的東西就變了。變成什麼?變成「判斷哪個內容值得做、哪個客戶值得追、哪個數字是真訊號哪個是雜訊」的腦。

我帶過一個小團隊,那時候卡關卡最久的,從來不是「做不出來」,而是「不知道該做哪個」。

工具把執行的成本壓到趨近於零之後,你的價值就全部壓到「決策」那一格上。這跟那位 Anthropic 工程師講的「對的模型不是每 token 最便宜的,而是每次成功結果最便宜的」是同一個道理。重點不在便宜,在於你選對了沒有。

所以這場大會表面在講工程,骨子裡是在問每一個經營者、每一個帶團隊的人:當執行不再是瓶頸,你打算把省下來的注意力,放到哪裡去?

瓶頸移動了:以前缺會寫 code 的人,現在缺會判斷的人

三件你今天就能做的事

看完別只是收藏,不然跟沒看一樣。給你三條可以立刻動手的:

先建一套你自己的小 eval,別信公開排行榜。 不管你是要選模型還是選工具,挑 5 到 10 個你真實會遇到的任務,自己跑一遍比對結果。這是第 10 場 Lucas 反覆強調的,也是最容易被跳過的一步。

挑一件「重複、無聊、明天就能做」的苦工,直接交給 agent 全力做。 這是第 17 場那三家企業的共識:別等完美情境。可能是你每週都要整理的報表、每次都要查的內鏈、每月都要對的數據。先讓它做一件,建立信任再擴大。

把你的「判斷標準」寫下來,餵給 AI。 Base44 讓 Claude 從累積的 PR 評論萃取出創辦人的 review 重點,等於複製了一個審查者。你也可以把自己對「什麼是好內容、什麼客戶該追」的判斷整理成文件,這會是你接下來最值錢的資產。

最後

這年頭就是模型、模型、模型。但這場大會看到最後,講者們反覆在提醒的,反而是模型以外的東西:你的組織脈絡、你的回饋迴路、你的判斷力。

模型會一直變強,這不用你操心。

該你操心的,是當大家手上的模型都一樣強的時候,你還剩下什麼別人複製不走的東西。

想深入哪一場,上面每個標題點下去就是原始影片。完整的 24 場播放清單在這裡,挑你最有感的那幾場,週末泡杯咖啡好好看。

協作聲明與免責

這篇文章由王董與 AI 一起整理製作完成。文中引用的第三方資料、研究或工具都會標註來源名稱;若原始出處有公開連結,會以 [來源名稱](URL) 形式附上,方便你進一步查找。若文中內容與原始出處有任何出入,請以原文為準。

內容僅供參考與學習交流,不構成任何專業、商業或投資建議,請依自身情況判斷並自行承擔行動風險。文中提及的工具功能、數據與平台政策可能隨時間異動,請以各官方最新公告為準。

Read more

信任行銷實戰:為什麼越用力推銷,轉換率反而越低?拆解 Naval《Sell the Truth》

信任行銷實戰:為什麼越用力推銷,轉換率反而越低?拆解 Naval《Sell the Truth》

先問你一個問題。 你有沒有過這種經驗:一檔促銷文案改了八版,CTA 按鈕從「了解更多」換成「立即搶購最後 3 小時」,紅底加大加閃,結果轉換率不升反降? 廣告投得更兇、折扣喊得更狠、倒數計時器擺到滿版,數字卻像在跟你作對。 如果你問我,這不是你不夠用力,恰恰是你太用力了。 我最近聽了一集矽谷投資人 Naval Ravikant 的播客 《Sell the Truth》(賣真話),把整集逐字稿讀完,整個人最大的感受是:我們做行銷的,可能搞反了「銷售」這件事的因果關係。 Naval 是 AngelList 創辦人、早期投過 Twitter 跟 Uber 的天使投資人。他開場講了一句很狂的話: 我從來沒上過銷售課,我也不想擅長銷售,我甚至不知道銷售是什麼。 一個說服無數頂尖創辦人拿他錢的人,說自己不懂銷售。 矛盾嗎?切入重點,

By Lewis wang