Anthropic 40 万次 Claude Code 会话：会提需求比会写代码更值钱 (2026)

Anthropic 这次没有发布一个更强的 Claude，而是拿出约 40 万次 Claude Code 交互会话，试图回答一个更扎实的问题：当代码 Agent 真的进入工作流后，人和模型到底怎么分工。报告覆盖 2025 年 10 月到 2026 年 4 月，样本来自约 23.5 万名用户，并使用隐私保护分析框架处理会话内容。1

这个问题比单次 benchmark 更接近使用现场。因为 Claude Code 不是只在生成代码，它还会读文件、改代码、跑命令、写说明，甚至在用户两次确认之间连续执行一串动作。Anthropic 的核心结论很直接：Agent 正在接走大量执行工作，但能否成功，仍主要取决于用户是否懂自己要解决的问题。1

报告真正要量的不是「会不会写代码」

这份研究把 Claude Code 会话分成 9 类工作模式。约 56% 的会话仍然是直接写代码、修 bug、测试或编排自动化流程；另有 17% 是部署、配置、运行管线、监控系统这类「操作软件」；14% 用来理解系统或规划改动；13% 产出数据分析或文档。1

这里有一个变化值得盯住。2025 年 10 月到 2026 年 4 月，修 bug 会话占比从 33% 降到 19%；操作软件从 14% 升到 21%；写作和数据分析大约从 10% 翻到 20%。Anthropic 用自由职业平台任务做粗略映射后，还估计平均会话任务价值在这 7 个月里上升了 27%。1

这说明 Claude Code 的使用场景在外扩。早期更像「帮我修这段代码」，后来更多变成「帮我把一个工作跑完」。对工程团队来说，重要变化不是 IDE 里多了一个补全器，而是 Agent 开始吞掉一段原本夹在代码、命令行、部署和文档之间的琐碎流程。

人决定做什么，Claude 决定怎么做

Anthropic 单独建了一个决策归因分类器，把会话里的「规划决策」和「执行决策」拆开。规划决策包括要做什么、采用哪条路线、做到什么算完成；执行决策包括改哪些文件、写什么代码、用什么命令。结果是：平均看，用户做出约 70% 的规划决策，只做出约 20% 的执行决策。1

换句话说，Claude Code 的典型形态不是完全自治，也不是传统助手。它更像一个执行负荷很重的搭档：人定目标和验收口径，模型在中间跑很多步。

Anthropic 还用会话结构观察了每次用户提示后 Claude 会做多少动作。典型会话大约有 4 轮来回；历史数据中，用户每发一次提示，Claude 平均会触发约 10 个动作，有时超过 100 个动作，并输出约 2400 个词。1

这也是为什么「提示词写得好」这个说法太浅了。真正影响结果的，不是把一句话修得漂亮，而是用户能不能把目标、约束、验收标准和异常情况交代清楚。Agent 一旦在错误方向上连续跑 10 步，后面修正的成本就会上来。

专业知识比编程身份更能放大 Agent

报告里最有用的一组数字，是「用户在该任务上的专业度」和会话结果之间的关系。Anthropic 让 Claude 按 5 档评估用户对任务的显性专业度，判断依据包括指令是否精确、用户要求 Claude 验证什么、用户是否能纠正 Claude，或者反过来总被 Claude 纠正。它强调这是任务相关专业度，不等于职位头衔：一个第一次问 Rust 的资深工程师，在 Rust 任务上仍可能是新手；一个不懂 Python 的会计，如果能准确说明月末对账规则并抓住边界条件，在这个自动化任务上可能就是专家。1

专业度越高，Claude 在每条指令后做的事情越多。典型新手会话中，每条提示大约触发 5 个 Claude 动作、约 600 个词输出；专家会话中，每条提示触发约 12 个动作、约 3200 个词输出。Anthropic 还说，在控制工作模式、任务价值、月份、职业和模型系列后，每升一级专业度，动作数和输出量仍分别有 9% 和 13% 的显著上升。1

这不是说输出越多就一定越好。更准确的读法是：当用户知道该怎么描述问题、怎么检查结果时，模型可以放心地接过更多执行细节。专业用户不是亲手写更多代码，而是把 Agent 调度到更长的工作链条里。

成功率差距主要出现在「新手到中级」这一步

Anthropic 没有直接观察用户的真实业务结果，所以它用了两类 transcript-based 指标：一类判断会话是否达成目标，另一类寻找硬证据，比如测试通过、提交或 PR、用户明确确认。最严格的「verified success」要求会话被判定成功，并且至少有一个硬证据；没有明确目标的会话被排除，占总样本约 7.7%。1

按这个严格口径，新手会话的 verified success 约为 15%，至少部分成功为 77%；中级及以上会话的 verified success 为 28%-33%，至少部分成功为 91%-92%。Anthropic 特别指出，最大的增益出现在从新手到中级，之后从中级到专家的斜率变缓。1

这对团队培训很有启发。让每个人都变成顶尖程序员并不现实，也不一定必要；更现实的目标，是让业务人员达到「能把问题说清、能验收、能纠错」的中级水平。Agent 提升生产率的第一道门槛，可能是领域训练，而不是代码训练。

报告发现	更接近落地的解释
用户做约 70% 规划决策，Claude 做约 80% 执行决策。1	工作流设计里要保留人对目标、边界和验收的控制。
新手到中级的成功率提升最大。1	培训重点应放在任务拆解、结果检查、错误反馈，而不是只教语法。
非软件职业在产出代码的会话里，至少部分成功率达到 88%，软件相关职业为 89%。1	编程开始变成许多岗位的工作手段，不再只属于软件工程岗位。
任务价值估计在 7 个月内上升 27%，修 bug 占比下降，操作软件和分析写作占比上升。1	Agent 的使用正在从局部修补，转向更完整的工作交付。

非工程岗位也能写代码，但前提是懂业务

报告还把用户映射到美国劳工统计局的 23 个职业大类。约 70% 的会话能推断出职业；软件相关职业当然最大，但商业与金融、艺术设计与媒体、管理、生命/物理/社会科学也排在前列。增长最快的非软件职业组包括管理、销售和法律。1

在所有会话中，软件相关职业 verified success 约 30%，其他职业约 26%。如果只看产生代码的会话，两者分别是 34% 和 29%；按更宽松的「至少部分成功」口径，产出代码的会话里软件相关职业为 89%，其他职业为 88%。Anthropic 还说，样本中最大的 10 个职业组，在代码会话成功率上都落在软件/数学职业 7 个百分点以内。1

这组数字容易被误读成「人人都能当工程师」。更稳妥的结论是：很多人可以用 Agent 完成一部分技术工作，但他们靠的不是凭空获得软件工程直觉，而是把自己已经掌握的业务规则转成 Agent 可执行、可检查的任务。

比如法律岗位不是突然会写复杂系统，而是能让 Agent 扫合同、标出缺失条款、生成校验脚本；财务岗位不是突然会做软件架构，而是能把对账规则、异常处理、报表口径讲清楚。模型补的是实现链条，业务判断仍然由人提供。

这份报告的边界也很重要

Anthropic 写得很明确：这份研究不能衡量代码最后有没有被真实使用，也不能衡量它是否产出经济价值。非交互式 Claude Code 用法没有纳入，而这部分活动规模不小；第三方 IDE、SDK、headless 模式也被排除，因为它们和端到端交互会话不同。所有会话分类都依赖模型阅读 transcript，尽管 Anthropic 用遥测信号做了验证，规模化标签仍有不确定性。1

这些限制不削弱它的价值，反而提醒我们该怎么用这份报告。它不是在证明 Claude Code 已经提高了全社会生产率，也不是在预测程序员岗位会怎样消失。它更像一张早期剖面图：当 Agent 能连续执行时，人类专业知识并没有退场，而是从「亲手执行」转向「设定目标、识别错误、验收结果」。

如果你在团队里评估代码 Agent，这份报告给出的检查项很简单：不要只问模型跑分，也要看使用者是否能写出好任务、设置好测试、在 Agent 跑偏时及时拉回来。工具越能干，越会放大这一点。

References

1Agentic coding and persistent returns to expertise

Anthropic 40 万次 Claude Code 会话：会提需求比会写代码更值钱