Anthropic 40 万次 Claude Code 会话:会提需求比会写代码更值钱
July 1, 2026 · 1:11 PM

Anthropic 40 万次 Claude Code 会话:会提需求比会写代码更值钱

Anthropic 分析约 40 万次 Claude Code 交互会话后发现,代码 Agent 正在承担越来越多执行工作,但成功率更取决于用户是否懂问题、会设定目标并能验收结果。本文拆解这份研究的关键数字、方法边界和对团队采用 Agent 的启发。

Anthropic 这次没有发布一个更强的 Claude,而是拿出约 40 万次 Claude Code 交互会话,试图回答一个更扎实的问题:当代码 Agent 真的进入工作流后,人和模型到底怎么分工。报告覆盖 2025 年 10 月到 2026 年 4 月,样本来自约 23.5 万名用户,并使用隐私保护分析框架处理会话内容。1
这个问题比单次 benchmark 更接近使用现场。因为 Claude Code 不是只在生成代码,它还会读文件、改代码、跑命令、写说明,甚至在用户两次确认之间连续执行一串动作。Anthropic 的核心结论很直接:Agent 正在接走大量执行工作,但能否成功,仍主要取决于用户是否懂自己要解决的问题。1

报告真正要量的不是「会不会写代码」

这份研究把 Claude Code 会话分成 9 类工作模式。约 56% 的会话仍然是直接写代码、修 bug、测试或编排自动化流程;另有 17% 是部署、配置、运行管线、监控系统这类「操作软件」;14% 用来理解系统或规划改动;13% 产出数据分析或文档。1
这里有一个变化值得盯住。2025 年 10 月到 2026 年 4 月,修 bug 会话占比从 33% 降到 19%;操作软件从 14% 升到 21%;写作和数据分析大约从 10% 翻到 20%。Anthropic 用自由职业平台任务做粗略映射后,还估计平均会话任务价值在这 7 个月里上升了 27%。1
这说明 Claude Code 的使用场景在外扩。早期更像「帮我修这段代码」,后来更多变成「帮我把一个工作跑完」。对工程团队来说,重要变化不是 IDE 里多了一个补全器,而是 Agent 开始吞掉一段原本夹在代码、命令行、部署和文档之间的琐碎流程。

人决定做什么,Claude 决定怎么做

Anthropic 单独建了一个决策归因分类器,把会话里的「规划决策」和「执行决策」拆开。规划决策包括要做什么、采用哪条路线、做到什么算完成;执行决策包括改哪些文件、写什么代码、用什么命令。结果是:平均看,用户做出约 70% 的规划决策,只做出约 20% 的执行决策。1
换句话说,Claude Code 的典型形态不是完全自治,也不是传统助手。它更像一个执行负荷很重的搭档:人定目标和验收口径,模型在中间跑很多步。
Anthropic 还用会话结构观察了每次用户提示后 Claude 会做多少动作。典型会话大约有 4 轮来回;历史数据中,用户每发一次提示,Claude 平均会触发约 10 个动作,有时超过 100 个动作,并输出约 2400 个词。1
这也是为什么「提示词写得好」这个说法太浅了。真正影响结果的,不是把一句话修得漂亮,而是用户能不能把目标、约束、验收标准和异常情况交代清楚。Agent 一旦在错误方向上连续跑 10 步,后面修正的成本就会上来。

专业知识比编程身份更能放大 Agent

报告里最有用的一组数字,是「用户在该任务上的专业度」和会话结果之间的关系。Anthropic 让 Claude 按 5 档评估用户对任务的显性专业度,判断依据包括指令是否精确、用户要求 Claude 验证什么、用户是否能纠正 Claude,或者反过来总被 Claude 纠正。它强调这是任务相关专业度,不等于职位头衔:一个第一次问 Rust 的资深工程师,在 Rust 任务上仍可能是新手;一个不懂 Python 的会计,如果能准确说明月末对账规则并抓住边界条件,在这个自动化任务上可能就是专家。1
专业度越高,Claude 在每条指令后做的事情越多。典型新手会话中,每条提示大约触发 5 个 Claude 动作、约 600 个词输出;专家会话中,每条提示触发约 12 个动作、约 3200 个词输出。Anthropic 还说,在控制工作模式、任务价值、月份、职业和模型系列后,每升一级专业度,动作数和输出量仍分别有 9% 和 13% 的显著上升。1
这不是说输出越多就一定越好。更准确的读法是:当用户知道该怎么描述问题、怎么检查结果时,模型可以放心地接过更多执行细节。专业用户不是亲手写更多代码,而是把 Agent 调度到更长的工作链条里。

成功率差距主要出现在「新手到中级」这一步

Anthropic 没有直接观察用户的真实业务结果,所以它用了两类 transcript-based 指标:一类判断会话是否达成目标,另一类寻找硬证据,比如测试通过、提交或 PR、用户明确确认。最严格的「verified success」要求会话被判定成功,并且至少有一个硬证据;没有明确目标的会话被排除,占总样本约 7.7%。1
按这个严格口径,新手会话的 verified success 约为 15%,至少部分成功为 77%;中级及以上会话的 verified success 为 28%-33%,至少部分成功为 91%-92%。Anthropic 特别指出,最大的增益出现在从新手到中级,之后从中级到专家的斜率变缓。1
这对团队培训很有启发。让每个人都变成顶尖程序员并不现实,也不一定必要;更现实的目标,是让业务人员达到「能把问题说清、能验收、能纠错」的中级水平。Agent 提升生产率的第一道门槛,可能是领域训练,而不是代码训练。
报告发现更接近落地的解释
用户做约 70% 规划决策,Claude 做约 80% 执行决策。1工作流设计里要保留人对目标、边界和验收的控制。
新手到中级的成功率提升最大。1培训重点应放在任务拆解、结果检查、错误反馈,而不是只教语法。
非软件职业在产出代码的会话里,至少部分成功率达到 88%,软件相关职业为 89%。1编程开始变成许多岗位的工作手段,不再只属于软件工程岗位。
任务价值估计在 7 个月内上升 27%,修 bug 占比下降,操作软件和分析写作占比上升。1Agent 的使用正在从局部修补,转向更完整的工作交付。

非工程岗位也能写代码,但前提是懂业务

报告还把用户映射到美国劳工统计局的 23 个职业大类。约 70% 的会话能推断出职业;软件相关职业当然最大,但商业与金融、艺术设计与媒体、管理、生命/物理/社会科学也排在前列。增长最快的非软件职业组包括管理、销售和法律。1
在所有会话中,软件相关职业 verified success 约 30%,其他职业约 26%。如果只看产生代码的会话,两者分别是 34% 和 29%;按更宽松的「至少部分成功」口径,产出代码的会话里软件相关职业为 89%,其他职业为 88%。Anthropic 还说,样本中最大的 10 个职业组,在代码会话成功率上都落在软件/数学职业 7 个百分点以内。1
这组数字容易被误读成「人人都能当工程师」。更稳妥的结论是:很多人可以用 Agent 完成一部分技术工作,但他们靠的不是凭空获得软件工程直觉,而是把自己已经掌握的业务规则转成 Agent 可执行、可检查的任务。
比如法律岗位不是突然会写复杂系统,而是能让 Agent 扫合同、标出缺失条款、生成校验脚本;财务岗位不是突然会做软件架构,而是能把对账规则、异常处理、报表口径讲清楚。模型补的是实现链条,业务判断仍然由人提供。

这份报告的边界也很重要

Anthropic 写得很明确:这份研究不能衡量代码最后有没有被真实使用,也不能衡量它是否产出经济价值。非交互式 Claude Code 用法没有纳入,而这部分活动规模不小;第三方 IDE、SDK、headless 模式也被排除,因为它们和端到端交互会话不同。所有会话分类都依赖模型阅读 transcript,尽管 Anthropic 用遥测信号做了验证,规模化标签仍有不确定性。1
这些限制不削弱它的价值,反而提醒我们该怎么用这份报告。它不是在证明 Claude Code 已经提高了全社会生产率,也不是在预测程序员岗位会怎样消失。它更像一张早期剖面图:当 Agent 能连续执行时,人类专业知识并没有退场,而是从「亲手执行」转向「设定目标、识别错误、验收结果」。
如果你在团队里评估代码 Agent,这份报告给出的检查项很简单:不要只问模型跑分,也要看使用者是否能写出好任务、设置好测试、在 Agent 跑偏时及时拉回来。工具越能干,越会放大这一点。

More from this channel

Related content

  • Sign in to comment.