
July 2, 2026 · 10:38 AM
晚点聊速读:AI 强者愈强,下一站是自我改进
这期速读梳理《晚点聊 LateTalk》171 期 AI 季报:OpenAI 与 Anthropic 在 coding agent 上继续竞争,RSI 递归自我改进成为新创业方向,机器人、企业专属模型和实时交互正在把 AI 能力扩散到更多工作流。
这期《晚点聊 LateTalk》不是在追一个单点新闻,而是在给 2026 年第二季度的 AI 行业做一次「季报」:OpenAI 和 Anthropic 在 coding agent 上继续对打,递归自我改进突然变成创业和投资热点,机器人与世界模型又回到主线,同时美国企业开始更认真地使用中国开源模型来训练自己的专属模型。节目嘉宾是 MoE Capital 创始合伙人 Henry Yin,主播是《晚点》科技报道负责人程曼祺。节目页显示,本期发布于 2026 年 7 月 2 日 07:45(北京时间),录制于 6 月 27 日,因此部分 6 月底之后的行业变化没有进入讨论。1
先给结论:这期真正讨论的是「AI 能力怎么扩散」
节目标题里的「强者愈强」不是一句笼统判断。Henry Yin 和程曼祺把它拆成了几条更具体的路径:头部模型公司继续把 coding agent 当成主战场;一批新公司试图让 AI 参与 AI 研究本身;模型能力开始通过开源模型、后训练服务和前向部署工程师进入企业;交互方式也从单轮聊天走向录屏、协作和实时语音。1
如果只看新闻标题,OpenAI、Anthropic、Meta、Google、xAI、Midjourney 像是在各自做不同产品。但这期节目把这些动作放到同一张图里:模型分数不是终点,谁能把模型变成研发流程、企业流程、现实世界操作流程,谁才更接近下一阶段的入口。1
OpenAI 与 Anthropic:coding agent 已经不是「模型排行榜」问题
本期从上一季 AI 季报的判断讲起:OpenAI 在 coding agent 上会反扑。节目讨论了 Codex、Claude Code、OpenAI 与 Anthropic 的模型迭代,以及围绕价格、份额和开发者心智的竞争。这里的 coding agent 不是普通代码补全,而是能在终端、代码库、issue、测试和多步任务之间来回工作的编程代理。它的表现不只取决于基础模型,也取决于 harness,也就是包在模型外面的运行脚手架:如何调用工具、怎样分解任务、什么时候停下来、如何把结果交给人类。1
节目里一个反复出现的判断是:对已经拥有强模型的公司来说,「模型即产品」这句话越来越不够用。模型本身仍重要,但真正的商业战场在产品形态、工作流、客户部署和生态绑定上。Anthropic 的 Claude Code 之所以有声量,不只是模型能力,还包括开发者传播、产品负责人和工程负责人在 X 上持续建立存在感,以及和安全、企业客户场景的绑定。OpenAI 的压力也不只来自 benchmark,而是要把 Codex 变成开发者日常愿意留下来的工具。1
这也解释了为什么节目会谈到 Cursor、Windsurf、Devin 等第三方工具。Cursor 曾是 coding agent 的关键入口,Windsurf 通过团队和技术授权进入 Google 的开发工具体系,Devin 则从「卖工具」延伸到「卖服务」。这些案例说明,coding agent 的价值不只在模型公司内部,开发者入口、客户交付、IDE 形态和服务化能力都能单独形成估值。1
RSI:让 AI 参与 AI 研究,为什么突然变热
RSI 是本期最值得细读的概念。它指 Recursive Self-Improvement,中文可以译成递归自我改进。放在 AI 语境里,它不是简单地让一个模型给自己写几行代码,而是让 AI 参与研究循环:提出假设、设计实验、跑实验、分析失败、调整方法,再继续下一轮。节目页提到 Anthropic 在 Q2 专门写了《When AI builds itself》,讨论未来 AI 参与更多研究环节的状态;本期封面也来自这篇文章里的工作循环图示。1
这个方向热起来,有两个原因。第一,前沿模型公司需要更快找到下一代能力提升路径,单靠人类研究员手工试错太慢。第二,外部创业公司看到机会:如果能把 AI 研究流程自动化一部分,就可能卖给模型公司、企业 AI 实验室,或者直接推动新模型方法。节目页附录列出几家典型公司:Recursive Superintelligence 由 Richard Socher、田渊栋、施天麟等人创立,做「递归自我改进」研究;Mirendil 由 Anthropic AI 科研团队相关成员创立,方向是用 AI 自动化 AI 研究;Core Automation 则强调打造自动化程度更高的 AI 实验室。1
这类公司听起来很像科幻,但节目里也保留了现实约束:AI 能自动提出更多实验,不等于它已经能独立判断科学方向;自动化研究越往深处走,越需要高质量评估、算力、实验平台和人类研究员的边界控制。换句话说,RSI 的焦点不是「AI 明天自己发明 AI」,而是研究流程中哪些环节能先被机器放大。1
物理 AI:机器人重新进入模型公司的路线图
OpenAI 在 5 月底官宣 Robotics 团队,Anthropic 也被节目提到可能考虑机器人方向。这里的机器人并不只是「给模型接一只机械臂」。节目把它和世界模型放在一起讲:如果模型要理解现实世界,就需要学会预测物体、空间、动作和反馈之间的关系;如果机器人要在真实环境里工作,也需要比文本模型更强的物理直觉。1
节目页附录里的 Dream Labs 是一个例子。它由 Nvidia GEAR Lab 研究员 Joe Jang 创立,相关研究包括 DreamGen、DreamZero、DreamDojo 等机器人世界模型方向。这个方向的关键难点在于:语言模型可以靠文本语料扩张,机器人却需要真实或高质量模拟的动作数据、环境反馈和安全约束。模型在网页里犯错是一回事,在物理世界里犯错可能损坏设备,甚至带来安全风险。1
因此,这期讨论里的「物理 AI」更像一次方向校准:模型公司开始承认,下一阶段智能不只在屏幕里,也要进入可操作的环境。机器人、自动驾驶、实验室自动化和工业场景都可能成为前沿模型的新训练场。1
智能扩散:美国公司为什么会用中国开源模型训练自己的模型
节目第二条线是「智能的扩散」。一个重要现象是,更多企业客户想拥有自己的模型,而不只是调用闭源 API。Fireworks、Applied Compute 这样的美国公司,和智谱 GLM 等中国开源模型一起进入这条链路:企业先拿开源模型做底座,再通过后训练、评估和部署,把模型变成自己的业务 agent。1
附录里的 Harvey 是一个很具体的案例。这家法律 AI 公司本季度先后与 Applied Compute、Fireworks 合作,在 GLM-5.1 等开源模型基础上训练法律 agent,并在自家的 Legal Agent Benchmark 上超过 Anthropic 和 OpenAI 的模型。这个例子不能简单读成「开源模型全面超过闭源模型」,更准确的读法是:当任务足够垂直、数据和评估足够贴近业务,企业有可能用开源底座和定制训练做出更合适的专用系统。1
这里还牵出两个术语。FDE,也就是 Forward Deployed Engineer,指派到客户现场、帮企业把 AI 能力落地到具体业务里的工程师。Token maximalism 则是 2026 年一季度企业鼓励员工尽量多用 AI token 的风潮,节目页附录提到它后来因为投入产出不成比例,逐渐被用量配额取代。两个词放在一起看,说明企业 AI 正从「多用点模型」走向「把模型放进具体流程,并且算清楚成本」。1
新交互:从聊天框走向录屏、群协作和实时语音
本期还谈到几种交互变化。OpenAI 的 Record & Replay、Claude Tag、Thinking Machines Lab 和 OpenAI realtime 的新语音模型,都在尝试让 AI 更自然地进入工作场景。Record & Replay 的核心是让系统理解用户的操作过程;Claude Tag 则把 Claude 带进 Slack 群协作,让 AI 不只是一个单独聊天对象,而是能被团队成员点名参与讨论。1
实时语音部分,节目页特别解释了 VAD,也就是 Voice Activity Detection,语音活动检测。它判断说话人是否停顿、什么时候轮到谁说话。现在很多「实时语音」AI 仍靠这种方式模拟对话感,本质上更像轮流说话的对讲机;真正自然的多人对话,还需要模型理解打断、重叠、语气和上下文。1
这部分最有价值的地方在于,它把交互创新从「界面好不好看」拉回到任务本身:AI 要成为同事、助手或代理,就必须能理解人类真实工作中的上下文。这个上下文可能是代码库、Slack 群、录屏操作,也可能是一段不断被打断的语音对话。1
Meta、Google、xAI 和 Midjourney:追赶者各有自己的入口
节目最后补充了 Meta、Google、xAI 和 Midjourney 的近况。Meta 的问题部分来自组织和数据实践的争议,例如附录里提到的 MCI 项目:它试图通过在员工电脑上装软件、录制操作过程来训练 AI,后来因隐私争议和数据泄露被叫停。Google 的变量在于人才和产品整合,附录提到 Noam Shazeer 在 2026 年 6 月从 Google 跳槽到 OpenAI;xAI 则仍在追赶最强梯队。1
最意外的是 Midjourney。节目页写到,Midjourney 发布了超声波医学影像设备全身扫描器,创始人 David Holz 谈起新业务时说:「我们甚至还没用到 AI」。这说明一些 AI 原生公司的能力外溢,不一定都表现为更强的聊天机器人或图像模型,也可能变成硬件、成像、工作流和垂直行业产品。1
这期适合谁听
如果你关心 AI 投资、开发者工具、企业模型部署,或者正在判断「下一批 AI 公司会长在哪里」,这期值得完整听。它的信息密度高,涉及的人名、公司和术语很多,但主线很清楚:AI 行业正在从模型能力竞赛,进入「谁能把能力变成研究流程、开发流程、企业流程和现实世界操作」的阶段。1
如果你只想听单个产品发布的结论,这期会显得过密;但如果你愿意顺着 Henry Yin 和程曼祺的线索往下看,OpenAI、Anthropic、机器人、开源模型、企业部署和新交互并不是分散新闻,而是同一个问题的不同侧面:智能一旦扩散出去,入口、成本、数据和工作流都会重新洗牌。1
完整逐字转录稿
转录说明:以下为基于完整音频生成的逐字转写。转写未能可靠区分说话人,因此统一标为「未分轨讲话者」;时间轴按约每 10 分钟标注一次。
00:00:00
未分轨讲话者:An throp ic 这边首先发布了它吊了大家胃口很久的 Myth os 那么发布名称以后是 F able 可以说是史诗级能力但是灾难级发布的一个反 面教材 RSI 我覺得和上一期我們聊到的 auto research 這個概念 是緊密相關的 auto research 也就是說我們的 AI 像一個研究員一樣 工作 RSI 的話它是在 auto research 的基礎上往前更進一步就是說 研究員不會在研究的過程中不斷地改進自己使得自己在下一次做研究的時候能力 會變得更強因為這個事情如果一旦做到了 的話它最大的意義就是說我們之後仍可以 從這個 loop 中抽離出來只要不斷地給這個 AI 系統去為算力它就會不斷地去 提升它的智能這一季度兩家最厲害的公司 Open AI 和 An throp ic 在智能前沿上還有一個不約而同的舉動就是它們都在加碼 Rob otics An throp ic 的話它們在 One AI Build s It self 這篇博文裡面也提到就是它們認為在 Rec urs ive Intelligence 的下一步就是 Rob otics 和 Ph ysical Intelligence 當 AI 模型它 work 的時候它比我做的 又快做的比我又好我感覺我自己沒有什麼 價值當 AI 模型它不工作的時候我更慘了因為我完全不知道它為什麼不工作所以 AI 能力變強了但是 AI 研究員的幸福感不一定會比之前更強欢迎收听晚点聊, 我是曼琪本期继续带来 2026 年 Q2 的 AI 季报嘉宾仍然是 MOE Capital 的创始合伙人 H en ry Ng 这个季度我们沿两条脉络来看 AI 的进展一 是推进智能前沿我们聊了三个话题首先是 Open AI 和 An throp ic 之间的竞争然后是 RSI Rec urs ive Self-Imp rove ment 地归自进化这延续了 Q1 我们重点讨论的一个话题 A uto Research A throp ic 这个季度专门写了 RSI 的长文更多新的创业公司正在涌 现就在上周我就新知道了四五个在这个方向创业的团队有的已经官宣更多在水下 三是物理 AI Open AI 官宣 Rob otics Team 更新鲜的非 公开信息是 An throp ic 也在考虑这个方向第二条线是智能如何扩散 我们看到更多企业客户想要自己的模型这如何成为 Fire works 等科技 公司和中国开源模型的机会二是交互创新 Open AI 带来了 Rec ord and Re play Cloud 终于接入了 Sl ack 群协作最后我们 补充了 Go ogle Met a XAI 的近况还有很久没上头条的 M id J our ney 它居然做起了超声波医学影像设备一个小说明是我们录这期 时是 6 月 27 日这之后又有重要变化如 F able 5 恢复了全量上线所以节 目里的这部分内容有之后我们正式进入本期的讨论吧欢迎收听晚点聊 2026 年 Q2 的 AI 机报这次我们继续来和 H en ry Ng MOE Capital 的创始合伙人聊这个季度他的观察和他看到的进展那正式开始之前首先恭喜一下 MOE Capital 你们已经正式的 ann ounce 了现在你们是有两 位合伙人你还有 Na omi 你可以简单讲讲你们的近况有什么好消息可以分享 呢谢谢曼琪大家好我是 H en ry 很高兴回到晚点聊跟大家聊 Q2 的进展 MO E Capital 最近正式 la unch 了然后我们希望能够做离 AI 前沿 最近的早期基金 MOE 背后其实也有一个前 沿的 AI 社区我们的成员包括在 Open AI Anth ropic Go ogle D my 等前沿实验室工作的 研究员也包括很多正在做创业的 F ound er 学术界这边的话我们也有 Pr inc eton 和 St an ford 的教授作为我们的 found ing advisor 我们会一起来讨论很多新的技术进展我们最近已经投资了 10 家 公司然后这个季度也有几家公司陆续公开了比如 Rec urs ive 是 Rich ard Social 施天林田园栋等人一起创办的 Ne ol ab 专注做地 规自我改进还有 E lor ian 是 G em ini Data Co.lead 安住大业创办的视觉推理 Ne o Lab 最近 XAI 的 P ost Training lead D ust in Tran 也加入了他们最后一家是 D ream Labs 来自 NVIDIA 的 G ear Team 他们是 D ream Do jo Dream Zero 团队的四位研究员创办的机器人公司如果大家对前 AI 研究或者这些研究如何变成下一代创业公司的机会感兴趣欢迎来找我们聊一 聊 OK 你提到这些公司正好有一些也在我们这个季度要展开聊的一些话题比如说 最近非常火的 RSI 还有同样在国内也非常火的世界模型这个我们到后面可以展 开那首先我觉得可以先回顾一下上个季度的一些话题哪些到这个季度是在持续发 生的哪些可能是有变化的以及你觉得就比如说如果我们展开第二季度的观察从哪 几个角度去看去梳理能帮大家抓到大的脉络上个季度我觉得有几个方向性的判断 这个季度其实都变得更清晰了第一的话就是 Open AI 在 c oding 上 的反扑基本上已经被验证了上个季度我们说 An throp ic 最大的风险 就是 Open AI 如果重新聚焦的话战 斗力会非常强那么这个季度我们可以看到 就是 C ode x 的势头明显起来了有很多开发者从 Cloud Code 接 回 C ode x 尤其是在 An throp ic 自己出现了一些限流价格模 型口碑的波动以后 Open AI 其实抓住了这个窗口期第二的话就是上一季度 咱们聊过 And roid Cap acity 的这个 A uto Research 项目那么 A uto Research RSI 在这个季度从比较前沿科幻变 成了一个我觉得比较明确的一个研究和创 业方向这个是第二个进展第三个的话就是 com puter use 我觉得也往前走了一步上季度我们说 com puter use 非常值得期待因为它本质上是数字 世界里面的机器人那么这个季度的话我们 看到 Open AI 出现了一个很有意思的 code x 的一个新 fe ature 后面的话我们可以展开聊一聊它就是基于 com puter use 在模型能 力上面的进展最后的话就是 open cloud 上季度最火的这个话题当时我们 说它是一个灯塔效应它可能自己不是终点那可能会指明方向我觉得确实这个季度 它自己的热度降下来了但它其实很多它有一些前沿的想法都被 C ode x 和 Cloud Code 吸收到它们的这个产品的功能里面去了 OK 那我们如果要 来看 Q2 的话你会以一个什么脉络和框架来看我觉得 Q2 我们可以用一个框架来 看这个框架有两部分第一部分就是如何继续推进前沿智能第二部分是如何把我们 现在已经有的智能加速在社会里面的拓散所以第一条线的话我觉得最重要的能力 就是两个一个是 c oding 另外一个是长程的 ag ent ic 能力 c oding 现在它已经不是一个就是应用场景了它现在既是当下最重要的事情因为它代表了 收入它也是未来因为我觉得 c oding 是很多接下来前沿去往前推进的一个 基础能力长城的 agent ic 能力的话则决定了 AI 是不是能继续完成更长 更复杂的任务像这两种能力组合起来的话才能真正实现 auto research 乃至未来的 RSI 所以在前沿的这块我觉 得最重要的就是这几个事情包括 Open AI, A th or b ic 在发力然后以及有一些新的比如说 Rec urs ive, M ir and io C ore Autom ation 这些的新的公 司都在往这个方向去做探索他们都是在做自动化研究或者 RSI 就是地归自进化 的方向第二条线的话就是前沿智能的扩散我觉得 F ront ier Lab 他们创造出这些新的智能能力然后这些能力会通过他们的产品 API 开源模型企 业的这些 work flow 然后 UIUX 乃至于硬件来一层一层拓散到这些社 会里面那么这个季度的话我们可以看到 F ront ier Lab 在想各种 方法来加速这个脱散的过程一方面是让这个 AI 更加深入进入企业那么企业也会 开始考虑就是我应该用什么样的模型我应该继续用 Open AI and T ropic 的模型吗还是应该去用开源模 型或者说我自己的模型另外的话就是如何 让 AI 更自然的进入人的工作和生活这会带来很多 UIUX 和产品形态上面的创 新比如 Cloud 这边有 Cloud Tag Open AI 那边的话有 Rec ord and Re play 这些的话我觉得都是 Q2 如何让智能进行扩散 的新进展所以接下来的话两件事情同时发生一件事情的话就是如何在前沿继续把 智能往上推然后第二件事情的话就是如何努力的去把已有的智能往整个社会去扩 散前者会决定 AI 的能力的天花板后者会决定 AI 真正改变世界的速度那我们就 从第一条线推进前沿智能开始第一个话题还是延续上几个的话题也就是两大 F ront ier Live Open AI 和 An throp ic 之间的竞争我们 可以先从他们这个季度的新的模型开始说因为这仍然是一切后续的竞争的原点刚 好在第二季度两家都有非常重磅的发布 H en ry 你可以和大家简单地讲一 讲这个季度真的非常的 exc iting 首先是 An throp ic 这边 首先发布了它吊了大家胃口很久的这个 My th os 那么发布名称以后是 F able 这两个它们的基模是一样的主要区别就在于就是 My th os 是面 向可信任的客户所以他们没有一些安全的护栏然后 F able 的话是面向所有 人它加上了一些安全护栏能力非常的强我觉得大家还是觉得它的能力是非常惊艳 的比如说它在 S weet Ben ch Pro 上面是一个 80.3%的成 绩相比它自己的上一代的顶尖模型 4.8 的话 69.2 有一个大概 11 分的提升 然后在 T erm inal Ben ch 上面也做到了 88 分但是整体的发 布下来是一个可以说是实时级能力但是灾难级发布的一个反面教材有几个问题反 馈的会比较凶一个的话就是过度封锁因为它加了安全护栏所以如果在有一些问题 他觉得不太合适的时候他会拒绝回答然后有的时候会退回到 4.8 那么他自己的 公布是说大概在小于 5%的任务上面我会进行回退但实际网友去用了以后发现会 有很多问题比如说当聊癌症的时候他会把这个认为是一个生物安全问题而拒绝回 答你的问题或者有的人问就是说这个心脏 是怎么回事然后他也会拒绝回答所以就是 有点过于神经质了这个安全护栏然后第二 个问题其实可能更严重当然这个问题就是
00:10:00
未分轨讲话者:比较快速的被修复了就是他们在系统卡里面说当这个任务涉及到前沿的 LM 或者 ML 研究的时候那么我们是有可能在不告知用户的情况下静默的进行降制通过改 写 prom pt 或者 ste ering vector 的方法把这个能力降 下来那么这个事情就是最典型的如果有什么事情是 mis al ignment 这个就是定义级别的错误所以被大量的 AI 的研究员就是吐槽这个问题 mis al ignment 如果翻译成中文是什么就是非对齐非对齐就我们的目标本来应该 是对齐对齐的一个基础的一个假设就是当人让 AI 完成一个任务的时候 AI 会忠 实的尽自己之大能力去完成这个任务而这个恰恰就是 F able 它就是在不告 知人的情况下不尽力去完成这个任务这件事我记得第一时间在推特上就掀起了轩 然大卧有很多人讨论很多人吐槽因为 An throp ic 一向是以做最 al ign 的模型的 front ier lab 著称的这也是他们自豪的点但他们 在几个小时以后就做出了修正然后现在的话应该是如果要是拒绝回答的话应该是 会主动告诉你我再降至到 4.8 然后在 Open AI 这边的话就是刚刚发布的 GBT5.6 那么他们没有 re port SWEETBANCH 增速但是他们 re port 了 T erm inal B anch 上面 SO Ultra 能够达到 91.9%这个是历史上第一个 应该是超过 90%的模型因为 SWEET BANCH 之前聊过很多次都是一个 c oding 的 bench mark SO Ultra 去打 T erm inal B anch 第一次上 90 意味着什么 T erm inal Ben ch 的话它是一个就是测试在 T erm inal 也就是终端里面完成一些任务一些多步然 后需要使用工具的任务的这么一个 Ben ch mark 所以它可以认为是它能够测试偏长程的 A gent ic 能力 的一个 Ben ch mark 你说的偏 长程就是还没有那么长程对我觉得它可能 没有达到比如说几个小时或者超过一天的这种任务在这个 bench mark 里面但至少是一个多步的然后就 GPT5.6 在 ag ents last exam 也是一个 bench mark 然后它的 表现也比较精严是目前的模型里面为一个 超过 50%的对这个也是一个比较不错的一个分数除了这两个 Ben ch mark 以外他们还 re port 在生物然后以及网络安全上面能够匹敌这个 M eth os Pre view 的成果为什么这次他没有去公布 S we at Ben ch Pro 上的分数这在以往模型发布都是一个惯常的操作 Open AI 在 今年 2 月份的时候其实发布了一篇文章就说 S uite Ben ch Ver ified 现在已经不是一个很好的就是测量 c oding 能力的一个 bench mark 了因为它已经持续的被污染了他们会推荐就是 S uite Ben ch Pro 但是为什么他们这次没有发布在 S uite Ben ch Pro 上面 的分数可能外界也不知道具体的情况因为现在 GPT-5.6 它和 F able 类似它也都是限量使用的就是它开了一个安全客信的名单这些人才能来用这个最 先进的模型所以今天也有很多人在讨论说是不是美国政府的这种监管以后会变得 常态化这块补充一下就是这两个模型发布 以后另外一个非常大的变化就是现在不是 所有人都能够使用最前沿的模型了这个 F able 发布在三天以后美国政府就 一直禁令就是说不允许 An throp y 给外国人提供 F able 这个模 型然后因为 An throp y 就无法判断这个用户是否是外国人所以它直接 就全球用户下线了 F able 那么在我们现在录制节目的时候刚刚就是限量的 重新上线了 F able 然后在 GPT5.6 发布的时候也是同样的是美国政府 要求只能对美国政府批准的实体开放 5.6 的能力所以目前的话应该是只有大概 20 家像 V id ia Amazon 这样的客户能够 ac cess 5. 6 总结而言的话在第二季度的新的模型上一边是 F able 5 一边是 GPT 5.6 你觉得两家的对比怎么样如果我们要是看 F able 5 和 GPT5. 6 的 Ben ch mark 上我觉得是 各有千秋但是实际的使用体验上来说 5. 6 刚刚发布还没有太多的用户能够使用 F able 5 的话也就发布了三天所以 总体反馈不多但是 F able 5 我们可以看到在网络上有一些 D emo 比如 说能够 One-shot 我的世界或者 One-shot 像红色警戒这种级别的 游戏所以能力上面应该还是比之前是一个大版本的一个越进那我们接下来就是进 入更产品化和商业层面的竞争也就是现在这两个公司的主线 c oding 相关 的产品以及和这个相关的通用 ag ent 的产品的竞争其实上个季度我们就聊 到说 A ns wer p ick 的隐忧就是 C ode x Open AI 的 c oding agent 可能会强势反扑最开始你也提到这件事情在本季 度是已经有苗头的确实你能感觉到周围有很多人在迁移你可以讲讲一个是你感受 到的这种迁移的状态就一些事实然后背后的原因以及比如说宏观上我们能看到势 头的反转我先从我身边的感受说一下我觉得就是 最大的一波迁移潮可能是 Cloud 4.7 的时候 4.7 是一个明显大家都不 太喜欢的模型 4.8 我觉得口碑是有回声的 4.7 的话应该是主要目的发布 4. 7 就是为了降本但是 4.7 的时候有大量 的用户因为不满意 4.7 模型的表现所以 从 Cloud Code 迁移到了 C ode x 另外一个就是 An throp ic 在 5 月份的时候定价上面有一些变化他们就是不想再让第三方的 H arness 能够按照 s ubs cription 的价格来去用它这个 t oken 而是 要用按照 API 的价格来算所以这一波又让有很多用户流失掉了然后 Open AI 的话也是很好的就是抓住了这个机会就是说 Sam 在 X 上说所有最近 30 天愿意 从 Cloud Code 迁移到 C ode x 的企业用户我给你两个月免费然后 这一波又拿了一波客户所以从宏观上来讲的话我们可以看到 C ode x 应该 us age 应该是有比较大幅的上升当然 An throp y 现在最近几个 月的 re venue 增长还是非常的猛并且好像在 Q2 出现了首度的盈利就是 有好几个媒体包括华尔街日报然后像路透他们报道说出现了二季度的盈利这不算 是公司官方放出来的但因为这几个都是比较权威的财经媒体应该相对靠谱大概是 说它二季度有 5.6 亿美元的营业利润还有一个也是非官方的一个营收数据就是 An throp ic 大概的增长是 5 月早期的时候大概是年收入预期的年收 入大概是在 470 亿美元然后到 5 月底的时候就增长到了 540 亿美元到 6 月中 的时候增长到了 620 亿美元所以这个增速还是非常可怕的对比一下 Open AI 的话就是 6 月中的时候大概在 400 亿美元然后 An throp ic 六月中 是 620 亿美元对吧有 1.5 倍的差距对对对这差距其实如果你对比第一季度应 该是拉大了 An throp ic 的增长更快了不过这里面我觉得有一个就和 前面说的事实结合起来看它可能就是用量上的差距也许没有这么大是因为你说到 其实 C ode x 送了很多免费的东西就是它的价格占比较激进因为它是相对 落后的一方所以它有一些用户的增长可能没有等量的反应在它的收入上因为现在 C ode x 很多人是 20 刀每个月就能用饱的但是 An throp ic 他们可能如果要用的话可能是至少是 100 刀或者 200 刀的那就相当于相同的 用量你就差了 5 到 10 倍的收入 Open AI 还是挺激进的挺狠的就是在争夺 这个份额上你自己投的一些公司他们有权愿去用 C ode x 的这种现象吗比如 之前在用 Cloud Code 现在用 C ode x 都有我当年投的公司用 D iam ond 的也有然后用 Cloud Code 也有 C ode x 都有我 现在还有人用 D av id 还有人用 D av id 而且用 D av id 的 原因就是因为 D av id 和 Sl ack 那个合作做得好和我们后面可能要 讲一个事有关就是 De v on 和 Sl ack 的合作做得好但是这个季度 An throp ic 也推了一个打通 Sl ack 的新的功能就是 Cloud Tag 就相当于它可能也会去吃 De v on 的这方面的需求 De v on 是最先 推出就是 AIC oder 或者 AI Software Engineer 和 人在 Sl ack 里面合作的当然现在是一个所有人都有的功能但 An throp ic 现在加上了以后我觉得还是因为它体量比较大并不是一个非常新的东西然后 这两家公司的竞争还有一点虽然这个季度还没发生但是正在进行中就是 IPO 的 竞争目前来看应该是 A ns wer P ick 更快它递文件的时间是更早 的应该是的你觉得他们谁先上市影响大吗这两家公司我觉得影响不会很大因为差 不了太多时间差不了太多你觉得 Open AI 如今如此激进的做价格战局会怎么 影响它的 IPO 因为很有可能这会在财务上反映成比如说你的毛利相比 A ns wer P ick 就会有差距然后你的收 入体量现在已经有比较大的差距了我觉得 他们可能还是相信现在用户和数据应该是很重要的事情如果要是能够通过一些这 种手段能够把更多的用户拉回来然后给他们收集更多的数据我觉得对于他们的模 型再进一步提升和赶超应该是有帮助的其實我還是覺得他們的做法也挺有魄力就 一方面我在準備登陸二級市場但另一方面從長遠考慮他還是採用了一種比較激進 的競爭手段沒有說因為要上市就考慮說讓這個財務數字更好看这两家的竞争还有 一个相关的第三方就是科瑟退场其实上季度我们就聊到科瑟是比较威的就当时看 起来在 An throp ic Cloud Code 的压力之下那到了第二 季度它已经不再是一个独立的公司了被 Space XAI 就是合并了 XAI 之 后的 Space X 这个新的主体给 600 亿美元收购了你可以讲讲这件事就是 在行业里引起的涟漪和变化是什么首先 C urs or 包括 C urs or 在内所有做 c oding 的公司就是短期和长期我觉得分两方面来看就是大家 短期的这些营收的增长都是非常强劲的但是长期的话就是在 Cloud Code
00:20:00
未分轨讲话者:和 C ode x 这种双重的打压之下公司的前景在哪里我觉得 C urs or 可能也是主要是这方面有一些问题收购的价格的话我觉得其实是一个非常好的退 出 600 亿美金对吧这个应该是历史上就 是最大的创业公司被收购的价格那么如果 尤其是和他的竞争对手 Wind s urf 仅 20 多亿美金被 Go ogle Dem and 收购的话大概有一个接近 30 倍的一个差价如果大家用过 Wind s urf 的话其实在 Wind s urf 在被收购之前我觉得它的用户体验 几乎是和科瑟完全一样的所以我觉得科瑟 的话就是做到了这个行业第一我觉得还是 以这个价格为收购是一个非常好的一个推出结果我觉得它刚好赶在了一个很好的 时间点就是 XAI 自己出了比较大的波动和问题他们有需求去要这样一个团队同 时 Space X 刚上市上市其实它对就是我去做一些更完整的布局或者说我去 讲一些故事它也是有需求的就刚好卡在这个点是挺好的准确地击中了老马的需求 因为老马从去年年底开始就是非常看重 c oding 这一块然后就给了 XI 内 部团队非常大的压力来做 c oding 也因为这个原因就是导致 XI 这个团队 重要的人都离职了所以他现在的话他也非常急需地去收一支团队然后能把 c oding 这个故事接着讲下去你觉得还有什么买家接下来可能会需要这一类的公司 Go ogle 有可能做类似的动作吗我觉得 Go ogle 的话现在是这个季度从战略上来讲 应该是在给它之前传统侠乡多么太降级然后给 c oding 继续升级不过它之前 已经收购了这个 Wind s urf 团队了所以它应该有很大的需求但我不知道 它是不是还会继续通过买团队的方式再收购 M eta 了 M eta 已经招了太 多人了招了太多人但它也采了很多人对但是它的 TBD 已经招了很多很好的 Research er 所以你觉得他们应该大概就是用自己的团队去追这件事对如果总结一下这两 家公司的竞争你觉得他们现在核心比拼的是什么样我觉得比拼的话是一个比较系 统性的比拼了当然模型的能力的话两家现在又达到了一个旗鼓相当的水平当然还 要去看 5.6 真实使用起来的这个反馈怎么样但是另外就是在他们产品然后这个 以及变现然后以及就是整个生态系统上面我觉得应该现在是一个系统化的一个竞 争你觉得模型级产品这件事还有在多大程度上成立因为他们其实也有很多我觉得 产品的创新和产品上做得很好然后去提升体验的部分我不知道这一部分的努力是 被怎么评估和认识的我觉得模型级产品在他们两个人的竞争中不完全成立因为我 感觉在和很多 Open AI 研究员的对话中有一种情绪就是他们觉得他们的研 究和模型做的是很好的和 Ant rop ic 是同一个 level 的但是在产 品和推向市场方面是一团糟所以我觉得这两 个不完全话等好他觉得至少有一些 Open AI 研究员的观点是说现在我们的收入各方面做的没有 Ant rop ic 好 是产品和推向市场的过这个想法还挺有意思的因为一般来说大家对这两个公司的 印象会觉得 An throp ic 是一个更精简的团队他们更 f ocus 在 少数的方向上给人的印象是他研究做的更多然后 Open AI 已经 7000 多 人了然后他的职能是相对更齐全的包括他最近也招了很多 FDE 就是前向部署工 程师就 2B 的那块他也在做但是反而他们 内部的研究人员还认为他们的产品和 go to market 走向市场做得不够好首先你觉得这个评价它客观吗你就是说 如果说它做得不够好的话因为它其实是更 早意识到要做这个业投入的比较多为什么 它还做得不够好我们可以看到 Open AI 在这方面的管理层也经常在换也不是 非常的稳定当然 Open AI 是个很大的公司但我这应该是听到不止有一个就是 Open AI 的研究员有这方面的看法就你觉得他们说的这个对吗我觉得 Q1 或者 Q2 早期的时候确实是这样的就是你如 果在这个 X 上面你看的话就是 Cloud Code 这个声量会比这个 C ode x 就是大很多我觉得就是在这个產品的 宣傳然後社區的構建上面是要比 Code x 好很多的現在 Cloud Code 在 X 上面有幾個大的 Inf lu encer 比如說它的 Cloud Code 之父 Boris 還有他們 Catherine Wu 還有 T are k 等等几 个人就是在 X 上面都有大量的关注者然后他们就有很大的流量所以他们所有的新 的功能发布的时候应该会以更快的速度触达到用户所以他们产品团队也相对稳定 然后这些人也在社区里很有影响力对对这两家公司来说因为他们模型的能力是相 对旗鼓相当的所以他们的竞争是一个更加综合的系统的竞争你提到就其中有一个 点是比如说产品和走向市场的能力那如果更完整来说这系统里面还包括什么包括 这个系统最后就是一个系统可能会越来越好或者说保在一个比较好的状态一个系 统可能会竞争力差一点会是什么导致的我觉得有一个点就是 An throp ic 他们的人的 ret ention 一直做得很好从 An throp ic 离职 的人的数量应该是远小于其他的 F ront ier Labs 这个原因的话 有人说是因为 An throp ic 现在已经邪教化了然后洗脑非常成功有人 说是因为他们的 opt ion 太贵了所以得留在那要不然走了以后付不起钱买 那个 opt ion 但是我觉得这其实是一个人我觉得是一个很重要的因素从来 就是如此还是最近它变得越来越强之后会更明显我记得 An throp ic 一直是它的 ret ention 都是非常好的包括你可以直接去看它的创始团 队还有多少人在 An throp ic 你说的第一种就是猜想就说它是一个有 点宗教化的组织是因为就这个组织的愿景 是比较独特和强烈让它可能本来信来的人 就开始就比较信这个走的人也比较少是吗 对我觉得他应该是愿景是非常强烈的然后 非常另外的话就是这个小道小写就是面试的时候他的这个价值面都是非常的严格 的挺有意思的历史上有什么这样的公司吗我觉得还真不懂他们是非常的认真的看 待自己做这个事情所以他们也会去找和教皇合作然后发表一些宗教怎么和 AI 结 合这些事情他们真的是在思考未来 AI 世界应该怎么构建因为现在有一些人由于 An throp ic 一些反人设的行为出现就类似于你刚才提到的我默默地 给你降制这些做法然后对这个公司有很多的非议和争议吧就是会不太相信他所宣 称的一些他的理念比如说我们要做非常安 全的 AI 比如说这个我们把对其视为非常 高的优先级然后从你的角度包括你和他们的一些人接受角度你还是觉得他们确实 是在信这些东西的我觉得硅谷这边的氛围的话对于 An throp ic 在对 齐上面的投入应该还是比较认可的不能代表所有人但是我即使聊到那些 Open AI 的研究员也是认为 Cloud 在对齐上面做的是比 Open AI 强的这个 东西如果反映在体验上是不是它也会带来更好的体验大家用的时候能感觉出这个 区别吗这个地方我可以举一个例子就是 OPI 最近发了一个研究就是说人其实并 不太喜欢听到真实的一些反馈就是说如果这个模型它的谄媚程度上升的话其实人 是会更喜欢的所以如果要是你往这个方向去做优化的话其实会增加你这个模型的 产品程度我想大家如果同时用过 Cloud 和 T rad GBT 的人也可能会 感觉到就是 Open AI 的 T rad GBT 更会提供情绪价值而 Cloud 有的时候会给你当头一棒就是会更说实话 一些对我觉得这个可能也是就是在 tra ining 的这个目标上面和对齐的目标上面可能会有一些两个公司会有一些不 一样的价值观 OK 那我们进入就是推进前沿智能的第二部分就是 RSI 地归自进 化它的全称英文的全称是 Rec urs ive Self-Imp rove ment H en ry 你可以先说一下就是这是个什么意思以及为什么最近 就大概四五月份开始我觉得这个方向其实是越来越多人讨论的 Rec urs ive Self-Imp rove ment 翻译成中文的话就是地归自进化这个事情 听起来很复杂但其实它本质很简单就是我们都想要一个能够自我改进不断自我提 升的一个 AI 系统那么这个事情的话它在 AI 里面我觉得可以算是一个圣杯一样 的概念那么他们在过去几十年已经被反反 复复地拿出来做尝试了那么最近一波的话 就是因为 c oding 能力和长程的 ag ent 能力变强了所以我们又看到 了希望所以又开始进行新一轮的尝试 RSI 我觉得和上一期我们聊到的 auto research 这个概念是紧密相关的 A uto Research 也就是 说自主研究它是说我们的 AI 像一个研究员一样工作能够去读论文提假设写代码 跑实验分析结果最终得出一些新的技术结论这个是 A uto Research 就是 AI 自动化研究流程但是 RSI 我觉得它是在 A uto Research 的基础上往前更进一步就是说研究员不光是产生新的知识而是说研究员会在研究 的过程中不断地改进自己使得自己在下一 次做研究的时候能力会变得更强这样的话 就达成了 RSI 的能力就是它是自己产出了更好的东西来帮助自己变得更好然后 又能产出更好的东西又能帮助自己变得更好就这样一个循环的一个 loop 往上 的螺旋上升对吧左脚踩右脚落学顺顺因为这个事情如果一旦做到了的话它最大的 意义就是说那我们之后人可以从这个 loop 中抽离出来只要不断地给这个 AI 系统去喂算力它就会不断地去
00:30:00
未分轨讲话者:提升他的智能那我们就真正实现这个 ASI 了这也是我想讨论的一个问题就是在 地归自信化这个里面自动化就是人是否在 这个循环里面和地归就是这个它是以一个 相似的结构在比较快的往前推进这两件事 哪个是更第一性的哪个是更重要的我觉得 先自动你觉得得先自动挺有意思的我今天 跟田元栋也稍微聊了一下这个问题他觉得 可能地归是会先发生的地归可以说已经发生了但是自动也发生了自动对自动也发 生了只不过自动不是全自动就这个自动是一个阶段性的它会一点一点的就是人参 与的更少比如说回到十年前其实 Go ogle 做 A uto ML 的时候它也是 AI 自己可以做一些事但是它能做的事是比较机械的搜索搜索的空间方向都是人 要深入参与去给它规定好我觉得我们可以 看到一个趋势 AI 能够改进的系统的部分 会越来越大最早期的时候 AI 是做超参数 的优化 AI 来帮我们做超参数的搜索然后 后来的话 Go ogle 做了刚才那就提到了 ne ural architecture search 或者 auto ML 就是 AI 能够帮助我们去搜索一个网络最好的 架构是什么样的这个是 2017 年的事情 再往后的话我觉得最近 AI 可以去帮我们 做 h arness 的优化这个 h arness optimization 是有很多公司在还有包括 F ront ier Lab 在做的大公司也在做然后 也有专门的创业公司在做有很多创业公司在做这个事情然后包括就是 AI 帮我们 能搜索这个 tra ining recipe 训练的配方这个配方指的是比如 说这个包括就是这个 learning rate schedule 然后这个 具体用什么 opt im izer 等等之类的然后我觉得再往后的话就是说 AI 可能能够刚才是一点点升级能够最后把整 个系统都纳入它优化的范围以内上述所有 事情它都可以做那就实现完全的 RSI 了所以从局部的自动来说它已经发生了对 吧就你刚刚说的这些是已经出现了然后把整个系统放进来这可能是大家未来追求 的目标在 RCI 上大的公司还有一些新的公司这个季度有什么具体的进展这个季 度我觉得有两家公司在 RSI 上面有比较大的进展第一家公司的话就是 An throp ic 他们在 6 月 4 日的时候发布了一篇文章叫做 When AI Build s It self 就是当 AI 开始构建自己那么这里面他们分享了很多他们内部的 实践以及他们对未来的展望第二家公司的话是 Rec urs ive 他们也在 6 月份发布了他们的第一个成果展示了就是 RSI 早期未来的一个缩影 An throp ic 这篇 When AI Build s It self 里面有几个关键数 字第一个数字的话是截至 5 月 An throp ic 代码库里面合并的超过 80 %的代码都是由 Cloud 来写的第二个的话是 2026 年 Q2 开始工程师人均 每天合并的代码量是 2025 年之前的 8 倍第三个的数字的话是然后 4 月有一个 案例是他们让他们的 AI agent 端端端的完成一项 AI 安全研究然后这个 AI agent 累计工作了 800 个小时然后比人类研究员做一周的这个效果 还要好不少最后一个数字的话是他们在一个让 AI 来优化一段代码 performance 的测试里面发现这个 M eth os Pre view 能够做到大概 52 倍 的加速而 O pus 4 系列只能做到就是 3 倍一个熟练的人员研究员 4 到 8 小 时可以做到就是 4 倍所以有一个非常大的一个提升你前面还提到这个报告还描绘 了比较有意思的未来这个具体来说是什么 An throp ic 设想的未来世界 有三种第一个世界的话就是模型能力不会 再变强了那么我们现在就是如何利用已经 有的模型能力来服务全人类第二个世界的话是模型能力还会继续变强但可能不会 指数级的变强而是现在这些拥有比较强的模型公司他们利用这些模型来开发下一 代模型会有一个复利的效果第三种可能性的话就是 RSI 完全实现这样的话就是 人类在未来训练 AI 的这个流程中的角色会大幅的缩小然后进度的话就完全只是 受算力的限制那么在这三种世界里面的话 An throp ic 认为第一种世界 的可能性应该是非常小的因为他认为我们 现在基本上根据他们自己的进度我们已经 达到了第二世界那么第一世界唯一的可能 性就是突然我们这个世界发生了一些什么 变故使得比如说电力突然没有了或者说算力突然没有了那么可能才是第一个世界 的情况那么第二个世界的话他认为是我们现在处于的这个世界基本上你可以认为 它是一个 auto research 实现但是 RSI 还没有实现的一个世界就 类似于他们自己说的我的什么人群产出代码变成了八倍就我效率在提升但那不是 指数级的提升就目前如果是从研究员他们自己的表达上来说就是他们可以给一个 想法然后 AI 可以就是以数量级别数量级别提升的这个速度来帮他们完成这个想 法从头到尾但是他们自己其实会是那个卡点对他们自己还是卡点就是 AI 现在的 研究品位还是不太行的还是需要人给他提供但人的脑力人的时间是有限的对那么 第三个世界的话就是 AI 能够不断地去 t rain 下一代 AI 相当于自然繁衍 一样就很快就比如说未来不是一个月两个月发一个新模型可能不断地每天都会有 或者说每小时都会有新的模型被 AI 自己 t rain 出来那么他们觉得这个未 来最大的风险还是回到了对齐上面因为现 在我们比如说基模有一点对齐的瑕疵的话 那么这个瑕疵在 AI 不断繁衍和自进化的过程中可能会不大的放大那么当 AI 又 比我们更聪明的时候我们就有更大的失控的可能性所以也是基于第三个世界的设 想他们现在提出我们是不是应该有意的放缓研究 RSI 或者进一步推进前沿智能 的速度这样的话我们可以给社会更多的准 备的时间我觉得他们也非常矛盾因为他们 一方面就是觉得为了全人类我们应该放缓这个进度但另外一方面觉得我们放缓了 这个进度我们的竞争对手不一定会放缓这个进度所以可能还是得往前走对它这个 文章的标题就是叫 Our Progress Tow ard RSI 那讲的 也是它自己的进展但是它里面又说它觉得最好大家别一起进展太快对你觉得它的 这种矛盾是真实的对吧就结合我们前面说的你说这个公司还是有非常独特的愿景 的我觉得是真实的但我觉得现在可能除非 发生比如说全世界的人民联合起来说我们 都把这个速度放缓要不然的话就是还是大家会竞争往前先看谁先能达到因为你平 时也接触大量的研究员他们自己对制造一个 AI 来把人踢出这个 AI 进化的路是 怎么想的我觉得也是一个非常矛盾的心态 一方面的话如果 RC 实现了相当于是他们 把 AI 的圣杯做出来了那是一个非常大的成就但另外一方面日常生活中并不是很 开心虽然 AI 现在能力变强了这篇文章里 面也有一个研究员说的一句话就是当我的 工作就是 AI 模型它 work 的时候它比我做的又快做的比我又好我感觉我自己 没有什么价值当 AI 模型它不工作的时候那我更惨了因为我完全不知道它为什么 不工作然后我还得去弄明白到底发生了什么所以现在我觉得也是 AI 能力变强了 做的研究的速度变快了但是 AI 研究员的幸福感不一定会比之前更强就是价值感 和成就感在经历新的考问和定位我早些时候和田元栋聊他有一个想法挺有意思的 他觉得很重要的一件事还是去解释 AI 就让 AI 真的变成一个科学因为过去也是 从地鼓到开普勒到牛顿他认为 AI 也会经历这个状态现在可能更多还是在我理解 可能还是在地鼓的阶段大家有很多经验但是你很难解释为什么这个经验是有效的 那个经验就没效他可能都还不到一个我们以前定义的那种科学的程度我觉得如果 要是能做到 ASI 的话 ASI 应该是能够理解自己的你觉得 ASI 能够理解自己 对自进化和理解自己你觉得这会同时发生吗一定会同时发生吗 ASI 我觉得是能 够理解自己超级智能是会理解自己你觉得人理解自己吗部分理解对它可能也不是 一个零和一的关系人在不断地加深对自己 的理解智能如人类这种生物它也没有完全 地理解自己还是有很多东西是不知道的还有一个关于就是它设想的第三种未来的 我有一个想补充的问题就你前面提到就 An throp ic 认为这件事的最 大的风险是对齐那另一方面如果说模型进化这么快的话他们不认为有一种风险是 就是智能泛滥吗就有可能没有这么多对智能的需求我不知道这个文章你提到这件 事没有或者说你们平时的一些讨论里面大家是怎么看这件事情好像很少讨论这个 问题因为就是默认现在有大量的问题需要解决比如说人类如何长生不老然后这些 问题的话都需要这个更强大的 AI 来解决所以默认对智能的需求是不太会有上升 的我感觉现在在硅谷在智能 F ront ier Lab 就是认为是对智能的 需求和对算力的需求都是没有上限的在新的公司里面你提到说 Rec urs ive Super Intelligence 在 RSA 上这个季度也释放了一些具体 的成果这个可以展开讲讲吗我觉得 Rec urs ive 可能是这个季度最值 得关注的 New Lab 之一刚才我们提到它的创始团队非常的强有 Rich ard S ous a 然后石田凌田园栋它做的事情就是做 RSI 让 AI 系统能够自我 改进那么他们放出的第一个成果就是做了三个 Ben ch mark 上的改进 第一个的话就是 And rew Kap ati 的 N ano Chat Auto Research 那么他们是偏算法就是在固有的 bud get 的情况下怎么 去把这个事情做得更好就是算力相对固定的情况下算力资源固定的时候怎么把性 能弄得更好然后第二个的话是 N ano GBT 的 Spe ed run 就是
00:40:00
未分轨讲话者:说大家的终点是一样的就要 t rain 到一个 performance 把模型 t rain 到一个程度但看谁能 t rain 的时间更短然后第三个的话是一个 GPU kernel 的一个 bench mark 叫做 S ol Ex ec Ben ch 那么这个是比谁的算子写的好然后随着算子的效率更高所以他们在 这三个 bench mark 上面都取得 了 SOTA 的结果通过把他们做的 RSI 的系统应用在这三个 bench mark 上面这其实就覆盖了 AI 进步的三个 杠杆就是说更好的算法然后更快的训练然后更高效的硬件的利用程度我觉得可能 这个意义可能不光在于就是说这个 bench mark 它具体提升了这个数字 的大小可能更多的是它展示了这么一套通 用的研究闭环能够把这个东西跑通我觉得 它是它的这个工作的意义的所在它是同一个系统去做了这三个测试就是一套通用 的东西然后同时这个季度就除了你刚才提到的 Rec urs ive 这家公司 因为他们其实是水下了一段时间在这个季 度正式宣布的并不是这个季度成立但这个 季度也有些新的公司出来一个就是刚刚在 6 月 25 号的时候正式产业的 M ir ond ale 它也是一成立就有 10 亿美元的估值还有另一家公司是 C ore Autom ation 你可以讲就是现在这些不同的新的团队都在出现然后都 看到觉得这是一个机会是为什么大家觉得 可能有新公司来做这件事情的机会我可以 先简单介绍一下这两家公司创始人的背景首先是 C ore Autom ation 它的创始人 J erry Tor ik 是 Open AIO 系列的负责人所以 是在推理方面做出了很多贡献的然后 M ir and ale 的创始人是 Bay man 是 An throp ic 的之前在 An throp ic 应该是负责 他们的 AI for Science 团队所以这两家公司现在都是在 RSI 的 方向上面去做探索我觉得 RSI 这个事情之所以我觉得还有创业公司的机会首先 它是我觉得技术上它还没有完全收敛可能在除了 c oding 和长程的 ag ent 能力以外我们可能还有一些别的东西是目前还缺失的所以我们还没有完全达到 R SI 那么这样的话它不完全是一个堆算力的游戏可能还是需要一些新的 ide a 才能让这个领域达到下一阶段一般来说创业你要找一个现在的主流公司主线不会 去做的事你觉得 A ns wer P ick 和 Open AI 他们继续往后 推的话 RSI 会在他们的主线上吗其实从 A ns wer P ick 发这篇 文章包括 Open AI 也会去说一些目标说他们到今年 9 月的时候要实现 AI 研究实习生说二八年三月的时候要实现自 动化的 AI 研究员我自己觉得有一种可能 性是 F ront ier 也会比较重视这个事这就是你说的为什么它火的其中 一个原因就是大家设想如果你做到了这件事情之后你的加速度可能会越来越快这 可能是帮你在竞争中把其他人甩得更远的方式之一就看起来他们可能也会往那个 方向去做这和创业公司之间会形成一个什么样的竞争关系我觉得就是 An throp ic 他们自己也提到了就是现在的这个 AI 研究员他的这个 B ott lene ck 还其实在这个研究的品位上面人类现在依然是这个平静所以我觉得 F ront ier Lab 来做这个事情并不一定会和现在新的这个 Start up 做这个 事情拉开无限的差距这一季度两家最厉害的公司 Open AI 和 An throp ic 在智能前沿上还有一个不约而同的举动就是他们都在加码 Rob otics Open AI 这个事是相对公开的 An throp ic 这个事是就业内大家 慢慢地在流传吧它应该确实是有这个意向要去尝试做 Rob otics H en ry 你可以讲讲就是两个公司在巨星智能 或者说在物理 AI 上的一些情况 Open AI 的话其实是这个季度 Sam 还有 Greg 就是亲自在推特上公开他们的做机 器人并且开始招人但他们的尝试其实应该 是从很早以前可能 2024 年开始就开始 在做机器人这件事情然后他们在 1G 的 F rem ont 现在也有一个机器人 的一个 ware house 然后现在有一个几十人机器人团队在做这方面的探 索 An throp ic 的话他们现在应该团队规模比较早然后机器人尝试在 早期但是他们在 One AI Build s It self 这篇博文里面 也提到就是他们认为在 Rec urs ive Intelligence 的 下一步就是 Rob otics 和 Ph ysical Intelligence 所以他们应该也开始在这边提前布局了机器人理论上也可以 RSI 首先机器人比 较强之后它部署到真实的环境之后就可以 获得很多数据其实机器人发展它本身也是 需要数据就是巨声的模型的这一部分然后另外就是更科幻的情况就是机器人可以 造机器人看起来有点难想象的事情但是之前其实也发生过比如说工业革命的时候 就是机器造机器母机出现之后机器就可以造机器了一直到现在其实工业母机都是 非常重要的领域那我们可以稍微多讲讲因为它的公开信息要更多一点因为在三毛 特曼自己就是去官宣这个团队以及招人的信息里面它还是透露了一些信息的首先 我觉得有些人 就是他说在人上他要找优秀的全站工程师全站后面他包括硬件运营系统机器学习 然后他还提到就是他们第一个可能会用的场景是服务于自己的基础设施这个应该 就是他们自己的算力设施然后再往后的话他也是想做能够服务普通人的机器人这 也是一个比较有共识的愿景就是做家庭机器人包括马斯克机神也说过他觉得程序 状态下 O pt im us 可能会有 200 亿台还有就是他讲了这个团队的负 责人这个负责人是 Ad ity a R ames h 从这些信息里面你觉得 有什么可以更多去解读吗就比如他们可能会怎么去做这个事我觉得 Open AI 和 Ant ropic 这些模型公司他们应该会发挥自己的长项然后把这个问题 的模型的训练部分就是做好然后我觉得他 们的招聘里面说到他们要招全站的 rob otic system 但也不完全代表他们一定会就是有自己会去造自己的硬 件就是说不一定会推硬件的产品跟 opt im us 那种逻辑可能不太一样对 这个我们可以往后观察看会怎么发展因为现在比较主流的大公司来做这件事情就 两种方式一种就是 O pt im us 那样它最后要做的这个产品它是一个完 整的软件系统硬件系统都有的这样一个机器人的东西然后还有一类就是 Go ogle 还有英伟达其实他们都想做这个领域的安卓就是比较偏大脑和智能的那一层然后 创业公司里面其实 P i 也是这个方向的和巨声和 Ph ysical AI 相 关的一个最近发生火的话题是世界模型虽 然就是我们刚才讨论这两家公司在这方面 的有什么成果这现在不是很明显但整个领 域是出现了很多变化的正好在五月的时候 MOE Capital 就是你们自己的这家机构也写了一个世界模型的研究报 告你可以讲讲你们在梳理世界模型的发展 过程中间一些核心的总结和观察吗我可以 先简单说一下就是说为什么这个世界模型这个事情就是大家觉得这么重要就是想 象现在有一个机器人对吧他可能从来没有见过就是鞋带或者说从来没有人通过 T elly Up 的方式教过这个机器人去解鞋带但这个机器人呢他因为已经就是 足够对这个世界有了解所以他就可以就是说弯下腰然后抓住这个鞋带然后把它拉 开然后解开做这个事情我觉得就是这个的 话是世界模型想要去解决的一个问题然后 世界模型这个词我觉得就是被用的很多然后我觉得最近的话之所以这个火起来它 主要是之前有两个独立的研究的分支在 2024 年和 2025 年做了一个合并那么 有一个分支的话就是这个 RL World Mod els 这个系列可能比较 有名的是之前 Go ogle Dem and 他们做的 D ream er 系 列他们这个 ide a 就是说在真实世界里面去收集数据非常的昂贵我不如去学 一个真实世界的模型然后在这个模型里面就相当于做梦一样去 sim ulate 真实世界里面发生变化是什么样的然后让机器人在虚拟的世界里面去学习这是一 条路线但是这条路线之前的问题就在于就 是说它每一个环境都是单独去学习的所以 比较难以 gen eral ize 另外一条线路的话就是大家比较熟悉的视频 生成线路包括就是 S ora、 V ille 或者 C d ance 这样我们比较熟知的模型那么这一条线路的话 就是说我们其实是从这些人类这种拍的这种 video 数据里面是能够取得大量 关于这个世界的知识的包括这个世界的物理是怎么工作的但是他们这个系列的话 这些模型的话呢它是只能就是说生成这个视频但不能说我如果在这个当前这一帧 然后我做了一些 take 了一个行动下一帧 会发生什么样的变化这个就是 action condition 所以现在的话就是把这两者结合在一起了前者的话就是说我 能在一个虚拟的世界里面让 rob ots 或者 ag ent 去进行学习后者是 说我能够通过大量的视频数据去学出这个 世界的一些信息如果把这两者结合在一起 的话就是我们现在说的这些 World Action Model 这些系列包括 我们投的这家公司 D ream Labs 他们的一个经典的工作就是 D ream Do jo 和 D ream Zero 就是这个方向的 2026 年可能 2 月份发 布的新工作你刚才就是在解释说为什么现在这个领域变得比较火对吧它其实还是 和 Rob otics 的热潮也是相关联 的你们当时这个世界模型的报告里面还有 一个观察就是在统计过去这 18 个月里世界模型获得的 100 亿美元都去了一些 什么公司你这个可以讲讲我觉得这个大概有几个层次吧一个是就是纯做世界模型 的这个公司或者说这个做模拟器的这个公司包括这个 AMI Labs 他们融了 这个 1.03 billion 然后 W arl abs 融了 1.23 billion 然后 Run way 他们是从做视频模型起家的现在应该是融了超过 860 million
00:50:00
未分轨讲话者:然后 R oda 450 然后 D ec art 153 还有最新的 D en iger 做的 En ble 然后也是超过了 1 亿美金这是一层另外一层的话就是做 rob ot foundation model 或者说做机器人大脑的这些公司包括 比如说 sk illed 然后 ph ysical intelligence figure mind robotics 就属于这个类别第三个类别的话就是 说做整体的平台型的公司包括像 N vidia Google Deep M ind 然后以及现在可能要加入机器人战团的 Open AI Anth rop ic 然后我们看到一个比较有意思的 p atter n 就是说这些现在使用数 据世界模型的公司比如说这些 rob otic brain 的这些公司他们的 融资规模其实是要比做世界模型的公司是 要大不少的可能还是大家可能会比较相信 就是说做 rob ot brain 的公司最后可能会 ca pture 就是在 如果哪天机器人实现了这个经济价值最大的 ca pture 可能是被这些公司 拿到你们这个统计是全球范围的对吧这个统计主要还可能是偏向是这个欧美这边 的公司偏向欧美那你如果把中国算进去你会看到就是做这个机器人这块整个融资 规模可能会更大我还以为这是算上中国的所以中国之外也有 100 亿美元过去几 百个月其实也不少但是和 SRP 和 Open AI 这个最主线的战场相比它的吸 金提量还是又太小了差了很多量级随便一轮就融几百亿美元嗯那我们接下来进入 第二个大的板块就是关于智能的扩散已经可以帮我们干很多事情的智能怎么通过 更多新的产品的设计和一些新的商业模式的设计让更多人更多企业可以用起来前 面你提到就是有一个新的趋势或者说机会是很多企业在考虑我到底应该用什么样 的模型是继续用最贵的 F ront ier Lab 的模型还是我自己要来有 自己的模型你可以想象这个趋势在第二季 度是怎么发展怎么变化吗这个领域我觉得 我们可以看到几件事情第一件事情的话就是越来越多的公司在和后训练公司合作 然后来 t rain 他们自己的专有模型一个例子的话就是 Har vey 和 App ly Comp ute 合作基于 GRM5.1 t rain 了一个他们自己 的模型然后在他们的 leg al agent benchmark 上面击败 了 An throp ic 和 Open AI 那么这个事情很有意思因为 Har vey 他们自己本身就是 An throp ic 的用户所以这也是一个风向标 现在公司他们会考虑不光是使用 F ront ier Lab 的模型而是说真 正去开始去 post train 他们自己的模型那么之前的例子的话上个季度 的话这个例子应该是就是 C urs or C urs or 是基于这个 K imi 2.5 然后 P ost-tra ining 他们一个自己的一个 C omp oser 那我觉得这个季度的例子和上个季度的例子它的模式还不太一样因为 C urs or 是自己基于一个开文模型然后后训练了一个模型自己来用你刚才讲到的这个 例子里面它其实有三方就 Har vey 是一个做法律业爱的垂直的业爱的公司 面向行业的然后是 App lied Computer 又用了 GLM5.1 那 就是中国的开源模型厂商的模型然后来帮 Har vey 去训了 Har vey 要用的模型对 App lied Computer 是一个由 Open AI 研 究员出来做的一家公司他们的主要业务就是 P ost Training as a Service 也就是把后训练作为 一项服务提供给他的客户那么为什么现在 有更多的像 Har vey 这样的公司他愿意去做 post training 然后拥有自己的模型呢我觉得可能有多个原 因第一个原因的话就是成本就是 Cloud 它这个前沿模型它性能很好但它实在是太贵了比如 P il oto Network s 的 CEO 在 X 上发了个帖就是呼吁 Cloud 立马降价因为我现在的客户已经 用不起你的模型了如果你再不降价的话那么我们只能就是说把这个生意给开源模 型或者更便宜的模型这个发铁的 CEO 他们的公司的业务就是一边用 An throp ic 的模型然后去一边服务下游其他的企业客户是吧对就是 P ilot Network s 是他们是一家做网络安全的公司所以他们也是和 An throp ic 在他们 叫做 Pro ject Glass wing 就是用 Cloud 去找网络安全 漏洞的这个项目上面一个深度的合作方所以他们也会用这个 An throp ic 的模型去做各方面的安全的业务包括 pre vention 就比如说做代码扫 描或者说实施的 det ection 他们都会去用 An throp ic 的 模型所以他们现在自己也觉得这个模型实 在是太贵了这是第一点太贵了第二点的话 呢就是说稳定性这个稳定性指的是说我能不能期待这个模型我一直能有 ac cess 因为现在的话一个问题就是说有可能你在用前沿模型的时候政府一直禁令你突然 你就没有这个模型的 ac cess 了你如果要是产品基于这个模型去构建的话 那就相当于是你的产品构建在没有保障的沙子上面其实 F able 已经发生了 还好它只上行了三天如果它上线了一个月美国政府再来这么一遭的话那确实有些 公司可能已经去与它开发了很多东西了然后第三个点的话就是沪成和的一个问题 就是因为现在大家越来越觉得 Ant wer p 这个公司竞争能力太强了对吧 它会把各种数据都 t rain 到它的模型里面模型能力会不断地变强大家也会 担心就是说如果我不拥有模型的话那么 An throp ic 会不会就是逐渐 的把这些所有的能力都内化那么未来的话大家直接去找 An throp ic 就行了可以跳过我另外一句话就是说那我和我的竞争对手都有同样的基模那我的 这个竞争优势在哪里所以我觉得从竞争优势的角度上来讲大家也会更加的倾向于 去现在去拥有自己的模型就是有的企业客户会担心自己变成下一个 c urs or An throp ic 确实也有意往这个方向拓展它之前和黑石成立了合资的 公司然后有这种大的 PE 方其实是可以给它链接很多大型企业客户而且大的 PE 其实自己就拥有很多企业类的资产他可能也能用起来就是在 2B 的这种场景里面 对然后在竞争和护城河这块我还想补充一点的就是对于像 Har vey 这样就是 有高价值场景然后自己有大量有价值的数据的公司他们其实非常希望自己能够通 过把数据能够利用起来然后不断地加强自己的竞争能力那么如果要是自己有一套 后续链的 p ip eline 的话它实际上是可以不断的有越多的用户越多的 数据它可以加强自己的产品竞争力的但如果要是没有的话它可能只能依赖于 An throp ic 的积木就是在我们刚才讲的 Har vey 和 App lied Comp ute 再加上 GLM5.1 这个三方都在的这种模式的合作里面后训 练的 P ip eline 它是由 App lied Comp ute 这家公 司来掌握的还是说 Har vey 自己之后就那么掌握了 Har vey 这个公 司他们自己也是有人在做后训练的不过在他 们这个合作里面的话他们是使用了 App lied Comp ute 的这个平台应该叫做 The Lab 那么在这个平 台上面完成了就是整个后训练的这个过程所以这个 P ipe L ine 其实 是在 App lied Computer 这就照在这个合作里是这样所以通过 Har vey 给 App lied Computer 就是付费然后使用他的 这个平台但是最后中的话 Har vey 他自己拥有就是这个模型和数据就是他 拥有了一个自己的模型你前面也提到他们用来做后训练的这个基础的模型是 GL M5.1 为什么选这个模型啊其实他们试了市面上可能所有的这些开源模型可能 大部分都是中国的然后他们最后发现在这个 bas eline 上面是 GLM5. 1 的效果最好然后他们就基于 GLM5.1 他继续去做 P ost-t rain 就是智普的这个模型所以现在从大家在这 边的一些使用体验不管是企业来使用还是 个人来使用智普的模型在中国的开源模型 里面确实是最强的吗可以这么说吗我觉得 质朴的模型尤其是在 5.2 发布以后在硅谷这边呼声非常的高一方面的话是真实 的去看这个数字的话它是 T erm inal Ben ch 首一个开源破 80 的模型并且有多项长程编码任务能够超过 GPT5.5 然后成本只有六分之一但是 更重要的是我觉得有很多人在 X 上就是说这是第一个他们觉得编程手感对的模型 就不光是 bench mark 跑得好然后实际完成任务确实效果不错尤其是质 谱非常明智的支持 L an throp ic 的 API 所以你现在可以直接就是 接着用 Cloud Code H arness 但是把后面的这个 API 替换 成这个 GRM5.2 然后有人就是说可以 几乎无痛的替换就是 OPPO4.8 这个 我觉得还是非常厉害的还有一个我观察到比较有意思的现象就是除了 Har vey 除了和 App ly Comp ute 合作他和 Fire works 也在 6 月初合作然后创立一个模型也是基于这个 GLM5.1 的所以就是从大家的用脚 投票里面也能看出这个模型至少在现在这个阶段是表现比较好的是的我觉得可以 稍微延展聊一下就是中国开源模型的一些情况因为其实我们刚才聊的这种合作里 面我觉得它事实上是美国的一些有一定能力做模型服务的公司就比如说 Fire works 比如说 App lied Comp ute 然后再结合上中国的开 源模型生态他们一起来服务一个客户这个客户可能很有可能最开始第一批也还是 一个硅谷的或者说一个美国的客户就算是 某种意义上的中美合作在 AI 领域的然后 他们共同的另一面看起来就是越来越强的似乎无所不能什么都想干的 front ier-like 你怎么看这种对局的强度我觉得从过去三年回看一下历史的话 就是历史告诉我们这个模型能力都是你方唱罢我登场然后很少有人能够一直领先 的这么一个态势但是过去三年币源也一直没有让开源追上没有真正的追上没有真 正的追上它看起来有逼近的趋势有逼近的趋势但可能现在币源比开源
01:00:00
未分轨讲话者:front ier 还是能领先几个月半年的水平而且币源的 L ive 它有一 些东西它是没有展露出来的就有可能它内部 还有更厉害的东西所以这个差距有的时候 确实很难动态地去判断就有一种对现在这种趋势能否持续就是说是不是大家都想 要自己的模型有一种质疑就是在 24 年前年的时候其实也有一波微调的红利但是 最后随着就是基础模型能力的提升其实这 些工作的红利都被覆盖掉了你觉得在今天 这个时刻你看到比如像 Har vey 这种公司他去找一些人来帮他做后训练又 或者其实微软也有一个相似的场上微软是说他要去服务更多就其他的大的企业客 户去做这件事去帮他们训练他们自己的模型他能持续吗我觉得这个里面可能有几 个变化一个变化的话呢就是现在就是所有做这些后训练作为服务的公司他们都要 去做一个事情就是去做 FDE 就他们需要去让一些这个 For ward De ploy Engineer 然后去到他 们服务的企业里面然后去帮他们去做这个 后训练前向部署工程师前向部署工程师这个也是最近特别获得一个新的职业角色 吧对然后这个前项部署的这个成本应该和就是两年前相比应该是有所下降的所以 这是一个变化这是一个变化也是因为 AI coding 本身变得更强了对然后 第二个变化的话就是这个模型能力和任务的这个相对难度我觉得有一些变化就是 之前的话就是模型在我们比如说 LEGO 这个场景它这个前进的速度可能太快了 比如说从 GPT3.5 到 GPT4 这个提升非常大那你在这个老版本的模型上面 去做 P ost-t rain 以后你可能根本赶不上新模型的这么一个改进但 我觉得现在可能不太一样了就是现在的话是你在一个 F ront ier 的开 源模型上面加上你的私有数据很可能是能够超过就是 F ront ier 模型 并且可能 F ront ier 模型短期内都不会反超的这么一个其实之前你说 到的 App ly Comp ute 和 H ard ware 的例子就是这样 的他们就是基于 GM5.1 做的这个整个 的后训练之后的东西你刚刚说是超过就是 我直接拿 Open AI 或者 A ns wer P ick 的模型来做的效果 所以你觉得这个趋势在这一次有可能是一 个更持续的趋势我觉得会比上一次强一些 但这个我觉得也是一个此消彼长的一个过程当 F ront ier 模型就是说 触顶的时候受到各种各方面的阻力比如说包括监管在内那么开源模型就会迎来一 波增长另外我觉得还有一个点补充一下就 是说这个事情可能也不适合所有公司比如 说我觉得初创公司可能就不应该做这个事情他可能应该先用 Open A th ropic 的模型去把他们的产品跑通然后拿到市场的验证你说的是不适合初创 公司去有一个自己的模型你是指这件事对 吧对初创公司倒是可以去帮别人拥有自己 的模型这是一个创业方向对所以我觉得就是说比较适合的公司我觉得可能有几种 特征一种的话就是说你得有高质量的专有数据要不然你没有必要去做后训练第二 个的话就是你还得有一个比较明确的评估 系统能够知道你这个模型是不是变好比如 说 Har vey 他们就有一个 leg al agent 的 bench mark 他自己有一个法律场景的这种测评指标测评指标第三个的话就是说你真的得有高 频和高价值的业务这样的话你这个模型比如说稍微提升几个点你能带来你这个经 济价值我觉得这三个条件满足的话就可能能够适合来做一些后训练然后拥有自己 的模型那其实也能明显的看到几个大的行业是适合做这件事的比如说 Har vey 所在的法律似的医疗健康可能也是金融肯定也是可能咨询也算是咨询也算是这几 个确实也是 An throp ic Open AI 会去做的方向他们也在就是 搞一些这种比如说 He alth Care 什么什么的这方面的一个是他们会 有这方面的一些专业模型一个是也有些商 业上的合作然后这部分可以补充聊聊就是 中国开源模型的一些情况因为前面也是提 到的两个合作都是用了智普的 GLM5. 1 这个模型整体上来说在第二季度中国的这么多开源模型它的一个发展包括就是 比如说被全球的科技公司采用是一个什么样的情况你怎么看这几家厂商陆续出的 一些新模型对 De ep Se q 基本符合咱们之前的预期就是说还是有一些 小的尤其 In fer 做得非常 sol id 的有一些改进但是就也没有惊艳到 大家了像我之前和 SGL an 的人他们聊就是他们 SGL an 这个项目起飞 就是 V3 带的因为他们当时就是优先支持 了 V3 然后大量的人就想用 V3 然后就是 都会去问你们能不能帮我们把我们这个 M1 部署做一做对其实在 SGNOW 之前 还有一个存在更久的这种框架的社区就是 VLM 我上次听朱邦华的采访也挺有意思 的因为他之前不在 SGNOW 这个社区他就是 Red is Arc 这个公司成 立之后他一起加入去作为联创他就说最开始其实他不是特别看好 SGNOW 的发 展因为他觉得你起步相对晚而行业里面已 经有一个其他的开源社区做得很好了所以 你说 V3 其实对他们来说是一个很大的注意对吧对比如说从这些开源框架的角度 来说他们现在觉得我应该抓住哪个开源模型的机会好好地增长发展 V4 他们其实 投入了很多时间精力去做但 V4 当然就是没有 V3 给他们带来那么大的 RI 了那 像 K imi 像 M ini Max 包括像小米千问你觉得这个季度有什么亮眼 的进展吗如果我们总结一下这个季度中国开源模型的进展的话就是中国开源模型 四刹在过去的八周内先是 K imi 2.6 然后是 De ep Se ek V 4 然后是 K imi 2.7 再然后是 GIM5.2 四次一组全球最强开源基本 上就是在编码和成本上已经快要追平前沿的这个比如说 5.5 和 OPUS4.8 级别的模型然后这个最强的这个币源可能还要领先就是大概半年的水平但是差距 还我觉得目前还没有继续拉大的趋势这是我们聊到的智能的扩散的第一部分就是 观察到一种神奇的中国开源模型和美国的公司之间的这种合作然后是第二个想展 开的和智能的扩散相关的话题就是一些新的交互的尝试这个更多是在产品创新上 的前面其实也聊到说 Open AI 的一些人也觉得自己的模型是很强的但是在 产品在走向市场上不如 An throp ic 那我们可以先从 An throp ic 这个季度的进展开始讲他们最近推了一个 还挺受关注的新的产品功能就是 Cloud Tag 也是我们前面稍微提到了就是说类似于 De v on 之前做的那件事和 Sl ack 打通你可以讲讲就这个新的功 能带来的一些变化和讨论是什么 Cloud Tag 其实是一个非常直观的一个功能它就是允许你能够在 Sl ack 里面用 Add Cloud 的方式来把任务提交 给 Cloud 然后 Cloud 就会把这个 任务做好了以后然后再把结果反回到群聊里面所以我觉得它的交互方式就是说从 每个人自己开一个独立的聊天机器人相当于是你有一个你自己的个人助理变成了 你现在团队有一个 24 小时一直在监听你的需求和有所有上下文的一个同事这个 我觉得可能是一个比较大的变化 And roid 的话在加入 L ine Traffic 以后也是开始疯狂的灌水它说这个是 AIUIUX 的第三次大改他是这么想的第一 次的话是有一个网页 chat bot 让所有人去网页聊天第二次的话就是所有 人下载一个 app 到自己的手机和电脑上 面然后能够和 AI 进行各种交互那么第三 次的话就是 AI 来到你的协作空间里面企业协作空间里面然后能够和人比较深度 的去协作所以我觉得是 An throp ix 他们这个季度自己非常兴奋的一个 功能比如说他们的 Cloud Code 团队的产品经理 C atherine 就说他们现在产品团队大概有 65%的代码都是通过 Cloud Tag 的形式 来完成的它的这个好处就是我们可以群体来协作是吧就它可以在一个群里共享上 下文然后和很多证人一起来合作而不光是 专门属于一个人其实这个想法本身并不是 很新我觉得国内和国外都有很多比较更早的尝试为什么 Cloud Code 做 这一步比较晚啊我觉得他们可能之前的话是在自己最擅长的产品形态上面就是下 功夫就在 cloud code 上面花了大量的时间那么现在的话他们想要进一 步的去拓展他们的这个产品战线所以 sl ack 的话我知道他们之前已经做了 内部其实做了挺久的应该是比较深入的打 磨了这个产品体验那我觉得可能也跟他的 产品策略有关就是他希望推出市场的时候就已经是一个体验上各方面比较丝滑比 较成熟的东西这个也有利于就是让用户能持续的觉得你是一个能给我带来高品质 高体验产品的公司的这么一个形象吧我觉 得靠扣确实他这方面的口碑是不错的之前 我问过一个 An throp ic 的朋友 Cloud 进 Sl ack 这件事情 难道不是这种程度的集成以你们的编程能力不是直接 we b code 一下就 完了吗他说在用户体验上面如何能够尽可能有效地利用上下文然后能够不光是被 动地接收信息而且包括主动地去 p rop ose 一些任务上面他们是下了很多 功夫的对这也是它其中的一个功能就是它会在一些合适的时机跳出来来提醒团队 你不要遗忘一些任务不要遗漏一些事以及它还要设置一个权限的管理这个也是协 作类的 ag ent 需要去考虑的事情就是不同的员工可以看到什么类型的数据 可以访问什么不同的频道我觉得这个也是一个挺有意思有点张力的地方就一方面 就你刚刚说这个 C atherine Wood 她自己说我们的很多代码就是 用 Cloud 来写的尤其是 Cloud T ag 这个功能但另一方面他们自己 在推出一个产品的时候其实我能感觉到他还是做了很多细致的打磨你光靠 We b C oding 是肯定不够了就一方面我觉得他把这个用 Cloud T ag 来提升效率的这种前景描绘的很有人另一方面自己又在默默的默默的实力对默的
01:10:00
未分轨讲话者:有些地方还是打个细节还是得靠人得靠团队来使用所以这不算一个很大的新的东 西但是有可能会是对 Cloud 的用户来说一个更好用的东西我觉得从概念上来 讲它并不新没有 And roid 说的那 么新那就是看它执行的好不好是不是第一 个执行的很好的可能实际对于用户的影响上来说应该可能是比较大的因为我身边 的用 D iv ine 的团队他们最喜欢 D iv ine 的点就是和 D iv ine 在 Sl ack 里面的协作体验那么现在如果 Cloud 又有了 Sl ack 的这个集成的话我会更加担心就是 D iv ine 的这个用户群体 De v on 现在什么情况 De v on 的 re venue 增长应该挺好的因为他们有两 部分业务第一部分业务的话是卖他们这个工具就类似于 Ant rop ic 卖 Cloud Code 另外一方面他们还 卖服务比如说你有一个几十亿个银行你有 一个什么 F ortune 写的一个代码仓库然后我要给你买柜成一个 P y thon 代码仓库你这个可能几十万行代码然后你就直接把这个东西交给我来我给你从头 做到尾就是之前洪珊说的就是 S aaS 不再是给你交付一个工具我不再是按用 量来获得价值我是按我给你的服务我给你 带来的价值来获得我的价值相当于是 AI empowered 咨询或者你也可以说是 AI empowered 的外包只 不过里面可能人参与的没那么重对这是 An throp ic 在这个季度的一个 功能上的变化 Open AI 也有一个新的功能是 Rec ord and Re play 这是一个挺不一样的思路你可以讲这个新功能是干嘛用的这个新功能呢 它的做的事情是它叫做 record and replay 就是它有两部分第一 步是 record 就是你可以让 C ode x 去录制你做一个任务的过程那么 你点完录制以后它就会开始观察你你是怎么一步一步完成你电脑上的一个任务的 那么录制完成以后呢他会把这个东西固化成一个 sk ill 就是技能那么当未 来你想 re play 就是重播的时候呢他就会根据这个 sk ill 的记录然后 来自动的通过 com puter use 的方式来完成这个任务所以这个我觉得 是一个非常好的把一个技能从人 trans fer 到 AI 的一个方式那么这个 事情呢它其实概念上也不行在之前的话 M eta 内部就有一个项目叫做 MCI 就是专门做这个事情就是在员工的电脑上安装了软件然后录屏然后希望能够通过 这些数据让 AI 学会这些任务然后最终达到一个把员工征留掉的效果不过这也是 这个季度发生的 MCI 也是这个季度差不多的时间差不多的时间但好像这个项目 是不是已经在 M eta 内部被叫停了对对 对这肯定会引起很大的反弹所以对 Open AI 来说相当于他们都看到了这个方向就认为这个方向还是有价值的就过 M eta 那个推的方式大部分人不能接受对他是想事情的然后 Open AI 已经抢先在 GPT 里面产品化了所以应该在时间上时间线上面也是更加领先的它这个其实有 点像什么有点像机器人的摇操早期机器人 摇操也是你去摇操一个同构的机器人然后 你把人类的操作的能力给迁移到一个机器上然后在模型的进展上面的话我们可以 看到现在预三家在 OS World Ver ify 上面已经全部超过了人类 的基线也就是 72%大概 OPUS 在 83%然后 GPT5.5 也是在接近 80% 的水平 OS Word 就是一个 com puter use 的 bench mark 对吧其实也是它主打的这个功能要去做的那个东西对你觉得 Open AI 推出 的这个 Rec ord and Re play 还有 An throp ic 推出的 Cloud Tag 哪个可能会是更引领方向性的会有更多人来跟进的东 西以及如果你自己用过的话你觉得哪个对 你来说更有用呢我觉得从概念上来说的话 应该是 Rec ord and Play 更能代表一个未来大家前进的方向我 相信后面会有更多的厂商去追随 Open AI 的这个脚步但是在 Rec ord and Play 的话它非常依赖于现在 Com puter Use 模型各方面 的能力包括它多步任务的准确性包括它延迟 都还有在提升所以我觉得可能 Cloud Tag 会在短期的用户的影响力可能会更大一些就会很多人用会有很多人实际能 用起来对而且也会冲击到 De v on 这一类公司有可能对我觉得很有可能然后 回到就是 Rec ord and Re play 你说它现在是一个比较早期 的状态有些地方可能不是很好用理论上来说它这个功能推出去之后它也可以获得 相关的数据它可以获得大量的数据就有人用它就能有大量真实的数据但可能也要 看它的这个对数据的应用的条款能不能用于模型的训练这个还挺涉及隐私的因为 这个数据里是应该能看到你的就是有些系统的这个界面然后里面就有些比如说截 图啊或者你在用的一些你个人的信息都有可能会被看的这个数据应该比之前的这 种文本数据会更加的丰富我觉得这是个很 好的提醒如果有人想试这个东西的话可以 仔细看一看 它的隐私协议是怎么来规定的如果能用上的话我觉得对它提升自己的 OS Word 类似于这种就是 Com puter Use 的 Ben ch mark 的能力 应该是会有挺大的帮助对我觉得 OS Word 或者 Com puter Use 的 Ben ch mark 好像一直没有特别大规模的 Ben ch mark 所以他们这个东西如果一旦 la unch 比起有大量用户使用的话他们应该可以 比较快速的去拿到这个可能市面上最大的 Com puter Use 的数据集 也许他们自己就能编制一个更好的这种评测指标了说到这个挺有意思的这个也是 和机械人挺不一样的地方你看 Open AI 推了这样一个新功能那就会有人来 用当然这个数据能不能直接用来做训练就我不知道然后在机械人在物理世界里它 就不是这个逻辑因为你得造一个机械人然后你才能放到一个地方它才会有真实的 数据而且就算你免费把一个机器人放到一个地方对方也不见得想要这个东西它的 面目就是没有这么通畅成本没有这么低然后另外我觉得就是大家在数字世界里面 放弃自己的隐私这个事情干了这么多年已经干习惯了但是在物理世界要放弃自己 的隐私可能还是有个心理的门槛得适应一下除了我们前面说的两个功能之外在新 的交互上二季度还有一个进展就是 Open AI 在继续发布它的一些多模态的 系列包括 Real Time 这是一个流 逝语音的系列它是一整套 API 然后还有 Im age 2 就是他们纹身图的这个 系列同时我觉得可以稍待讲讲就是 TML 这家公司 Th ink Machine Lab 一家 Le o Lab 他们也是 在二季度发布了自己的首个模型 Inter action Model 它也是 一个这种语音交互类的模型就可以讲讲这 一块了金家吧一个是为什么大家觉得这个 方向还是很重要就比如说语音另外一个就是这些新的成果里面有什么相比之前不 一样或者说有进步的地方我觉得首先语音它并不是一个普通的多模态能力我觉得 语音它是一个人和 AI 交触的基础设施刚才咱们提到第二个主线是 AI 在社会里 面的扩散我觉得就是让人能够在各种场景 随时随地的和 AI 进行交流用上 AI 这个 事情还是非常重要的这是为什么我觉得语音这个事情特别重要然后 Th inking Machine Lab 这个发布我还是非常我个人觉得非常有意思就这个模型 我先给大家介绍一下它叫做 Inter action Model 它是一个 27 6BM1 模型然后有这个 12B 的激活是他们自己从零开始训练的这个模型最有 意思的点就是它是一个能边听边说然后还 能看然后能够看你动作这个及时反应然后 能够打断人的这么一个模型就在以前这个是从来没有过的就像一个采访模型采访 模型边听边说还要打断人对吧还要看对吧你采访也要看对方的反应吗那这个模型 就是万机可以立马用起来然后他不仅可以就做这些事情并且他后台还配了一个异 步的一个推理模型就是说在做这些实时反馈的同时他后面还有一个模型在做长思 考然后可以把这些深度思考再插回这个对话里面但他在网上发了一篇博客然后和 一些 dem o 的录制视频但是目前的话还是没有开放 API 和大规模使用所以 其实没有太多的用户能够用上然后给出真实的反馈但是我觉得这个东西它的意义 在于什么呢就是在之前的话最好的模型在语音方面就是实时交互应该是 LPI 的 GPT Real-Time 但 GPT Real-Time 它其实是一个对讲 机它还是 turn-based 你说完了以后然后你按了以后然后对方说话然后 他按了以后你之所以感觉是 Real-Time 的是它上面包装了一层它上面包 装了一层 VAD 就是 Voice Act ivity Det ection 它会知道就是说你这边大概应该是说完了 然后就该我这边说了但它其实本质上还是 一个轮流说话的对讲机它不可能的这一层并不是在模型层是吗不是在模型层是加 在上面的是在模型 5 为包装的而这个 Th inking Mach ines 的新模型它的交互模式就是从对讲机变成 了真正打电话所以它是一直在听你说什么 并且可以同时说话的所以这个叫做 F ull Du plex 它没有去全量的 开放这个 API 是因为这种新的方式可能 会非常贵吗这个我就不太确定是说它这个 效果还需要打磨还是因为他们觉得现在成本太高自己的 inf rast ructure 没有做好还是因为什么原因了而且它这个东西是不是不好直接变成一个 2C 的产 品就像你说的语音它是交互的一种基础方式对吧它其实是这个生态的一个基础设 施包括我们第一次录节目就是聊这个 A gent ic Inf ra 的创业 机会的时候你是单独把语音列成一层的你就把它列成和推理和 C oding 和 Com puter Use 都是平行的那从这个角度来说它就得加在一个什么 上面它才是一个完整的产品我觉得这其实是个很有可能性的一个推断就他们可能 最终是要推出一个个人助手的一个 2C 的一个产品然后这个模型呢是他这个个人
01:20:00
未分轨讲话者:助手交互的方式 inter face 对所以他现在先把这个模型放出来他可能 最终是想 re lease 那个个人助手我们叠个这都是我们推测的就有可能他 想在自己的产品出来之后他再放在里面再给别人用当然也不排除就说成本各方面 综合的考量还有一个就是能突出他这个架构和以前是完全不一样的就是他自己在 发布这个模型的时候还做了两个 bench mark 一个 bench mark 叫做 time speak 就是按照指定时间精确开口比如说每 4 秒提醒一下我 呼吸然后这个模型就会比如说按准时说话然后另外一个的话就是叫 que ue speak 就是监听用户这个语音谢谢大家现线索就是该你说话的时候你就要说 话所以他们内部做了两个 bench mark 来衡量这个模型在实时语音这方面 的能力是不是够强那么在这两个 bench mark 上面他们和 Open AI 做了一个对比在指定时间精确开口这上面他们是 64.7%然后 Open AI 的这个 real-time 2.0 是 4.3%差这么多差了很多倍这个都是有 点我感觉有点欺负小朋友主要是因为它这 个架构就做不了这个事情所以他们才他们 这个新架构才这么高所以那 4.3%基本上就懵的所以随机的对然后在这个 Q spe ak 上面他们是 81.7%然后 Open AI 是 2.9%它们是 2.9 几乎这个 基线几乎是零了那他们应该测的就是 real time 2.0 那你觉得 real time 2.0 表现如何它也是二季度 open AI 发的一个新的东西就是 real time 这个系列的一个最新的东西我觉得 real time 2. 0 实际使用体验还是不错的但是我这个地方不完全确定我在 Chat GPT 里 面 ad v anced voice mode 现在用到的是不是已经是 real time 2.0 了对我记得好像刚发布的时候后面应该是 Ad v anced Voice Mode 还没有更新成 Real-Time Order ing 我觉得它这个东西不一样它是一个比较成熟的产品因为它 API 也就是到 6 月十 几号的时候它就全量可用了然后很多就是开 发者这个都可以用起来这个是跟 Inter action Model 不一样的地方确实一个我觉得是个还更前沿的尝试吧 然后一个是它已经相对成熟一个系列的新的一代也可以稍微再一手讲讲这个 Im age 2 就继续就纹身图的这一块就是在 S ara 关停之后纹身图我可能现在 看下来再继续我觉得 Im age 2 的效果是非常好的然后它在 Im age Are na 上面应该是断层式的领先就是应该是一楼 sc ore 应该是 15 00 多分然后比第二名可能高了就是 200 分然后它在视觉生产力的各个方面都 非常强比如说我们应该可以看到社交媒体上有大量的用 Im age 2 来生成 电影海报或者的那些就生成的效果非常非 常的好所以能够实际的就是我觉得在一些 有经济价值的任务里面是比上一代文生图的模型要强很多所以它和 SARS 的区 别就是它没有那么花钱以及它比较能算过来回报我觉得历史上我们能看到的就是 说像 N ano Banana 还有这种文生图它们其实对于 2C 产品其实还是 有很大的帮助的当时 Go ogle Na No B an ana 发布的时候 它们的 G em ini 的下载量有大幅的上升并且还有一些 start up 他们自己想要把自己的流量做上去就是通过免费提供 Na No B an ana 给用户使用来吸引用户所以这样的功能其实对于 2C 产品的增长还是很有帮助的 OK 那我们在聊完前面的推进智能前沿和现在已经有的智能怎么更好的扩散之后 我觉得最后可以补充来聊一聊一些在前面 的话题里没有提到的重点公司的进展首先 我觉得就是 M eta M eta 在这一季度其实还是有一个挺壮的变化就 T BD 他们的核心爱部门是放出了重组之后的第一炮也就是 M use Sp ark 这个模型这是 4 月初发的行业理事怎么讨论这件事情呢這個模型反向如何海里的 讨论就是讨论不多就是这个模型应该是接近前沿能力但应该是还是处于一个追赶 的态势还没有达到真正达到就是前沿而且能用的人也比较少对吧因为他没有完全 开放 API 对我身边没有听说有人就是用过 M ule Sp ark 那有可能 这个季度围绕 M eta 更大的新闻依然 是裁员是我们上次讨论的就是他当时不是 说要计划裁员吗现在是开始裁员了我觉得小扎的计划就是持续的裁员然后把这些 裁员用的钱来进一步投到 AI 的开发上面但只不过现在可能内部比较动荡所以受 到了一些内部的阻力我们在最开始回顾上一季度和这一季度的变化的时候你也提 到有一个事儿是没有在这一季度延续的就是我们之前讨论 M eta 的 T oken 消耗的竞赛然后更广泛的来说其实是当时在一系统的时候有一种 t oken max ing 的风潮就很多公司都争先恐后的希望自己的员工能更多的去用 AI 你怎么 看这个风潮好像比较快的就趋于平息和平 稳我觉得所有的这些技术趋势都应该 fo llow 一个三步曲先是 f ren zy 狂热然后下一步可能就是 cr ash 就是崩盘最后的话是 st abil ization 就是稳定我觉得 t oken max ing 基本上也是这三个阶段我觉得可能 Q1 的话就是一个狂热的阶段 那么这个狂热的阶段就是大家会看到就是钱花了上亿美元对吧但是最后并没有太 多的产出那么接下来就可能会进入现在第二个阶段但我相信接下来马上可能就会 进入第三个阶段他们内部之前会有一个 L ead er board 就是看谁 的 T oken 用的最多现在这个 L ead er board 也已经被取缔 了所以然后给每个人也加上了使用 T oken 的 Qu ota 就是有一个上限 所以这个事情应该就相当于是进入新的阶段 这边大公司的人均限额一般是多少我觉得 M eta 限额应该是一个比较高的我们之前听说 U ber 在四个月就用完了 它全年的 c oding 的 bud get 它应该是大概是每个工程师每个月平 均是 500 到 2000 美元的限额 500 到 2000 美元国内差不多也是这个量 级国内我知道有一些公司是 5000 人民币 700 美元就在你刚刚说的 U ber 的这个范围里面当然就是 2000 美元就是属于还比较高了他们还有一个有意思 的说是我们前面聊到过的这 MCI 就有点类似于 O p ening IT 的那个 新功能 Rec ord and Re play 只不过在 M eta 他们是强 制所有员工都要去做的然后后面又出现了比较大的安全问题数据泄漏的问题又叫 停了所以强制和自动开启的区别还是挺大的自愿开启对 Open AI 来说就是 我给了你一个新的服务你可以用你也可以不用然后买卡是要所有的在美国的员工 都要在电脑上去安装一个追踪软件然后去看你是怎么移动鼠药你怎么点击你怎么 键盘输入但这样也有一个好处因为刚才我们在讨论 Open AI 的新功能的时候 就在说数据能否被用来去训练更好的 Com puter Use 模型其实是不知道 的大概率是不能直接用的我觉得在 M eta 的算盘里它肯定是拿来直接用的它 和员工之间就没有这种问题毕竟是自己的数据但是如意算盘就没敲响反正现在被 叫停了然后我们来聊聊 Go ogle 和业余不是独立公司的 XAI 在二季度的 一些情况 Go ogle 在这次的 IO 大会发布了他们的新模型 G em ini Om ni 就是对于视频的剪辑能力应该还是让大家非常惊艳的那看起来还是多 模态上的进展对主要 Go ogle 的话就是这个季度可能还是多模态的进展比 较多但是内部的话他们应该也充分的意识到了就是代码能力对于未来不管是营收 还是未来竞争的重要性所以他们也在加码 代码这方面然后 XAI 这个季度有巨大的 变化就是我刚才提到的他们已经不是一个独立的公司了 XAI 的话现在是有一个 从 Ne o Lab 到 Ne o Cloud 的一个转变当然在自己放弃这个 T rain 模型以后他们賺錢就賺得非常多了他們集群租出去以後現在每個月的租 金是 1.25 b illion 美金就是 12.5 億美金的收入然後伊朗現在 要去太空裡面去建太空算力中心相當於 Space X 我覺得應該是朝算力的方 向走所以有件事他至少做对了就是建特别大的算力这是一个从现在这个时间点你 倒回到过去三年去看一个很聪明的投资然后另一方面你刚才说他放弃了训练模型 这件事已经板上钉钉了吗他对外肯定就是不是说他要放弃这个模型但他目前的话 实质上他没有这个训练模型之前的人才团队了你觉得他收购 C urs or 之 后能多大程度的去改变这件事情我觉得 C urs or 的团队可能并不能完全 填充他之前的那个窟窿 C urs or 团队应该有一些人是做过模型的至少做 过后训练对吧至少他们做过后训练但我觉得 C urs or 可能比如说没有预 训练的人才所以我们还会看到 G rok 模型吗我觉得可能会去至少会需要一段 时间其实 5 月的时候 5 月底的时候马斯克自己在 S 上说说 G rok V9 已经 完成了预训练说两到三周之后要公布当然到现在还没有发布我觉得 E lon is always right ex cept the timing 你周围的人 有人收到 SAI 的 off er 吗不重新团队的好像没听说没听说所以也没有听 说他们我听说的都是离开 SAI 去别的地方找工作的就也没听说他们在补充人才 是吗没有这种他们招的人但听说招的人是做那些什么 h arness 那些的就是 并不是吹模型的就做 ag ent 的 h arness 那些东西的你觉得马斯克 还有可能再追上吗他还有可能再抓住模型的这个机会吗其实当年 Open AI 他是最早的支持者和创始团队之一如果代入下马斯克我觉得他做这个机会应该还 挺老火的你觉得他还有可能赶上吗我觉得比较难你觉得比较难我觉得比较难对但 他如果要是就 ne ver bet against 伊朗对吧他如果真的想做 的话我觉得说明他还有希望对因为他这里面有一个更大的问题就是
01:30:00
未分轨讲话者:其实到 25 年还是有一些新的团队在出现就考虑做预训练的其实国内也有比如说 像米哈游他们也说要用 1000 亿来做这件事情当然米哈游的蔡浩宇之前其实他 更早的时候就组了一个公司在做 AI 游戏这个公司存在比较早了但是他想去做预 训练这件事情可能是更晚才发生的就他也 类似于现在这种要重建低基的状态就我想 知道有比较大的资源有这种抱负的团队还有没有可能在现在这个时间点谢谢大家 事情在 23 年 24 年可能就已经结束了我觉得已经结束了除非说之后技术又会有 比较大的变化有一个大的瓶颈期然后再有大的变化有可能但是那样的话就是说应 该也是要去解决新的瓶颈而不是把原来老路再走一遍那样的话可能又会有更新的 公司有更新的组织出现那你觉得 Go ogle 和 M eta 还有可能赶上来吗 就他们和 XAI 的情况又不太一样它没有完全散掉我觉得 Go ogle 和 M eta 是有机会赶上来的 Go ogle 的可能性会更大一些一方面现在确实大家觉得 Go ogle 是落后了相比于去年三季度 Go ogle is back 的 强势回归的状态我觉得去年年底的时候 G em ini 3 然后发布的时候 Go ogle 有短暂的就是有那种重回第一的 感觉短暂的重回第一对然后现在到今年的 话肯定就是是落后于 Open H and T ropic 它当时短暂的重回 第一是不是也和多摩泰本身带来的传播比 较多有关我们之前也讨论过这个问题有一 期节目里面我觉得一方面是它多摩泰能力确实做得不错另外一方面是当时它应该 是同时发布了 G em ini 3 和 Ant i G rav ity 就是他们 W ings urf 收购了以后做的新的 ag ent IDEG em ini 3 当时的 12 月底的时候它们当时的 c oding 能力和 An throp ic Open AI 还没有差那么多但是今年的话就是 An throp ic Open AI 在 c oding 这边有长足的进步而 G em ini 那边并没有太大的 进步并且还有一个 Go ogle 非常擅长的是他们的 cost 做得非常低之前 的话如果我们看 P aret to Front ier 那张图纵轴横轴分别 是 cost 和模型能力基本上在 P aret to Front ier 给定 一个模型能力然后 cost 最便宜的基本上都是 Go ogle 的模型然后到今 年的话好像这个优势好像也不在了就是这个新的 G em ini 3.5 Flash 好像比之前贵了好几倍所以在 P ri vate Front ier 上面 Go ogle 也不是就是一都是在领先的状态所以就几方面的因素加一起我觉得现在 Go ogle 肯定是大家会觉得会落后一些但我觉得就是然后再加上最近 Go ogle 的这个 No am Ch az ir 也离开 Go ogle 然后加入 了这个 Open AI 他是 Trans form er 的八位作者之一所以我觉得 大家可能会比较担心 Go ogle 的状况但我觉得 Go ogle 还是有一个 很好的底子在那里的这个底子是来自于这个底子我觉得关于几方面一个是他们研 究人才的储备除了 No am Ch az ir 还有很多很好的研究员另外的话 他们的算力基础也在然后我觉得 TPU 他们有很大的算力上的一些优势你觉得 M eta 也是有可能赶上的原因是什么了其实我这几天和不少人交流我觉得大家对 M eta 的整体态度还是比较悲观的我觉得 M eta 最大的风险就是说出现 那个类似于 XCI 的那种团队解散的那种风险之前是育三家然后现在是两大 F ront ier Lab 你觉得再往后未来会只有一个公司持续领先吗我觉得应该不会是 一家公司持续领先的状况因为我觉得举一个例子的话就是 2023 年 GPT-4 刚发布的时候大家都觉得非常惊艳那个时候就是 Open AI 领先其他 Lab 的这个身位应该大于现在最领先的 F ront ier Labs 领先第二名 的身位但是这么大的这个优势 Open AI 也后来被追上了所以我觉得应该是 一个交替领先的一个态势除非是这个有某一个 lab 提前把比如说达到在 RSI 上面有一些进展然后使得他们的加速度大幅超过其他的 lab 那我觉得可能会出 现就是有一加多大的情况你刚刚讲前面那一半的时候我也是想到了 RSI 就如果 你说你真的实现低规自行化的话那你可能加速度会变快但同时也有可能两家公司 差不多时间实现也有可能这个也是我们之后会持续关注的话题那最后来一点轻松 的话题就是之前你跟我讲到就是这个季度在硅谷有一家可能之前已经不是风口浪 尖的公司也发生了很有意思的变化就是 M eter J er ling 之前 我们有聊到过就是它其实还是一直比较赚 钱的只不过它不在大家讨论的前沿你可以 讲讲二级度它做了些什么事 Me et Journey 这家公司大家都比较熟 悉但可能就是最近一段时间没有出现在大家的视野里面他们是做最早可能做文生 图比较有影响力的公司那么六月中的时候 Me et Journey 突然宣布 他们这个新的产品和部门就是 Me et Journey Medical 他们 首个新的硬件产品叫做 Me et Journey Sc anner 就是号 称是这个 50 年来第一个全新的全身医学 影像方法 50 年来第一个 50 年来的一个 然后他们的工作原理就是人站在一个潜水池的平台上面然后周围环绕着大概 40 万个超声波的幻能器然后声波就会从全方位的穿过你的身体然后每秒会生成 TB 这个级别的数据然后他们会有他们的计算集群然后重建你的肌肉脂肪骨骼器官的 3D 横线面图像他们管这个方法叫做 U lt r asonic CT 就是一个 CT 的超级升级版超声波 CT 对超声波 CT 怎么突然搞这个就一般人看到这件事情 都会觉得跟他之前的主业好像八根子打不着 Me J our ney 的这个 founder David 他实际上是一个非常有想象力的一个人 Me J our ney 这个 公司他从来不向 VC 融钱因为 David 不想受到就是投资人的控制他希望能够 完全以自己的意愿来 run 这个公司所以他利用这个 Me J our ney 在文生图方面的这个收入然后养了一个大概 50 人的一个团队做各种硬件项目应 该已经做了超过一年多的时间然后他现在 可能同时做八个项目可能一半是硬件然后 一半是软件然后短期的话可能想把两个硬件产品推向市场那么我们看到的这个 M id ger ly Medical 可能是其中的一个所以他另一个硬件或者 说他其他的硬件都还不一定是跟健康医疗 相关的可能什么各种方向都有可能对就是 很天马行空的非常天马行空 David H olt z 这个人就 M id ger ly 的创始人他以前是什么背景的呀 David 之前的话他最早是在 NASA 工作 过然后做过激光雷达相关的工作然后后来的话他自己创办了一家公司叫做 Le ap Motion 是做手势识别的然后后面的 话是被他竞争队手购了所以他其实有很多 丰富的硬件的经验然后他后来又成功转行 做这个多模态模型然后也做得非常好然后 他涉猎非常的广在他家里面他经常会办一些各行各业的活动比如说诗歌朗诵或者 说音乐即兴或者说 AI 和人一起创作音乐像这种活动他都办过很多然后有很多的 研究员和旧金山的创业者会去他家参加这些活动所以他是住在城里的他不在硅谷 这边我觉得这还是让我挺意外的一个事就是在硅谷在湾区古岛这种新的智能硬件 它可能都不能算是一个 AI 硬件它里面也 许还没有那么多他们是打不上 AI 的所以 最后的 One More Thing 是关于一家 AI 公司做了一件跟 AI 没有 那么直接相关的事我觉得以此作为二季度的总结挺好的因为我们这个季报当然主 要是聊 AI 的然后科技行业确实很多的话题也是被 AI 占据的但另一方面在 AI 之外也有很多事物然后也有很多新的进展那今天非常感谢 H en ry 再次做 客晚点聊和我们一起来讨论了 2026 年第二季度 AI 领域的一些大事件我们分 两条脉络一个是智能前沿是如何推进的另一个是已经存在的智能是怎么更好地扩 散到全社会被企业被个人使用的那在第一个部分有之前已经非常明显的 c oding 和 ag ent 的竞争那在二季度它也变得更加激烈包括出现了各种发布的波折 还有价格战然后另一个是我们上次有聊到过的 auto research 之后 变得更明确然后也更活的一个趋势就是 RSI 地规自信化第三个是从虚拟世界到 物理世界大家对物理 AI 的探索也在加码 Open AI 官宣了 Rob otics 的题目 An throp ic 也被传闻说要去做机器人相关的探索然后是在智 能扩散的这条线我们讨论了新的交互 An throp ic 和 Open AI 都在二季度推出了一些新的功能我们也讨论了中国的开源模型和美国的企业客户 之间怎么形成了一种生态上的良性合作一起去替代和对抗特别特别贵的 F ront ier Live 的模型最后的补充部分我们聊了前面的框架里可能没有特别多 涉及到的 Go ogle XAI 还有 M eta 的一些进况以及特别有意思的 Me et J oly 这家公司的新的尝试今天节目就到这里各位拜拜谢谢本 期节目就到这里,感谢收听。 如果你对今天聊的话题有观察、好奇或疑问,欢迎在评论区分享想法, 这也会成为我们节目的一部分,让整个讨论更完整。 你也可以把我们的节目分享给对这个话题感兴趣的朋友, 推荐更多你想听的主题和嘉宾。 你可以从小宇宙、苹果 Pod cast 等渠道关注晚点聊 L ate Talk, 也欢迎关注我们的公众号晚点 L ate Post。 下期再见。
References
More from this channel
Related content
- Sign in to comment.
