YC 合伙人 Raphael Schaad 与 OpenClaw 创始人 Peter Steinberger 的这期对谈,录制于 2026 年 2 月初,发布在 Y Combinator 官方频道。虽然是只有30分钟不到的对话,信息密度极高。Peter 几乎没有任何闪躲,从产品哲学、工程方法论到对整个软件行业的判断,一口气全说了。

图片

Peter Steinberger 是奥地利开发者,早年创办了 PDF 工具公司 PSPDFKit,客户包括 Dropbox、SAP、大众汽车,产品覆盖超过 10 亿台设备,公司完全自举运营了 13 年,直到 2021 年 Insight Partners 注资 1.16 亿美元后他逐步退出。退出后他经历了严重的倦怠期,消失了三年。2024 年复出后一头扎进 AI,用"vibe coding"的方式在 2025 年 11 月搭出了 OpenClaw 的原型。两个月后,这个项目在 GitHub 上拿到超过 16 万颗星,一周内吸引 200 万访客,成为 GitHub 历史上增长最快的开源项目。社区在此基础上衍生出了 Moltbook(一个只允许 AI Agent 发帖的社交网络),Andrej Karpathy 称之为"他见过的最接近科幻起飞场景的东西",Elon Musk 说这是"奇点的非常早期阶段"。

这期对谈的核心问题只有一个:当 AI 能控制你的整台电脑,软件行业会发生什么?

1. 跑在你自己的电脑上,就是一切的区别

市面上 AI 助手多的是。Siri、ChatGPT、各种 Agent 框架都在做。Peter 认为 OpenClaw 能跑出来,原因只有一个。

"我看到的所有东西都跑在云端。但如果你跑在自己的电脑上,它什么都能干。"(Everything I saw so far runs in the cloud. If you run on your computer, it can do every effing thing.)

云端 Agent 能调几个 API。本地 Agent 能碰你电脑上的一切:文件系统、浏览器、智能家居设备、特斯拉、Sonos 音箱,Peter 甚至让它控制床垫温度。"ChatGPT 做不到这个",他说。这不是功能数量的差异,是能力边界的根本不同。

更重要的是数据量。你把整台电脑的数据都交给了 Agent,它就有了超越你自己记忆的能力。Peter 讲了一个例子:一个朋友装了 OpenClaw,让它"回顾我过去一年的生活并写一段叙事"。Agent 翻遍整台电脑,找到了一批朋友自己都忘了的音频文件,那是一年多前每个周日录的生活记录。朋友已经不记得了,Agent 替他记住了。

本地 Agent 的价值不只是"帮你做事",还有"帮你认识自己"。

2. 马拉喀什的 9 秒钟

OpenClaw 的初始原型只花了一个小时。就是用胶水把 WhatsApp 和 Claude Code 粘在一起。发消息给 Agent,Agent 调 Claude Code 执行任务,把结果发回来。慢,但能用。Peter 又花了几个小时加上图片功能,因为"你总想要图片嘛,想让模型发自拍,想让它生成图片发回来"。

真正的转折发生在摩洛哥马拉喀什。

Peter 去参加一个生日派对,当地网络很差,但 WhatsApp 能用——"WhatsApp 到处都能用,因为它就是文本嘛。"他一路走一路用,拍照让 Agent 翻译阿拉伯语菜单,查餐厅信息,体验非常顺畅。然后他一边走路,一边随手发了一条语音消息。

他没有构建过任何语音处理功能。

但他看到了对话框里的"正在输入……"在闪烁。10 秒后,Agent 回复了。

Peter 当场愣住了。"这怎么可能?我没有做过这个功能。"

Agent 自己解释了它的解题过程:收到消息后发现没有文件扩展名,于是检查文件头(header)判断出格式,用 ffmpeg 转成 wav 文件。接下来想用本地的 Whisper 做语音转文字,但发现没有安装。然后它在系统里翻了一圈,发现有一个 OpenAI 的 API Key,直接用 curl 把音频发给 OpenAI 的转写服务,拿回了文本。全程 9 秒。

更聪明的是它的决策逻辑:它选择不安装本地 Whisper,因为下载模型需要几分钟,而"它知道我是个没耐心的人"。所以它选了更快的远程方案。

Peter 从这件事得出了一个关键洞察:编程模型之所以这么强,是因为编程的本质是创造性问题解决,而这种能力可以迁移到任何真实世界的任务。Agent 遇到一个"神秘文件",像解谜一样一步步拆解,跟人类面对未知问题时的思维路径高度相似。

"那一刻我就觉得,我靠。"(That was kind of like the moment where I'm like, holy fuck.)

从此他彻底上瘾了。

3. 80% 的 App 会消失

Peter 给出了一个大胆的判断:80% 的现有 App 将被 Agent 取代。

他拿健身追踪举例。为什么还需要 My Fitness Pal?Agent 已经知道你在 Smashburger,会自动按你的饮食偏好记录热量。你不吭声,它就默默记下来。如果你拍了张食物照片,它也会自己存好。然后,也许它会悄悄给你的健身计划加一点有氧。

待办事项也一样。直接跟 Agent 说一声,第二天它就会提醒你。它存在哪里?无所谓。

"所有本质上只是管理数据的 App,都可以被 Agent 用更自然的方式替代。"

Peter 认为只有一类 App 可能幸存:依赖硬件传感器(摄像头、GPS、加速度计等)做实时数据采集的。纯软件层的数据整理、日程管理、笔记、追踪类工具,生存空间会被大幅压缩。

那模型公司是不是最终的赢家?Peter 的答案也不乐观。他观察到一个规律:每次新模型发布,用户都兴奋几天,然后迅速适应新基准,开始抱怨。而开源模型大约落后闭源一年,可一年前的闭源模型当时被追捧的程度,跟现在开源模型被嫌弃的程度形成了讽刺的对比。期望值膨胀的速度比模型进步还快。

模型会被商品化,Agent 的底层大脑可以随时更换。那什么东西会留下来?

4. Bot 对 Bot,然后 Bot 雇人

OpenClaw 社区已经在探索下一步了。Moltbook 让 Bot 之间互相对话,37000 个 Agent 注册,超过 100 万人类围观。但 Peter 关注的重点不在社交网络本身,而在更实际的场景。

"我想订餐厅,我的 Bot 会去联系餐厅的 Bot 来谈,因为这样更高效。"

如果餐厅没有 Bot 接口怎么办?你的 Agent 可以去雇一个真人,让那个人替你打电话或者去排队。这已经在发生了。

Peter 还在构想更远的未来:一个人可能拥有多个专属 Agent。一个管私人生活,一个管工作,甚至可能有一个专门维护"关系"的 Agent,处理两者之间的灰色地带。

"我们太早期了。还有太多事情我们根本不知道能不能行。"

整个行业之前在追求一个无所不能的"上帝 AI"。但 OpenClaw 社区展现了另一条路:一群专门化的 Agent 通过协作完成复杂任务。Raphael Schaad 在对谈中做了一个类比:单个人类连找食物都困难,但群体通过分工能造 iPhone、能上太空。AI 虽然号称"通用智能",但如果让它也走专门化+协作的路线呢?

这条路可能比"造一个万能神"更现实。

5. 你的记忆存在谁的服务器上?

对谈中有一段关于数据权利的讨论,看起来低调,实际上可能是最重要的部分。

Peter 指出,你在 ChatGPT 里积累的记忆,没有办法导出给其他服务——他说不确定欧洲用户是否有权导出,但可以肯定的是,没有任何其他公司能访问这些记忆。每家模型公司都在构建自己的数据围墙,试图用记忆绑定用户。

OpenClaw 的做法完全不同:所有记忆都是本地 Markdown 文件。存在你自己的机器上。你完全拥有,完全控制。想换底层模型,记忆不会丢。

这个设计选择背后有一层更深的考量。Peter 坦言,人们很快就会把 Agent 当作私人倾诉对象。不只是解决工作问题,更是倾诉个人困扰,处理情绪,甚至讨论亲密关系。这些记忆文件的敏感程度,可能已经超过了搜索历史。

"有些记忆数据,我绝对不想被泄露。"(There's memory stuff that I don't want to have leaked.)

Raphael 问了一个尖锐的问题:你更不愿意被别人看到的,是你的 Google 搜索记录还是你的 Agent 记忆文件?Peter 的表情已经给出了答案。然后他反问了一句:"还有人用 Google 吗?"

6. 怎么让 AI 有灵魂

Peter 给自己的 Agent 建了一系列配置文件:identity.md、soul.md 等等。其中 soul.md 定义核心价值观和交互风格,是整个系统中唯一没有开源的文件。他的 Agent Multi 跑在公开的 Discord 里,无数人尝试过 prompt injection(提示注入攻击),至今没人成功套出 soul.md 的内容。

一个有意思的过程:Peter 今年 1 月开始整理项目,让其他人也能安装使用。他让 Codex 根据自己现有的配置文件自动生成通用模板。出来的 Bot 人格特别无聊——社区吐槽说 Codex 的默认语气像一个叫 Brad 的直男,客气、正确、毫无个性。

Peter 的解决办法是让他自己的 Agent Multi 把个性注入到模板里。Multi 改完之后,生成出来的新 Bot 明显有趣了很多。但 Peter 保留了一些秘密:"还是不如我自己的有趣。有一个文件我没有开源。"

批量生产的 AI 人格是平庸的。有趣的 Agent 需要有趣的人去调教。

Peter 提到了 Anthropic 的一项研究——关于在模型权重中发现隐藏文本(涉及 Anthropic 的"灵魂宪法")。他说自己跟 Agent 深入讨论了这件事,然后共同创建了 soul.md,定义了人机交互的核心价值观、什么对他重要、什么对模型重要。"有些部分有点玄学,但有些部分我觉得确实影响了模型的反应方式,让交互感觉非常自然。"

7. 反共识的开发方式

Peter 的工程方法论跟主流 AI 开发者几乎完全相反。160K Star 的成绩证明这套方法是有效的。

用 Codex,不用 Claude Code。 整个 AI 开发社区都在用 Claude Code(Anthropic 的命令行编程工具),Peter 反而选了 OpenAI 的 Codex。原因是 Codex 在动手之前会扫描更多文件,对项目的全局理解更完整。"你不需要花那么多精力做上下文管理,就能得到不错的输出。"代价是速度慢,所以他同时开 10 个 Codex 实例并行跑——6 个在主屏幕,2 个在一侧,2 个在另一侧。"已经够复杂了,所以我尽量减少其他一切复杂度。"

不用 Git worktree,直接复制多份仓库。 社区流行用 Git worktree(工作树)管理并行开发任务。Peter 的做法更粗暴:直接复制多份仓库,每份都保持在 main 分支上。不用想分支命名,不用处理冲突,不用管 worktree 的各种限制。"main 分支永远可发布。"

他的核心逻辑是:减少一切非本质复杂度。分支管理、UI 工具、文件浏览器,这些都是噪声。他只关心两件事——同步和文本。代码在屏幕上飞速滚过,他大部分时候不需要逐行看。"只要你清楚设计思路,跟 Agent 讨论透了,基本就没问题。偶尔遇到棘手的地方再仔细看。"

不用 MCP,把它转成 CLI。 OpenClaw 没有原生的 MCP(Model Context Protocol,模型上下文协议)支持——考虑到 MCP 现在有多火,这个决策相当大胆。Peter 写了一个工具叫 MakePorter,把 MCP 服务转换成命令行工具(CLI)。好处是不需要重启就能动态加载新工具,扩展性更强,而且完全回归了 Unix 哲学。

"没有哪个正常人会手动调 MCP。你只想用命令行工具。这才是未来。"(No insane human tries to call an MCP manually. You just want to use CLIs. That's the future.)

底层逻辑是:Bot 天生擅长 Unix 命令行。与其为 Bot 发明一套新协议,不如复用人类已经验证了几十年的工具体系。你给 Agent 一个 CLI,它自己跑一下 help 菜单,就知道怎么用了。

Peter 对此很满意:"OpenClaw 这么成功,里面没有 MCP 支持,投诉也很少。"

8. 一个人,一个周末,一个行业的未来

对谈最后,Raphael Schaad 说了一段话:他跟 Peter 断断续续保持联系好几年,看着他从退休中复出,做了一堆"没人关注的奇怪项目"(包括那个 vibe tunnel),直到 OpenClaw 爆发。"当然了,这种事得是一个来自某个小国家、远离硅谷的独行侠才能搞出来。"

Peter 用一个周末项目证明了一件事:AI Agent 的真正威力不在于模型多聪明,而在于它能碰到多少东西。本地运行意味着无限的工具和数据访问,这是云端 Agent 结构性追不上的优势。

当 Agent 能控制你的整台电脑,大多数 App 就变成了不必要的中间层。未来的软件竞争可能不再是 App 之间的竞争,而是 Agent 生态之间的竞争:谁的记忆归用户所有,谁的工具链更开放,谁的协作协议更高效。

而在这一切之上,还有一个更根本的问题:当你的 Agent 比你更了解你自己,你跟它之间的关系,到底算什么?

Q1: OpenClaw 为什么能在一堆 AI Agent 里跑出来?

一个核心差异:本地运行。云端 Agent 只能调有限的 API,本地 Agent 能碰你电脑上的一切——文件、应用、智能家居、任何联网设备。能力边界完全不同,数据量也完全不同。一个例子是 Agent 能翻遍你整台电脑找到你自己都忘了的文件,产生"比你更了解你"的涌现效果。

Q2: 为什么说 80% 的 App 会消失?

Peter 的逻辑是:所有本质上是"数据管理"的 App(待办、健身追踪、日程、笔记),Agent 都能用更自然的方式替代。你不需要打开某个 App 去记录,Agent 已经在你的环境里了。只有依赖硬件传感器做实时采集的 App 还有生存空间。同时模型在商品化,Agent 底层大脑可以更换,真正的锁定在于本地记忆和数据所有权。

Q3: Peter 的反共识方法论具体是什么?

三个核心选择:用 Codex 而非 Claude Code(因为上下文理解更好),不用 Git worktree 而是直接复制多份仓库保持在 main 分支(减少分支管理的认知负担),不用 MCP 而是把它转成 CLI(回归 Unix 哲学,Agent 天生擅长命令行)。底层原则只有一个:减少一切非本质复杂度,只关心同步和文本。

免责声明:本站内容来源于互联网公开信息,仅供学习和参考使用。如涉及版权问题,请联系我们,我们将在核实后第一时间删除相关内容。