接受高失败率(Embrace Failure Rate)
一句话定义
如果你第一次什么都成功了,说明你逼得不够狠——把失败从"耻辱"变成"学习速率"的单位,用公开、高频、物理的失败(引擎炸、原型爆、电极一半不工作)把问题暴露到阳光下。
核心要义
1) 失败是 Falcon 1 故事的三分之三
马斯克最诚实的一次失败陈述出现在 2017 SpaceX IAC - Starship 更新 里:
"我们一开始只有几个不知道怎么造火箭的人。我之所以当上总工程师和总设计师,并不是因为我想——是因为我雇不到人。没有好手肯来。所以我就默认当了总工。然后我搞砸了前三次发射。前三次都失败了。幸运的是第四次发射成功了——那是我们 Falcon 1 项目最后的钱。如果第四次再失败,SpaceX 就完了。但那天命运眷顾了我们。"
——2017 SpaceX IAC - Starship 更新
注意措辞——"我搞砸了"(I screwed up),主语是第一人称。这不是"项目失败了",是"我失败了"。公开承认失败的能力是这个方法能运行的前提。
2) "这第一次肯定不会成功"是计划的一部分
"我们不在助推器和飞船上装着陆腿,而是要用塔臂直接接住它们……这就像用一个巨大的塔加一对筷子,去接住有史以来最大的飞行物体。这第一次肯定不会成功。这是发疯级别的事情(bananas stuff)。"
——2021-12 Lex Fridman 252 - SpaceX Mars
"第一次肯定不会成功"不是悲观。它是计划里的一行——它告诉你"这一次的 KPI 不是成功率,是学习速率"。
3) Neuralink 第一例:一半电极不工作——还是学习事件
"Neuralink 第一位植入者 Noland 的情况里,只有 10–15% 的电极在正常工作。"
——2024-08 Lex Fridman 438 - Neuralink Team (vault 整理)
在普通医疗公司这会是灾难性的失败。Neuralink 把它作为下一次迭代的训练数据——因为失败被嵌入了产品设计的反馈回路里。Noland 依然能用他的 brain-computer 接口打游戏、移动光标。参见 失败的节奏。
4) 所有输入都视为错误
"理解这件事的方式是——把所有输入都视为错误(all input is error)。如果用户不得不介入做了什么操作,那就是一个错误。"
——2019-04 Lex Fridman 49 - Tesla Autopilot
这是马斯克把"接受失败"变成产品指标的典型操作:每一次 Tesla 车主踩刹车都是一个"失败样本"、一条训练数据。Tesla 的车队规模让它可以把这种"失败的节奏"量化到每天几百万次。
5) 失败必须伴随事后分析
"快速失败"不是"随便失败"。SpaceX 的每一次 RUD(Rapid Unscheduled Disassembly,"非计划性快速解体")都有完整的遥测数据和事后复盘。Musk 的规则是:你可以公开失败,但你不能重复同一个失败。
经典案例
- Falcon 1 前三次失败(2006, 2007, 2008):每次都把 SpaceX 推到破产边缘。第四次成功发射了 Ratsat。
- Starship SN8-SN11 全部爆炸:每一次爆炸都在物理层面快速学习。SN15 最终成功软着陆。参见 2017 SpaceX IAC - Starship 更新。
- Starship IFT-1 在台上炸掉发射台:2023 年首飞,火箭升空几分钟后自毁,发射台被炸出巨坑。马斯克公开庆祝"有数据了"。(公开资料)
- Tesla Autopilot 影子模式:每辆在路上的 Tesla 都在运行"如果我来开,这里会怎么做"的比对,持续给模型喂"失败样本"。
- Neuralink Noland 电极脱落事件:第一例植入后约一半电极出现退丝;Neuralink 公开披露并作为下一版设计的输入。参见 2024-08 Lex Fridman 438 - Neuralink Team。
马斯克原话
"然后我搞砸了前三次发射。前三次都失败了。" ——2017 SpaceX IAC - Starship 更新
"这第一次肯定不会成功。这是发疯级别的事情。" ——2021-12 Lex Fridman 252 - SpaceX Mars
"Fuck that. We're going to get it done." ——2021-12 Lex Fridman 252 - SpaceX Mars
"把所有输入都视为错误。" ——2019-04 Lex Fridman 49 - Tesla Autopilot
"不要自满地以为文明会永远向上。" ——2021 Sandy Munro 工厂走访
你能用上吗?(适用边界)
能用的场景:
- 你在做一个没有既定答案的新东西:新的产品形态、新的技术路线、新的市场——失败率本来就高,不如把它变成信号。
- 你的迭代周期可以在几天内完成:A/B 测试、实验性 feature、prototype——让失败的成本低到你可以每天失败一次。
- 你要招募有韧性的团队:公开承认失败本身就是一种筛选——只有能接受失败的人才会留下来。
不能乱用的场景:
- 载人/医疗/金融系统的生产环境:马斯克自己在 2021-12 Lex Fridman 252 - SpaceX Mars 里说过——Crew Dragon 第一次载人前他"跪下祈祷"。载人任务不是"快速失败"的场景。
- 失败的代价是不可恢复的:删库、暴露用户数据、发出错误的法律邮件——这些不是"学习事件"。
- 你的团队还没学会"公开失败":如果公司文化是"失败要找人负责",那你先要改文化,再谈接受失败率。
给普通团队的可操作版本:
1. 每月一场"失败复盘会":公开讲本月最大的失败和学到的东西。CEO/leader 必须第一个讲。
2. 给每个项目一个"失败预算":明确说"我们允许 N 次失败,目标是每次失败成本 <= X"。
3. 区分"好失败"和"坏失败":好失败 = 拓展了已知边界 + 被记录下来;坏失败 = 重复了已知的错误。只庆祝前者。
4. 用影子模式替代 AB 测试:让新版本跟着旧版本并行运行一段时间,比对差异。这是 Tesla Autopilot 的哲学:在不影响用户的前提下收集"假如这样会怎样"的数据。
5. "第一次肯定不会成功"写进项目 kickoff:这一行定下基调——失败是计划的一部分,成功是奖金。