概念

失败的节奏(Cadence of Failure)

概念解析

定义与起源

"失败的节奏"是马斯克——尤其是 SpaceX——最核心的工程文化之一:与其花很长时间去慢慢避免失败,不如用高频率的测试去快速暴露问题,让每一次失败都推动一次学习。这种做法的反面是传统航天的"不能失败"哲学——花几年做纸面分析、花上亿美元让第一次发射就必须成功。

马斯克在 2017 SpaceX IAC - Starship 更新 里对 Falcon 1 早期失败的追忆是这种哲学的一次完美陈述:

"我们一开始只有几个不知道怎么造火箭的人。我之所以当上总工程师和总设计师,并不是因为我想——是因为我雇不到人。没有好手肯来。所以我就默认当了总工。然后我搞砸了前三次发射。前三次都失败了。幸运的是第四次发射成功了——那是我们 Falcon 1 项目最后的钱。如果第四次再失败,SpaceX 就完了。但那天命运眷顾了我们。"

核心要义

1) 快速失败是学习速度的上限

在传统航天里,一次发射失败意味着几年的调查和损失。在 SpaceX 里,失败被纳入计划里:Starship 原型机 SN8–SN11 每一次都爆炸,但每一次都让问题暴露出来。马斯克在 2021-12 Lex Fridman 252 - SpaceX Mars 里形容第一次用发射塔"筷子"接回助推器:

"我们不在助推器和飞船上装着陆腿,而是要用塔臂直接接住它们,为的是省下着陆腿的重量。……这第一次肯定不会成功。这是发疯级别的事情(bananas stuff)。"

注意这里的关键——"第一次肯定不会成功"不是悲观,是计划的一部分

2) 它是 物理学思维 的时间维度

物理上已经算得通的东西,剩下的工程问题有限。把时间维度加进来:你要学得比工程问题暴露的速度更快。这就需要频繁把东西炸掉。

3) "降落时屁股夹紧的程度要最小化"

"我们已经连续 16 次成功着陆——而且没有冗余。Falcon 9 用单引擎降落……BFR 将始终具有多引擎容错能力:能在两个引擎中任一个失效时成功着陆。……你基本上可以把降落当成必然事件——降落时屁股夹紧的程度要最小化(minimum pucker factor)。"
——2017 SpaceX IAC - Starship 更新

这句话抓住了关键:高频率成功才是真正的工程目标。你炸得多,最终为的是让每一次都变得boring。

4) Autopilot 上的同构

2019-04 Lex Fridman 49 - Tesla Autopilot 里,马斯克把这种失败节奏应用到自动驾驶数据闭环:

"理解这件事的方式是——把所有输入都视为错误(all input is error)。如果用户不得不介入做了什么操作,那就是一个错误。"

每一次人工介入 = 一次"失败" = 一条训练数据。Tesla 的车队规模让它可以把"失败的节奏"量化到每天几百万次介入事件。

实践应用

常见误区

马斯克原话精选

"然后我搞砸了前三次发射。前三次都失败了。幸运的是第四次发射成功了——那是我们 Falcon 1 项目最后的钱。" ——2017 SpaceX IAC - Starship 更新

"这第一次肯定不会成功。这是发疯级别的事情。" ——2021-12 Lex Fridman 252 - SpaceX Mars(关于发射塔"筷子")

"Fuck that. We're going to get it done." ——2021-12 Lex Fridman 252 - SpaceX Mars

"把所有输入都视为错误。" ——2019-04 Lex Fridman 49 - Tesla Autopilot

"不要自满地以为文明会永远向上。" ——2021 Sandy Munro 工厂走访

相关概念

典型案例