OpenAI 聘请了 Todd Underwood 来领导一个新的站点可靠性工程团队,专注于研究和培训工作负载。
Underwood说,这家生成式人工智能公司已经有一个SRE团队,负责推理和API产品。
顾名思义,SRE 的任务是构建和维护高度可靠和可扩展的软件系统。这个概念起源于谷歌,但后来传播到整个IT行业。
“在谷歌,我创建了机器学习站点可靠性工程组织,”安德伍德在LinkedIn上说。“我们于 2016 年创立了它。
“重组后,这些团队被拆分,我去从事资本工程工作......最近,我真的很想回到更多的 SRE 工作,但也想更接近 ML 基础设施,尤其是训练基础设施。因此,OpenAI!
Underwood 在谷歌工作了 14 年零 9 个月,是 O'Reilly 著作《可靠的机器学习》的合著者。
在他的帖子中,Underwood补充道:“我现在能够以某种有趣的规模建立一个新的ML训练基础设施团队。
“这是一个需要从头开始参与到模型的基础设施的团队,有机会从事加速器的硬件健康、作业编排和执行、模型动态,当然还要特别关注指标和测量。”
安德伍德上周在首席执行官山姆·奥特曼被解雇的混乱中加入了这家ChatGPT公司,并且是签署一封信的人之一,信中威胁说,如果他不被重新雇用,他将辞职并加入微软。五天后,Altman 回到了 OpenAI。
“我会说,这是一次比我在任何工作中都更有趣的入职培训,”安德伍德说。“完整的故事可能需要一杯饮料和一个轻松的环境。
那一周,OpenAI还聘请了谷歌TPU AI芯片的前负责人来领导一个新的硬件部门。