最近,Hyperbolic 的联合创始人兼 CTO Yuchen Jin 在社交平台 X 上曝光了一个令人瞩目的故事:研究员 Keller Jordan 仅凭一篇博客文章成功加入 OpenAI,且很可能正在利用博客中提到的神经网络优化器 Muon 训练最新的 GPT-5。

Keller Jordan 的这篇博客题为《Muon:神经网络隐藏层的优化器》,发布于2024年12月,迅速引起了业界的关注。在这篇文章中,他详细介绍了 Muon 的设计理念和实际成果,强调了该优化器在提高训练速度方面的巨大潜力。Jordan 通过实验证明,使用 Muon 能够将 CIFAR-10任务的训练时间缩短至原来的79%,而在 NanoGPT 的快速运行中,训练速度也得到了显著提升。

images.png

Muon 的核心在于它的独特设计:它通过牛顿 - 舒尔茨迭代法(Newton-Schulz)来优化神经网络隐藏层的参数,这一方法在实践中表现出了优异的性能。Jordan 还指出,Muon 能够在使用现代 GPU 进行大规模训练时保持高效,其运行成本低于1%。此外,他对优化过程中的参数设置和效果进行了深度分析,提出了许多有价值的见解。

在博客中,Jordan 还批判了当前优化研究领域的一些问题,认为很多新提出的优化器在实际应用中未能有效超越已有的标准,如 AdamW。他呼吁研究界关注基线调整,强调优化算法的实际应用效果。

这一创新性的优化器不仅让 Keller Jordan 成功踏入 OpenAI 的门槛,也很可能成为 GPT-5的重要组成部分。随着 AI 技术的不断发展,Muon 的出现标志着研究人员在提升神经网络训练效率方面迈出了重要一步,或许会引领未来更多的技术变革。