新闻动态
欧洲杯体育移植到了 Muon 当中-开云集团「中国」Kaiyun·官方网站
算力需求比 AdamW 直降 48%,OpenAI 时期东说念主员建议的西席优化算法 Muon,被月之暗面团队又鼓励了一步!
团队发现了 Muon 身手的 Scaling Law,作念出更始并证明注解了 Muon 对更大的模子相同适用。
在参数目最高 1.5B 的不同 Llama 架构模子上,更始后的 Muon 算力需求仅为 AdamW 的 52%。
同期团队还基于 DeepSeek 架构西席出了一个 16B 的 MoE 模子,与更始后的优化算法一同开源。
Muon 时期博客发布那时主要适用于较小的模子和数据集,作家留住了三个悬而未决的问题:
Muon 能否用于更大限度的西席?
Muon 能否在更大限度的 GPU 集群上使用?
Muon 是否相同适用于微谐和强化学习?
咫尺月暗团队用现实给出了修起——沿途都是 Yes。
音讯一出,那时 Muon 的作家也都很振奋,主要作家Keller Jordan默示这是 Muon 限度化的首个获胜请问,为团队奉上了道喜。
另又名孝顺者,那时持重 Muon 限度化现实的 Hyperbolic Labs 联创兼 CTO Yuchen Jin也默示,月暗团队的这项终端,是 Muon 的一次获胜。
将 AdamW 特色引入 Muon
在先容月暗团队的使命之前,先来了解一下 Muon 是个什么样的时期。
这是一种神经荟萃阴事层的 2D 参数优化器,主要作家是 OpenAI 深度学习团队的 Keller Jordan。
这项终端发表于客岁的 12 月 8 日,而 Keller 亦然客岁 12 月加入的 OpenAI。
Muon 的中枢念念想是通过正交化梯度更新矩阵,幸免参数更新堕入局部极小,使模子概况学习到愈加种种化的特征默示。
在 94% 的精度下,Muon 把 CIFAR-10 在 A100 上的西席时期从 3.3 秒诽谤至 2.6 秒。
不外那时 Muon 团队只证明注解了其在微型模子和数据集上的可行性,关于较大的模子能否适用则是个未知数。
咫尺经过月暗团队的更始之后,Muon被证明注解关于更大的模子和数据集相同适用。
针对模子自身,团队继承了 AdamW 中的一些特色,移植到了 Muon 当中,具体包括两个方面。
一是引入了权重衰减机制,在权重更新公式中添加了一个带有衰减统统的项。
这么作念的原因是作家发现径直将 Muon 旁边到大限度西席时,模子权重和层输出的幅度会抓续增长,最终超出 bf16 的高精度默示鸿沟,挫伤模子性能。
在西席一个 8 亿参数模子至 100B tokens(约 5 倍打算预算最优)的经过中,团队对比了 AdamW、无权重衰减的 Muon 和带权重衰减的 Muon。
终端披露,带权重衰减的 Muon 在过拟合阶段获取了最好效果,考据了权重衰减的必要性。
第二项更始,是改换了 Muon 的参数更新范例,使不同阵势矩阵参数的更新幅度保抓一致,并与 AdamW 的更新幅度匹配。
Muon 的一个特色是,关于阵势为 [ A,B ] 的矩阵参数,其表面更新幅度为 sqrt ( 1/max ( A,B ) ) 。
这导致不同阵势矩阵参数的更新幅度互异很大,比如关于 MLP 这种宽矩阵,更新会过小,而将每个 head 看作沉寂矩阵时,更新又会过大。
此外,这个幅度也与 AdamW 不一致,给超参数的设立带来坚苦。
为了让不同矩阵参数的更新幅度匹配,并与 AdamW 保抓一致,作家尝试了几种更始决议,最终禁受径直基于阵势改换每个参数的学习率。
其中 0.2 是通过现实笃定的一个常数,用于将 Muon 的更新范例与 AdamW 对王人。
除了对 Muon 自身的更始,要想将 Muon 用于更大限度的西席,还需要将其膨胀到差异式西席环境中。
由于 Muon 需要完竣的梯度矩阵来打算正交化的更新量,而现存的差异式西席框架(如 ZeRO-1、Megatron-LM 等)都假定优化器情景不错独当场按元素切分到不同拓荒上,是以它们无法径直相沿 Muon。
为了惩办这个问题,论文作家建议了差异式 Muon 的并行化战术。
它在 ZeRO-1 的基础上引入了两个异常的操作 :
一是在每个数据并行组内作念梯度团员通讯,将差异的梯度切片归拢成完竣的矩阵;
二是基于团员后的梯度矩阵并行打算正交化的更新量,然后只保留与腹地参数对应的那一部分。
这种结束样貌在最小化内存占用和通讯支拨的同期,最大甩手地保留了原始 Muon 算法的数学性质。
证明注解 Muon 膨胀可行性
基于上述 Muon 更始 , 作家获取了以下终端,作家在 Llama 架构的一系列闹热模子上,进行了 Muon 和 AdamW 的模子缩放对比现实。
终端标明 , 在打算预算最优的情况下,Muon 的样本效劳是 AdamW 的 1.92 倍,即西席 FLOPS 只需 AdamW 的 52%,就能达到突出的性能。
这一发现证据了 Muon 在大限度西席中的效劳上风。
在此基础之上,作家以 DeepSeek-V3-Small 架构看成基础,用更始的 Muon 西席了Moonlight模子。
Moonlight 是一个 MoE 模子,具有 15.29B 的总参数和 2.24B 激活参数,西席 token 量为 5.7T。
与疏通限度和数据量的模子比拟,Moonlight 在英语斡旋与推理(MMLU、TriviaQA、BBH)、代码生成(HumanEval、MBPP)、数学推理(GSM8K、MATH、CMATH)、华文斡旋(C-Eval、CMMLU)等各种任务上都获取了昭着更好的性能。
即使与使用更大数据集西席的闹热模子比拟,Moonlight 也展现了极强的竞争力。
与多个著明话语模子的对比标明,Moonlight在性能 - 西席预算平面上鼓励了帕累托前沿(Pareto Frontier)。
(注:帕累托前沿是一个经济学和经管学中的倡导,描述的是在多讨论决策问题中扫数可能的最优解的纠合,这些解在多个讨论之间获取了最好均衡。在帕累托前沿上的每一个点,都意味着一个讨论的改善势必以放弃另一个讨论为代价,因此它代表了在多个讨论之间结束的最好衡量。)
为了进一步分析 Muon 更新矩阵参数的内在机制,作家对比了 Muon 和 AdamW 西席得到的模子在不同西席阶段的参数矩阵奇异值谱。
终端发现,Muon 优化的矩阵在各层各种参数上,老是比 AdamW 有更高的奇异值熵。这从劝诫上考据了 Muon 通过正交化来学习更种种化默示的直观。
终末,在 Moonlight 模子的基础上,作家还探索了 Muon 在指导微调阶段的效果,终端标明,在预西席和微调阶段均使用 Muon 的效果是最好的。
时期请问:
https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
Code:
https://github.com/MoonshotAI/Moonlight
Moonlight 模子:
https://huggingface.co/moonshotai/Moonlight-16B-A3B欧洲杯体育