
亚博体育GPU 的蓄意和功能可能也需要相应颐养-亚博买球app(中国)yabo官方网站-登录入口
新闻动态
几十万东说念主饶恕,一发表即被行业大佬评为"这是很万古刻以来最遑急的论文"。 哈佛、斯坦福、MIT 等团队的一项商讨标明:锻练的 token 越多,需要的精度就越高。 举例,Llama-3 在不同数据量下(圆形 8B、三角形 70B、星星 405B),跟着数据集大小的增多,议论最优的精度也会增多。 换句话便是,关于大鸿沟的锻练任务,低精度的量化可能不再鼓胀有用。 按照论断,对 Scaling Law 的降服意味着咱们需要保捏更高精度,但是一直以来,东说念主们频频会选择量化(将连气儿值或多精度值
详情

几十万东说念主饶恕,一发表即被行业大佬评为"这是很万古刻以来最遑急的论文"。
哈佛、斯坦福、MIT 等团队的一项商讨标明:锻练的 token 越多,需要的精度就越高。
举例,Llama-3 在不同数据量下(圆形 8B、三角形 70B、星星 405B),跟着数据集大小的增多,议论最优的精度也会增多。

换句话便是,关于大鸿沟的锻练任务,低精度的量化可能不再鼓胀有用。
按照论断,对 Scaling Law 的降服意味着咱们需要保捏更高精度,但是一直以来,东说念主们频频会选择量化(将连气儿值或多精度值调节为较低精度)来直爽议论资源。
一朝论断成立,GPU 的蓄意和功能可能也需要相应颐养,因为传统上,GPU 的性能晋升部分依赖于对低精度议论的优化。
正如艾伦 AI 商讨所科学家所指出的:
这是很万古刻以来最遑急的论文。它用强有劲的把柄标明,咱们正在达到量化的极限。论文得出的论断对扫数这个词鸿沟以及 GPU 的往日有着无边的影响。

与此同期,商讨得出了两个遑急论断:
要是量化是在后锻练阶段进行的,那么更多的预锻练数据最终可能反而无益;
在高(BF16)和下一代(FP4)精度下进行预锻练可能都是次优的蓄意选择;
这也引来 OpenAI 职工大赞特赞:
将尽头酷地看到若何 SOTA 量化决策(mxfp,Pw ≠ Pkv ≠ Pa 等)鼓舞前沿;在我看来,将一半的议论预算用于一次大鸿沟启动以查验模子是否适用于大模子是值得的。

冷落"精度感知" Scaling Laws
一上来,商讨就指出,现时膨胀的焦点主要放在了模子鸿沟、数据量上,忽视了对精度的饶恕。
而事实上,跟着模子进一步应用落地,低精度量化正在成为新的范式。
深度学习正朝着更低精度的标的发展。
现时的前沿模子(如 Llama-3 系列)在 BF16 中进行锻练,况且全球都在尽力将预锻练范式转化到 FP8,致使下一代硬件将撑捏 FP4;
因此,商讨念念要搞清:
精度、参数和数据之间的衡量是什么?它们在预锻练和推理方面若何相比?
具体而言,团队商讨了在预锻练和后锻练 ,跟着数据和参数的变化,精度对失掉的影响若何变化。
同期,为了精准测量联系变化,团队挑升冷落了"精度感知(precision-aware)"的 Scaling Laws,以瞻望和优化不同精度下的讲话模子锻练和推理。

先说论断。下图展示了两个主要的执行末端:
在较低精度下锻练模子(举例 INT3 和 INT4)会导致较高的失掉;
在推理时使用较低精度会导致性能下落;
具体而言,左侧图表展示了在不同精度下锻练模子的成果。
其中纵轴示意最终的考证失掉(Val Loss),横轴示意不同的模子鸿沟(Model Size),从 30M 到 220M 参数。不同的时势代表了不同的锻练精度,从 INT3 到 INT6,以及莫得后锻练量化(No PTQ)。
商讨发现,在较低精度下锻练模子(举例 INT3 和 INT4)会导致较高的失掉,而跟着精度的提高,失掉会减少;同期,跟着模子鸿沟的增多,失掉也会减少。
另外,右侧图表展示了在不同精度下进行推理时的模子性能。
其中横轴示意了推理时的权重精度(Final Val Loss)。
末端披露,在推理时使用较低精度(举例 INT3 和 INT4)会导致性能下落,即失掉的增多;而跟着精度的提高,失掉会缓缓减少,接近莫得进行后锻练量化的模子性能。

上述发现也阐述了为什么 Llama-3 难以量化?
要知说念,Llama-3 发布后,它因"超 15T Token 数据上的超大鸿沟预锻练"而著名,不外东说念主们自后发现,Llama-3 低比特量化性能下落权贵。
这可能正如商讨提到的,模子在预锻练阶段看到的数据越多,对量化的明锐性就越高。
与此同期,商讨还发现了:
后锻练量化(PTQ,即锻练完成后对模子进行量化)引起的性能退化跟着模子锻练数据量的增多而增多。
换句话说,在多半数据上锻练的模子,要是在推理时进行低精度的 PTQ,可能会导致性能权贵下落。

接下来,团队冷落期骗"精度感知" Scaling Laws 来瞻望模子在不同精度下的性能,并指出:
在较低精度下进行锻练不错减少模子的"有用参数数目(effective parameter count)",从而瞻望在低精度下锻练和后锻练量化产生的很是失掉。
其中包含两个弱点公式,它们组成了一个结伴的表面框架,用于瞻望不同精度下锻练和推理的性能。
锻练后量化(PTQ)引起的失掉退化瞻望公式:

筹商锻练精度的模子失掉瞻望公式:

结伴预锻练与后锻练的精度瞻望
BTW,商讨最终将后锻练量化和预锻练量化的影响结伴起来,以此竣事:
瞻望在职何精度组合下的预锻练和后锻练失掉
联系公式如下:

同期,为了考证瞻望的准确性,商讨对逾越 465 次预锻练启动的数据进行拟合,并在高达 1.7 亿参数、锻练了高达 260 亿个 token 的模子上进行了考证。
并在经过中冷落了以下几点建议:
需要斟酌精度与性能,在资源有限的情况下,不错筹商使用较低的精度来锻练更大的模子;
需要斟酌精度与参数,在低精度下锻练时,不错筹商增多模子的鸿沟(即参数数目),因为商讨标明这么作念可能是议论上最优的;
需要优化数据量,通过数据增强、选择性数据采样等技艺提高数据使用率,并在预锻练时应幸免使用过多的数据,很是是在模子需要后期量化的情况下。
不外,这项商讨当今也存在一定局限性,比如作家自述使用了一个固定的模子架构来规矩变量。
这意味着,联系末端可能不适用于经过架构颐养的低精度锻练模子,因为架构的变化可能会影响模子对精度变化的明锐性。

临了,有网友还念念得更远。冷落一朝量化失败,还有 3 条路不错筹商:
膨胀数据中心
转向更小的专科模子
常识蒸馏

你奈何看?
论文:
https://arxiv.org/abs/2411.04330
参考指挥:
[ 1 ] https://x.com/Tim_Dettmers/status/1856338240099221674
[ 2 ] https://x.com/Tanishq97836660/status/1856045600355352753亚博体育
