常用工具 医生入驻 免费问医生

上海交通大学让AI学会挑食:大语言模型预训练的数据选择新突破

2026-02-21 14:14:50 来源:凤舞龙飞网   

天空:卡里克给了梅努足够的认可,让其发挥出了本就有的实力


这项由上海交通大学EPIC实验室领导,联合阿里巴巴集团钉钉团队、交通威斯康星大学麦迪逊分校、大学伊利诺伊大学厄巴纳-香槟分校和Mila-魁北克人工智能研究所共同完成的学选择新突研究,于2026年发表在预印本平台上。语言预训有兴趣深入了解的模型读者可以通过论文编号arXiv:2602.05400v2查询完整论文。

想象一下教小孩学说话的上海食大数据过程:你不会把所有的书籍都堆在孩子面前让他随便看,而是交通会精心挑选那些适合他当前水平、最有帮助的大学读物。这正是学选择新突现在AI大语言模型训练面临的核心挑战——如何在海量的文本数据中选出最有价值的"食材"来喂养AI。

当前的语言预训AI训练就像是开设一家高级餐厅,但食材选择出现了问题。模型传统的上海食大数据做法要么是厨师提前把所有食材分好类(静态选择),要么是交通在烹饪过程中凭感觉随意抓取(动态选择)。然而,大学这两种方法都忽略了一个关键问题:不同的烹饪方法需要不同的食材处理方式,而现有的食材选择完全没有考虑到具体的烹饪工具和技巧。

研究团队发现,目前主流的AI训练优化器(相当于不同的烹饪方法)会对原始数据进行复杂的加工处理,就像用不同的刀法、火候来处理同样的食材。但现有的数据选择方法都假设所有食材都用同样的处理方式,这就像用适合煎蛋的标准去选择做红烧肉的食材一样荒谬。

为了解决这个问题,研究团队开发了一套名为OPUS的全新数据选择框架。这个名字代表"优化器诱导的投影实用性选择",听起来很复杂,但本质就是让数据选择过程充分考虑具体优化器的特性,就像为不同的烹饪方法量身定制食材选择标准。

一、传统方法的局限:为什么现有的数据选择像盲人摸象

在深入了解OPUS之前,我们先来看看现有方法的问题。目前AI训练中的数据选择主要有两大类:静态选择和动态选择。

静态选择就像在超市购物时,提前根据食材的外观、产地、价格等固定标准选好所有食材,然后回家无论做什么菜都用这些食材。比如FineWeb-Edu分类器会根据文本的"教育价值"给每个文档打分,分数高的就选中。这种方法的问题在于,它假设一个文档的价值是恒定不变的,完全不考虑AI模型在训练过程中的学习状态变化。

动态选择则更像是一边做菜一边挑选食材,会根据当前的烹饪状态来调整食材选择。比如GREATS方法会实时计算每个数据样本的"梯度"(可以理解为学习信号的强度),然后选择那些能产生最强学习信号的数据。

但这两种方法都有一个致命缺陷:它们都没有考虑到具体的"烹饪工具"特性。在AI训练中,优化器就相当于烹饪工具,不同的优化器会以完全不同的方式处理数据。就像同样的牛肉,用平底锅煎和用高压锅炖需要完全不同的切法和调料搭配。

现代AI训练主要使用两种先进的优化器:AdamW和Muon。AdamW就像一个智能的多功能厨师机,会根据每种食材的特性自动调整处理方式;Muon则更像一个专业的日式料理师傅,特别擅长精细的刀工处理。但现有的数据选择方法都假设使用的是最简单的菜刀(SGD优化器),这就导致了严重的不匹配。

研究团队通过大量实验发现,这种不匹配会导致训练效率大幅下降。就像用适合简单炒菜的食材搭配去做复杂的法式料理,结果自然不会理想。更糟糕的是,随着AI模型规模越来越大,训练成本越来越高,这种效率损失变得越来越难以承受。

二、OPUS的核心创新:让数据选择与优化器完美配合

OPUS的核心理念可以用一个简单的比喻来理解:它就像一个既懂食材又精通各种烹饪技法的顶级大厨,能够根据具体的烹饪方法来精确选择和处理食材。

传统方法在选择数据时,只看数据本身的"营养价值"(梯度大小),却忽略了不同优化器会如何"消化"这些数据。OPUS则不同,它会模拟每个优化器的具体工作方式,预测每个数据样本经过特定优化器处理后的实际效果,然后据此来选择数据。

具体来说,OPUS的工作流程就像一个精密的餐厅运营系统。首先,它会分析当前使用的"烹饪设备"(优化器)的特性,了解这种设备是如何处理原材料的。比如,AdamW优化器会对每个参数进行个性化的自适应调整,就像智能烤箱会根据不同食材的特性自动调节温度和时间。

然后,OPUS会构建一个"品质检验标准"(代理方向),这个标准来源于高质量的基准数据集。这就像米其林餐厅会有一套严格的出品标准,每道菜都要符合这个标准才能上桌。OPUS通过一种叫做"基准代理"(BENCH-PROXY)的技术,从训练数据中找出那些与高质量基准最相似的样本作为参考标准。

接下来是OPUS最精妙的部分:对每个候选数据样本,它会预测这个样本经过特定优化器处理后,能在多大程度上帮助模型朝着"品质标准"的方向改进。这个预测过程考虑了优化器的所有特性,包括它如何调整学习率、如何处理历史信息、如何应对不同类型的参数等等。

为了提高计算效率,OPUS还采用了两项关键技术。第一项叫做"幽灵技术"(Ghost Technique),它能够在不完全计算每个样本梯度的情况下获得足够的信息进行选择,就像经验丰富的厨师能够通过观察食材的外观、闻味道就知道它的品质,而不需要真正烹饪一遍。

第二项技术叫做CountSketch投影,它将高维的梯度信息压缩到低维空间进行处理,大大降低了计算成本。这就像用快速检测仪器替代复杂的化学分析,既保证了准确性又提高了效率。

三、让选择更加多样化:波尔兹曼采样的智慧

在数据选择中,还有一个容易被忽视但十分重要的问题:如何在选择高质量数据的同时保持多样性。这就像办一场成功的宴会,不能只准备一种再好吃的菜,而是要有合理的搭配。

传统的贪婪选择方法总是挑选当前看起来最好的数据,这就像只挑选最新鲜的鱼来做菜,却忽略了整桌菜的平衡。这种做法的问题在于,它可能会过度集中在某些类型的数据上,导致模型的学习出现偏向。

OPUS采用了一种更智慧的选择策略:波尔兹曼采样。这种方法的灵感来自物理学中的热力学原理,它不是简单地选择分数最高的数据,而是根据数据的质量分数给每个样本分配一个被选中的概率。

这种方法的巧妙之处在于,质量高的数据仍然有更大的被选中概率,但质量稍低但可能带来不同视角的数据也有机会被选中。这就像一个经验丰富的厨师,在选择主菜食材时会偏向最优质的,但同时也会选择一些能够提供不同口味层次的辅助食材。

为了进一步避免选择的同质化,OPUS还设计了一个"冗余惩罚"机制。当系统发现某个数据样本与已经选择的数据过于相似时,会降低其被选中的概率。这确保了选择出的数据集既有高质量,又有足够的多样性。

四、实验验证:在多个场景下的出色表现

研究团队在多个不同的场景下测试了OPUS的性能,结果令人印象深刻。这些测试就像在不同类型的餐厅中验证一套新的食材选择标准是否真的有效。

在从头开始训练GPT-2模型的实验中,OPUS展现出了显著的优势。研究团队使用了FineWeb和FineWeb-Edu两个大规模数据集,这相当于在两种不同质量的食材市场中测试采购策略。结果显示,OPUS在30B个训练token的预算下,平均比随机选择提高了2.2%的准确率,同时实现了8倍的计算效率提升。

更令人惊讶的是,OPUS训练的模型甚至能够超越使用全部200B token训练的传统方法。这就像用精心挑选的食材做出的菜肴,品质超过了使用大量普通食材制作的料理。

在一个特别严苛的测试中,研究团队让OPUS从相对低质量的数据池中选择样本,而让其他基线方法使用高质量数据。即使在这种不公平的对比中,OPUS仍然取得了最佳的性能。这证明了好的选择策略确实能够化腐朽为神奇,让普通食材发挥出超常的价值。

除了从头训练,研究团队还在继续预训练场景中测试了OPUS。他们使用Qwen3-8B-Base模型在SciencePedia科学数据上进行专业化训练。结果显示,OPUS仅使用0.5B个token就达到了传统方法使用3B token的效果,数据效率提升了6倍。

这个结果特别重要,因为它表明OPUS不仅在通用训练中有效,在专业领域的知识注入中也同样出色。这就像一套好的食材选择标准,不仅适用于家常菜,在制作专业料理时也能发挥重要作用。

五、技术细节:如何让复杂的算法变得可行

OPUS的成功不仅在于理念的创新,更在于技术实现上的巧思。研究团队面临的最大挑战是如何在保证选择质量的同时控制计算成本。

传统的影响函数方法虽然理论上很完美,但计算成本高得离谱,就像要为每道菜都配备专门的营养师进行详细分析。OPUS通过几项关键的技术创新解决了这个问题。

首先是对不同优化器的数学建模。研究团队深入分析了AdamW和Muon两种主流优化器的数学原理,推导出了它们的线性化近似公式。这就像研究不同烹饪方法的科学原理,理解它们是如何改变食材的分子结构的。

对于AdamW优化器,研究团队发现它本质上对每个参数应用了不同的缩放因子,这些因子基于参数的历史梯度统计信息。对于Muon优化器,情况更加复杂,它使用了矩阵正交化技术,相当于对参数进行了更精细的几何变换。

为了高效地处理这些复杂的变换,OPUS采用了几项巧妙的近似方法。比如在处理验证梯度时,它使用了一阶泰勒展开来避免昂贵的二阶计算。在处理Hessian矩阵时,它使用了等向性近似来大幅简化计算。

CountSketch投影技术是另一个关键创新。这种技术能够将高维向量压缩到低维空间,同时保持内积运算的无偏估计。研究团队将sketch维度设置为8192,对于参数量达到千万级的模型来说,这相当于实现了1000多倍的压缩比。

六、效率分析:少量开销换来巨大提升

任何新技术的实用价值最终都要看它的成本效益比。OPUS在这方面表现得相当出色,它仅仅增加了4.7%的计算开销,却带来了显著的训练效果提升。

这个开销主要来自三个方面:代理方向的计算、候选样本的特征提取,以及CountSketch投影。研究团队通过精心的工程优化,将这些操作的成本控制在了最低水平。

相比之下,如果使用传统的动态选择方法进行同样精度的数据选择,计算开销可能会达到350%以上。这就像用手工方式做精细食材处理和使用专业设备的区别,效率相差悬殊。

更重要的是,OPUS带来的训练效果提升远远超过了这点额外开销。在某些实验中,OPUS训练的模型达到相同性能水平所需的数据量只有传统方法的1/8。考虑到大规模AI训练的数据处理成本,这种效率提升的经济价值是巨大的。

七、未来展望:数据选择的新时代

OPUS的成功标志着AI训练数据选择进入了一个新的阶段:从经验驱动转向科学驱动,从静态标准转向动态适应,从单一指标转向综合优化。

这项研究的意义不仅在于提出了一个新的数据选择方法,更重要的是它建立了一个新的研究范式。它表明,要真正优化AI训练过程,我们不能孤立地看待数据、算法和优化器,而是要将它们作为一个整体系统来考虑。

研究团队在论文中也指出了一些未来的研究方向。比如,如何将OPUS扩展到多模态数据(图像、音频等)的选择中,如何在更复杂的混合数据集上应用这种方法,以及如何进一步降低计算成本等。

随着AI模型规模的不断增长和训练成本的急剧上升,高效的数据选择技术将变得越来越重要。OPUS为这个领域提供了一个强有力的工具和一个新的思路。它不仅能够帮助现有的AI系统提高训练效率,更可能为未来更大规模、更智能的AI系统铺平道路。

说到底,OPUS的核心理念其实很简单:要想做出好菜,不仅要有好食材,还要了解你的烹饪工具,让食材和工具完美配合。这个简单的道理在AI训练中同样适用,而OPUS正是将这个道理转化为了可行的技术方案。对于那些正在为AI训练效率和成本头疼的研究者和工程师来说,OPUS无疑提供了一个值得尝试的新选择。

Q&A

Q1:OPUS数据选择方法与传统方法有什么本质区别?

A:OPUS的核心区别在于它会根据具体使用的优化器(如AdamW、Muon)来选择数据,而传统方法都假设使用最简单的SGD优化器。就像根据不同的烹饪方法来选择食材,而不是用统一标准选择所有食材。

Q2:OPUS如何在保证选择质量的同时控制计算成本?

A:OPUS通过幽灵技术避免完全计算每个样本的梯度,使用CountSketch投影将高维信息压缩到低维空间处理,这样只增加4.7%的计算开销就实现了高质量的数据选择。

Q3:OPUS适用于哪些AI训练场景?

A:OPUS既适用于从头开始训练大语言模型,也适用于在特定领域继续训练的场景。实验表明它在通用数据集FineWeb和专业数据集SciencePedia上都取得了显著的效果提升。

希望以上内容对您有帮助。

阅读全文
相关推荐
探索视频推荐精选问答
养生文章推荐
前英超冠军恐遭追加扣分,上诉反引英超反击

杀人诛心?本泽马被曝给C罗发短信 炫耀涨薪并声称要再夺冠军

前英超冠军恐遭追加扣分,上诉反引英超反击
莱斯特城因违反英超"利润与可持续性规则"PSR)被扣除6分后提出上诉,然而英超联盟不仅未退缩,反而提交反诉,要求对"狐狸城"施加更为严厉的处罚。扣分令雪上加霜,保级形势危急独立委员会于本月初作出的处罚
友邦公益足球英超热刺行圆满收官 ——江苏足球青训俱乐部少年跨越山海,追逐梦想

2026伦敦足球奖各奖项提名名单:赖斯、阿尔特塔、凯塞多在列

友邦公益足球英超热刺行圆满收官 ——江苏足球青训俱乐部少年跨越山海,追逐梦想
来源:滚动播报来源:扬子晚报2026年1月29日至2月2日,由友邦人寿保险有限公司江苏分公司以下简称“友邦江苏”)联合江苏省发展体育基金会共同组织的“友邦公益足球英超热刺行”活动圆满落幕。泰州足球青训
德转宣!辽宁铁人冲超功臣离队选择去欧洲留洋,曾是07国青核心

鲁尼:如果没能夺冠,阿尔特塔肯定会面临巨大的下课压力

德转宣!辽宁铁人冲超功臣离队选择去欧洲留洋,曾是07国青核心
据德转中国区管理员朱艺社媒消息,辽宁铁人18岁小将张家鸣租借加盟塞尔维亚球队沃日多瓦茨,开始留洋生涯。张家鸣在2月13日已经在新东家完成注册手续,未来可以代表俱乐部出战联赛。对于张家鸣的选择很多球迷都
鲁能新援中卫刚身披球队战袍亮相,就发声做出重要决定,引发热议

冬窗转会引援盘点!5850万欧元转会切尔西 可惜转会后14场只进1球

鲁能新援中卫刚身披球队战袍亮相,就发声做出重要决定,引发热议
日前,25岁的葡萄牙中后卫佩德罗·阿尔瓦罗即将加盟山东泰山,他在社媒已经晒出了自己身披泰山外套的照片。阿尔瓦罗还没有加盟泰山队,他就在社媒发出重要决定,表示:“感谢你们的热情欢迎与支持。新的球队,同样
ESPN:圣保罗正与奥斯卡谈解约,俱乐部持乐观态度

冬窗转会引援盘点!5850万欧元转会切尔西 可惜转会后14场只进1球

ESPN:圣保罗正与奥斯卡谈解约,俱乐部持乐观态度
据ESPN消息,圣保罗正与奥斯卡谈解约,俱乐部持乐观态度。此前奥斯卡确诊血管迷走性晕厥,球员接近退役。据悉,圣保罗与奥斯卡希望友好解约,但目前仍存在一些分歧:签字费分期:签约时按36个月合同期分期支付
喜讯!申花与武里南客场比赛没开踢,四位久违强援就有望重返首发

斯基拉:吉拉尔迪买断条款被触发,罗马需要向维罗纳支付800万

喜讯!申花与武里南客场比赛没开踢,四位久违强援就有望重返首发
日前,上海申花正在主帅斯卢茨基的带领下备战客场与武里南比赛,这是让球迷觉得期待的事情。虽然申花客场踢武里南的比赛,对于俱乐部来说就是荣誉之战。但是申花队从主帅斯卢茨基到球员都会在比赛中全力以赴,让很多
云南玉昆官方:布尼亚明加盟球队;感谢培养球员的恒大足校

尤文憾平拉齐奥:读秒绝平难掩颓势,锋线低迷成顽疾,争冠已退出

云南玉昆官方:布尼亚明加盟球队;感谢培养球员的恒大足校
北京时间2月13日,云南玉昆官方消息,恒大足校球员布尼亚明加盟玉昆,同时云南玉昆还感谢了培养球员的恒大足校。公告经三方协商达成一致,中国球员布尼亚明-阿不都沙拉木正式加盟我俱乐部。特此公告。布尼亚明-
云南玉昆迪拜热身赛12比0大胜,新援戴帽爆发,费尔南多破门

C 罗归途渺茫遭沙特抛弃,萨拉赫天价接班,足坛权力游戏太现实

云南玉昆迪拜热身赛12比0大胜,新援戴帽爆发,费尔南多破门
日前,据云南玉昆官方报道,球队在热身赛中12-0狂胜迪拜当地球队AI Fajr,克莱伯戴帽,韩子龙、布尔克梅开二度,约尼查、卡约、奥斯卡、赵宇豪、费尔南多破门。根据笔者查询这支球队应该属于半业余,简单
中国队第三金!宁忠岩速滑1500米摘金,创奥运会纪录,零的突破

意甲第24轮结束了9场比赛,最新积分榜如下!

中国队第三金!宁忠岩速滑1500米摘金,创奥运会纪录,零的突破
米兰冬奥会速度滑冰男子1500米决赛,宁忠岩以1分41秒98赢得金牌并且打破奥运会纪录,这是中国代表团本届冬奥会第三枚金牌。在本届冬奥会,宁忠岩已经获得男子1000米、团体追逐铜牌。作为主项,宁忠岩在
喜讯!申花可考虑引进大连功勋左后卫补强,让他给陈晋一打替补

记者:拜仁本想圣诞节前续约莱默尔,但一些基本条款仍需讨论

喜讯!申花可考虑引进大连功勋左后卫补强,让他给陈晋一打替补
李帅在加盟上港队之后,他就一直在左后卫位置有不错表现。每当上港队在左路出现险情后,李帅总能第一时间站出来力挽狂澜。李帅在上港左后卫位置属于传射俱佳的核心,既能送出威胁传中,也可以上演一剑封喉好戏。同时