在当前能源技术框架下,持续训练愈发先进的AI模型正面临不可持续的挑战。我们亟需探索更快、更经济且更环保的训练路径。谷歌DeepMind近期揭晓了一项名为JEST(联合示例选择训练)的前沿研究,它革新了AI模型训练方法,不仅速度提升了惊人的13倍,能效也高出传统方法10倍,为行业注入了新的活力。
随着AI领域的蓬勃发展,支撑这些庞大模型运转的数据中心对环境造成的负担日益加重,引发了广泛关注。JEST正是为解决这一痛点而生,它有效缓解了AI训练过程中的能源饥渴问题,通过大幅降低计算成本,减轻了AI进步背后的碳足迹。
传统AI训练方法往往逐点处理数据,既耗时又耗费大量计算资源。而JEST则另辟蹊径,聚焦于数据批次的整体优化。其工作原理可简述为三步走:
第一步,轻装上阵——先训练一个小型AI模型,如同一位精明的筛选官,负责评估并给高质量的数据打上“高分”。
第二步,优胜劣汰——小型模型会根据数据的质量进行排名,就像是为数据批次举办了一场激烈的“选秀”。
第三步,精准投喂——有了这些精心挑选的优质数据,大型模型便能更高效地吸收知识,实现快速成长。
JEST之所以高效,关键在于它能以整体视角审视数据批次,而非拘泥于细枝末节。它运用多模态对比学习,让文本、图像等不同类型的数据在训练中相互作用,通过整体打分和优选子集,显著加速了训练进程。
这一过程的核心在于两大支柱:
一是“可学习性评分”,它巧妙地将正在训练的大型模型(学习者)与预训练的小型模型(参考者)的损失进行比较,从而识别出既具挑战性又富含信息的优质批次。
二是“批次选择”,JEST采用了一种受吉布斯采样启发的智能算法,确保选中的批次能够最大化学习效益,同时加速训练流程。
DeepMind的实验充分验证了JEST的卓越性能,它在大幅减少训练迭代次数和计算成本的同时,依然能够保持与现有顶尖模型相媲美的表现。这一成果不仅是技术上的小步快跑,更是推动AI训练向更可持续、更可扩展方向迈出的重要一步。
然而,JEST也非尽善尽美,其目前仍需依赖特定的小型且精心整理的数据集来辅助选择过程,自动推断最佳参考分布的方法仍有待探索。但这并不影响JEST所展现出的巨大潜力,它预示着在优化AI训练效率方面,我们仍拥有广阔的探索空间。