Transformer像机器学习的氢弹,XGBoost就是可靠的狙击步枪。
通常出现在电子表格和数据库中的表格数据是构成各行业决策的支柱,尤其是在机器学习中。对于这些任务,主要的需求是一个能够高效、准确和可解释地处理表格数据的模型。可以说,在其他深度学习技术甚嚣尘上时,甚至包括LLM在内,XGBoost(极限梯度提升)在各个方面都表现出色。
NVIDIA的Bojan Tunguz表示:XGBoost是你所需要的一切。但是XGBoost真的是当今最好的低代码机器学习解决方案吗?甚至在表格数据的分类能力上超过LLM吗?
Transformer并不是你所需要的全部,只是稍微需要一点
在机器学习生态系统中,传统上有两个不同的群体:专注于表格数据的数据科学家使用XGBoost、lightBGM和类似的工具,以及LLM群体。这两个群体使用不同的技术和模型。然而,最近的实验表明,LLM可以有效地应用于表格数据的分类,而无需大量的数据清洗或特征工程,但仍需耗费时间。
对于将LLM应用于表格数据,提示工程可能是一个有帮助的解决方案之一,但目前仍处于初级阶段。LLM生成的内部嵌入(潜在结构嵌入)可以传递给XGBoost等传统的表格模型。尽管Transformer无疑改变了生成式人工智能,但它们的优势在于非结构化数据、序列数据和涉及复杂模式的任务。
例如,在Kaggle竞赛中,表格数据占主导地位,当提供适当的提示时,LLM展示了预测能力,尽管并不及XGBoost等表现最佳的传统模型水平。这表明LLM在表格数据分析中成为有价值的工具的潜力仍在开发中,XGBoost仍然占据主导地位。
但这种情况仅限于较小的数据集。Kaggle竞赛的数据量通常为几兆字节或几个千兆字节,在这些数据量下LLM表现良好。但随着数据量的增加,Transformer则是更好的选择。
MachineHack的首席技术官Krishna Rastogi表示:“Transformer就像机器学习的氢弹,而XGBoost是可靠的狙击步枪。当涉及表格数据时,XGBoost是首选的狙击手。”
他进一步解释说,大多数MachineHackers也使用XGBoost或CATBoost,这是因为它在竞赛中通常表现良好。“但我相信现实世界的数据更加混乱,需要进行整个层面的数据清洗,检查重复、好坏标记,这就是Transformer的优势所在,”他补充说。
为什么以及何时选择XGBoost
XGBoost在处理表格数据任务中的突出地位的一个关键原因是它固有的可解释性。在许多实际应用中,理解模型为什么作出特定预测与预测本身一样重要。这在医疗保健、金融和监管等领域尤为关键。与被视为“黑盒”的深度学习模型(如Transformer)不同,XGBoost提供清晰而直观的特征重要性洞察。
当处理表格数据集时,效率至关重要。XGBoost的优化算法和能够并行训练的能力使其异常快速。相比之下,深度学习模型如Transformer通常需要大量的计算资源,包括GPU,才能在结构化数据上达到类似的性能。对许多企业来说,这种效率意味着成本节约和更少的洞察时间,因为它们没有大量的数据。
XGBoost的多用途性不仅限于分类,还适用于回归和排序任务。无论您需要预测连续的目标变量、按相关性对项目进行排名或将数据分类为多个类别,XGBoost都可以轻松处理。
XGBoost的另一个优势是在处理嘈杂或不完整的数据集时的鲁棒性。尽管人们认为它也会陷入过拟合的陷阱,但在现实场景中,数据可能是混乱的,存在缺失值、异常值和不一致。XGBoost通过其正则化技术,包括L1和L2正则化,来减轻这种风险。
此外,当涉及到异常值时,尽管常常被视为数据伪影,但它们可能携带有价值的信息或指示数据集中的异常。XGBoost的基于树的方法对异常值具有天然的鲁棒性。决策树可以捕捉到在存在极端值的情况下的潜在模式,使XGBoost成为处理异常值显著的任务的理想选择。
总而言之,当涉及到相对较小的结构化数据时,XGBoost证明有时最简单的解决方案也是最好的方案。为什么不去探索它是否可以往前迈进一步,在人工智能模型中使用,并取代Transformer呢?