数据集:

polinaeterna/tabular-benchmark

英文

表格基准数据集

数据集描述

该数据集是从 openML 等多个数据集中策划而成,通过对各种机器学习算法的性能进行基准测试。

数据集摘要

该基准数据集由各种表格数据学习任务策划而成,包括:

  • 数值和分类特征回归
  • 数值特征回归
  • 数值和分类特征分类
  • 数值特征分类

支持的任务和排行榜

  • 表格回归
  • 表格分类

数据集结构

数据拆分

该数据集根据任务和任务所包含的数据集,分成四个拆分(文件夹)。

  • reg_num: 数值特征回归任务的标识符
  • reg_cat: 数值和分类特征回归任务的标识符
  • clf_num: 数值特征分类任务的标识符
  • clf_cat: 分类特征分类任务的标识符

根据要加载的数据集,可以通过将任务名称/数据集名称传递给load_dataset的data_files参数来加载数据集,如下所示:

from datasets import load_dataset
dataset = load_dataset("inria_soda/tabular-benchmark", data_files="reg_cat/house_sales.csv")

数据集创建

策划理由

该数据集的策划旨在对比基于树模型和神经网络的性能。选择进行策划的数据集过程如下所述:

  • 异构列。列应对应于不同性质的特征。这排除了每列对应于不同传感器上相同信号的图像或信号数据集。
  • 非高维。我们仅保留d/n比率小于1/10的数据集。
  • 未记录的数据集。移除可用信息过少的数据集。如果清楚特征是异构的,我们会保留具有隐藏列名的数据集。
  • I.I.D.数据。移除流式数据集或时间序列数据。
  • 真实世界数据。移除人工数据集,但保留一些模拟数据集。区别是微妙的,但我们尽量保留那些学习这些数据集在实际中很重要(如Higgs数据集),而不仅仅是用于测试特定模型能力的玩具示例。
  • 不太小。移除特征太少(