数据集:

inria-soda/tabular-benchmark

英文

表格基准

数据集描述

这个数据集是从 openML 中的各种数据集中策划出来的,旨在评估各种机器学习算法的性能。

数据集概述

基准是由各种表格数据学习任务组成的,包括:

  • 从数值和分类特征进行回归
  • 从数值特征进行回归
  • 从数值和分类特征进行分类
  • 从数值特征进行分类

支持的任务和排行榜

  • 表格回归
  • 表格分类

数据集结构

数据拆分

这个数据集包含四个拆分(文件夹),根据任务和包含在任务中的数据集进行拆分。

  • reg_num:数值特征回归的任务标识符。
  • reg_cat:数值和分类特征回归的任务标识符。
  • clf_num:数值特征分类的任务标识符。
  • clf_cat:分类特征分类的任务标识符。

根据您想要加载的数据集,您可以通过将 task_name/dataset_name 传递给 load_dataset 的 data_files 参数来加载数据集,如以下示例所示:

from datasets import load_dataset
dataset = load_dataset("inria-soda/tabular-benchmark", data_files="reg_cat/house_sales.csv")

数据集创建

策划理由

这个数据集是为了评估树模型的性能而策划的,与神经网络进行对比。在筛选用于策划的数据集的过程中,论文中提到的条件如下:

  • 多样化的列。列应对应具有不同性质的特征。这不包括每列对应不同传感器上的相同信号的图像或信号数据集。
  • 非高维度。我们只保留 d/n 比率小于 1/10 的数据集。
  • 未记录的数据集。我们删除信息太少的数据集。如果特征是多样化的,我们会保留具有隐藏列名的数据集。
  • 独立同分布的数据。我们删除类似流数据集或时间序列的数据集。
  • 真实世界的数据。我们删除人工数据集,但保留一些模拟数据集。两者之间存在微妙的区别,但我们试图保留模拟数据集是因为学习这些数据集具有实际重要性(例如 Higgs 数据集),而不仅仅是一个用来测试特定模型能力的玩具示例。
  • 不过于小。我们删除特征过少(< 4)和样本过少(< 3,000)的数据集。对于仅基于数值特征的基准,我们在检查剩余的特征和样本是否足够之前删除分类特征。
  • 不过于简单。如果简单模型(单个树的最大值和回归、逻辑回归或 OLS)达到的得分与默认 Resnet(来自 Gorishniy 等人[2021])和默认 HistGradientBoosting 模型(来自 scikit learn)的得分之间的相对差异低于 5%,则删除数据集。其他基准使用不同的指标来删除过于简单的数据集,例如删除被单个决策分类器完全分开的数据集[Bischl 等人,2021],但这忽略了数据集间不同的贝叶斯率。由于树集合优于简单树和逻辑回归[Fernández-Delgado 等人,2014],简单且强大模型的接近分数表明我们已经接近最佳得分。
  • 非确定性。我们删除目标是数据的确定函数的数据集。这主要意味着删除类似扑克和国际象棋等游戏的数据集。事实上,我们认为这些数据集与大多数真实世界的表格数据集非常不同,应该单独研究。

来源数据

数值分类

dataset_name n_samples n_features original_link new_link
electricity 38474.0 7.0 1234321 1235321
covertype 566602.0 10.0 1236321 1237321
pol 10082.0 26.0 1238321 1239321
house_16H 13488.0 16.0 12310321 12311321
MagicTelescope 13376.0 10.0 12312321 12313321
bank-marketing 10578.0 7.0 12314321 12315321
Bioresponse 3434.0 419.0 12316321 12317321
MiniBooNE 72998.0 50.0 12318321 12319321
default-of-credit-card-clients 13272.0 20.0 12320321 12321321
Higgs 940160.0 24.0 12322321 12323321
eye_movements 7608.0 20.0 12324321 12325321
Diabetes130US 71090.0 7.0 12326321 12327321
jannis 57580.0 54.0 12328321 12329321
heloc 10000.0 22.0 " 12330321 12331321
credit 16714.0 10.0 " 12332321 12333321
california 20634.0 8.0 " 12334321 12335321

分类分类

dataset_name n_samples n_features original_link new_link
electricity 38474.0 8.0 1234321 12337321
eye_movements 7608.0 23.0 12324321 12339321
covertype 423680.0 54.0 12340321 12341321
albert 58252.0 31.0 12342321 12343321
compas-two-years 4966.0 11.0 12344321 12345321
default-of-credit-card-clients 13272.0 21.0 12320321 12347321
road-safety 111762.0 32.0 12348321 12349321

数值回归

dataset_name n_samples n_features original_link new_link
cpu_act 8192.0 21.0 12350321 12351321
pol 15000.0 26.0 12352321 12353321
elevators 16599.0 16.0 12354321 12355321
wine_quality 6497.0 11.0 12356321 12357321
Ailerons 13750.0 33.0 12358321 12359321
yprop_4_1 8885.0 42.0 12360321 12361321
houses 20640.0 8.0 12362321 12363321
house_16H 22784.0 16.0 12364321 12365321
delays_zurich_transport 5465575.0 9.0 12366321 12367321
diamonds 53940.0 6.0 12368321 12369321
Brazilian_houses 10692.0 8.0 12370321 12371321
Bike_Sharing_Demand 17379.0 6.0 12372321 12373321
nyc-taxi-green-dec-2016 581835.0 9.0 12374321 12375321
house_sales 21613.0 15.0 12376321 12377321
sulfur 10081.0 6.0 12378321 12379321
medical_charges 163065.0 5.0 12380321 12381321
MiamiHousing2016 13932.0 14.0 12382321 12383321
superconduct 21263.0 79.0 12384321 12385321

分类回归

dataset_name n_samples n_features original_link new_link
topo_2_1 8885.0 255.0 12386321 12387321
analcatdata_supreme 4052.0 7.0 12388321 12389321
visualizing_soil 8641.0 4.0 12390321 12391321
delays_zurich_transport 5465575.0 12.0 12366321 12393321
diamonds 53940.0 9.0 12368321 12395321
Allstate_Claims_Severity 188318.0 124.0 12396321 12397321
Mercedes_Benz_Greener_Manufacturing 4209.0 359.0 12398321 12399321
Brazilian_houses 10692.0 11.0 12370321 123101321
Bike_Sharing_Demand 17379.0 11.0 12372321 123103321
Airlines_DepDelay_1M 1000000.0 5.0 123104321 123105321
nyc-taxi-green-dec-2016 581835.0 16.0 12374321 123107321
abalone 4177.0 8.0 123108321 123109321
house_sales 21613.0 17.0 12376321 123111321
seattlecrime6 52031.0 4.0 123112321 123113321
medical_charges 163065.0 5.0 12380321 123115321
particulate-matter-ukair-2017 394299.0 6.0 123116321 123117321
SGEMM_GPU_kernel_performance 241600.0 9.0 123118321 123119321

数据集策划者

Léo Grinsztajn,Edouard Oyallon,Gaël Varoquaux。

许可信息

[需要更多信息]

引用信息

Léo Grinsztajn,Edouard Oyallon,Gaël Varoquaux。Why do tree-based models still outperform deeplearning on typical tabular data?. NeurIPS 2022 Datasets and Benchmarks Track,Nov 2022,New Orleans,United States. ffhal-03723551v2f