数据集:
imodels/compas-recidivism
来自ProPublica的compas-recidivism数据集(GitHub编号 here )。请注意,该数据集存在严重的社会影响和偏见,请谨慎使用。
基本数据预处理由 imodels team 完成。
目标是二元结果is_recid。
加载数据:
from datasets import load_dataset dataset = load_dataset("imodels/compas-recidivism") df = pd.DataFrame(dataset['train']) X = df.drop(columns=['is_recid']) y = df['is_recid'].values
拟合模型:
import imodels import numpy as np m = imodels.FIGSClassifier(max_rules=5) m.fit(X, y) print(m)
评估:
df_test = pd.DataFrame(dataset['test']) X_test = df.drop(columns=['is_recid']) y_test = df['is_recid'].values print('accuracy', np.mean(m.predict(X_test) == y_test))