从零开始:缺失值插补的实用方法与代码演示

2024年08月29日 由 alex 发表 73 0

让我们来谈谈每个数据科学家、分析师或好奇的数字计算者迟早都要面对的问题:缺失值。我将向你展示如何在一个数据集上使用六种不同的估算方法来解决这个问题,不是一种,也不是两种,而是六种(还有有用的视觉效果!)。到最后,你就会明白为什么领域知识价值连城(即使是我们的人工智能朋友也可能难以复制)。


什么是缺失值,为什么会出现缺失值?

在了解数据集和估算方法之前,我们先来了解一下什么是缺失值,以及为什么缺失值是数据科学中常见的头疼问题。


什么是缺失值?

缺失值在 pandas 中通常表示为 NaN(Not a Number),在数据库中则表示为 NULL。它们是电子表格中的空单元格、调查反馈中的空白、丢失的数据点。在数据世界中,并非所有的缺失都是相同的,了解缺失值的性质对于决定如何处理它们至关重要。


3


为什么会出现缺失值?

数据中出现缺失值的原因多种多样。以下是一些常见原因:

  1. 数据录入错误: 有时,这只是人为错误。有人可能会忘记输入某个值或不小心删除了某个值。
  2. 传感器故障: 在物联网或科学实验中,故障传感器可能在某些时候无法记录数据。
  3. 调查未回复: 在调查中,受访者可能会跳过他们不愿意回答或不理解的问题。
  4. 合并数据集: 合并多个来源的数据时,某些条目可能在所有数据集中都没有相应的值。
  5. 数据损坏: 在数据传输或存储过程中,某些值可能会损坏,变得无法读取。
  6. 故意遗漏: 出于隐私或无关性考虑,一些数据可能被故意遗漏。
  7. 抽样问题: 数据收集方法可能会系统性地遗漏某些类型的数据。
  8. 时间敏感数据: 在时间序列数据中,数据未收集期间(如周末、节假日)的数值可能会缺失。


缺失数据的类型

了解所处理的缺失数据类型有助于您选择最合适的估算方法。统计学家通常将缺失数据分为三种类型:

  1. 完全随机缺失 (MCAR): 缺失是完全随机的,不依赖于任何其他变量。例如,实验室样本意外丢失。
  2. 随机缺失(MAR): 数据缺失的概率取决于其他观测变量,而不取决于缺失数据本身。例如,在一项调查中,男性可能不太可能回答有关情绪的问题。
  3. 非随机缺失(MNAR): 缺失率取决于缺失数据本身的值。例如,高收入人群在调查中报告其收入的可能性较低。


4


为什么要关注缺失值?

缺失值会对分析产生重大影响:

  1. 如果处理不当,就会产生偏差。
  2. 许多机器学习算法无法处理缺失值。
  3. 如果简单地丢弃有缺失值的实例,可能会导致重要信息的丢失。
  4. 缺失值处理不当会导致错误的结论或预测。


因此,制定一个可靠的策略来处理缺失值至关重要。而这正是我们要在本文中探讨的内容!


数据集

首先,让我们来介绍一下我们的数据集。我们将使用一个高尔夫球场数据集,跟踪影响球场拥挤程度的各种因素。这个数据集什么都有--数值数据、分类数据,还有大量的缺失值。


5


import pandas as pd
import numpy as np
# Create the dataset as a dictionary
data = {
    'Date': ['08-01', '08-02', '08-03', '08-04', '08-05', '08-06', '08-07', '08-08', '08-09', '08-10',
             '08-11', '08-12', '08-13', '08-14', '08-15', '08-16', '08-17', '08-18', '08-19', '08-20'],
    'Weekday': [0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5],
    'Holiday': [0.0, 0.0, 0.0, 0.0, np.nan, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, np.nan, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
    'Temp': [25.1, 26.4, np.nan, 24.1, 24.7, 26.5, 27.6, 28.2, 27.1, 26.7, np.nan, 24.3, 23.1, 22.4, np.nan, 26.5, 28.6, np.nan, 27.0, 26.9],
    'Humidity': [99.0, np.nan, 96.0, 68.0, 98.0, 98.0, 78.0, np.nan, 70.0, 75.0, np.nan, 77.0, 77.0, 89.0, 80.0, 88.0, 76.0, np.nan, 73.0, 73.0],
    'Wind': [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, np.nan, 0.0, 0.0, 1.0, 1.0, 1.0, 1.0, 0.0, np.nan, 1.0, 0.0],
    'Outlook': ['rainy', 'sunny', 'rainy', 'overcast', 'rainy', np.nan, 'rainy', 'rainy', 'overcast', 'sunny', np.nan, 'overcast', 'sunny', 'rainy', 'sunny', 'rainy', np.nan, 'rainy', 'overcast', 'sunny'],
    'Crowdedness': [0.14, np.nan, 0.21, 0.68, 0.20, 0.32, 0.72, 0.61, np.nan, 0.54, np.nan, 0.67, 0.66, 0.38, 0.46, np.nan, 0.52, np.nan, 0.62, 0.81]
}
# Create a DataFrame from the dictionary
df = pd.DataFrame(data)
# Display basic information about the dataset
print(df.info())
# Display the first few rows of the dataset
print(df.head())
# Display the count of missing values in each column
print(df.isnull().sum())


输出:


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Date         20 non-null     object 
 1   Weekday      20 non-null     int64  
 2   Holiday      19 non-null     float64
 3   Temp         16 non-null     float64
 4   Humidity     17 non-null     float64
 5   Wind         19 non-null     float64
 6   Outlook      17 non-null     object 
 7   Crowdedness  15 non-null     float64
dtypes: float64(5), int64(1), object(2)
memory usage: 1.3+ KB
     Date  Weekday  Holiday  Temp  Humidity  Wind Outlook  Crowdedness
0  08-01        0      0.0  25.1      99.0   0.0   rainy         0.14
1  08-02        1      0.0  26.4       NaN   0.0   sunny          NaN
2  08-03        2      0.0   NaN      96.0   0.0   rainy         0.21
3  08-04        3      0.0  24.1      68.0   0.0   overcast      0.68
4  08-05        4      NaN  24.7      98.0   0.0   rainy         0.20
Date           0
Weekday        0
Holiday        1
Temp           4
Humidity       3
Wind           1
Outlook        3
Crowdedness    5
dtype: int64


我们可以看到,我们的数据集包含 20 行 8 列:

  • 日期: 观测日期
  • 工作日: 星期(0-6,其中 0 代表星期一)
  • 假日: 布尔值,表示当天是否为节假日(0 或 1)
  • 温度:摄氏温度
  • 湿度:湿度百分比
  • 风力:风力状况(0 或 1,可能表示风平浪静或狂风大作)
  • 展望: 天气预报(晴天、阴天或雨天)
  • 拥挤度: 球场占用百分比


现在我们已经加载了数据集,让我们用六种不同的估算方法来处理这些缺失值。我们将对每种类型的数据采用不同的策略。


方法 1:列表删除法

列表删除法也称为完整案例分析法,包括删除包含任何缺失值的整行。这种方法简单且能保留数据的分布,但如果很多行包含缺失值,则会导致大量信息丢失。


常用: 当缺失值数量较少且数据完全随机缺失(MCAR)时,通常会使用列表删除法。当你需要一个完整的数据集来进行某些无法处理缺失值的分析时,它也很有用。


在我们的案例中: 我们正在对至少有 4 个缺失值的行进行列表删除。这些行可能无法提供足够可靠的信息,而删除它们可以帮助我们专注于更完整的数据点。不过,我们会谨慎行事,只删除有大量缺失数据的行,以尽可能保留更多信息。


6


# Count missing values in each rowvalues in each row
missing_count = df.isnull().sum(axis=1)
# Keep only rows with less than 4 missing values
df_clean = df[missing_count < 4].copy()


我们已经删除了 2 行缺失值过多的数据。现在,让我们继续计算剩余的缺失数据。


方法 2:简单估算--平均值和模式

简单估算是用观测值的汇总统计量替换缺失值。常见的方法包括使用一列中未缺失值的平均值、中位数或模式。


常用: 当数据随机缺失且分布大致对称时,均值估算通常用于连续变量。模式估算通常用于分类变量。


在我们的案例中: 我们对湿度使用平均估算,对假期使用模式估算。对于湿度,假设缺失值是随机的,那么平均值就能提供典型湿度的合理估计值。至于假期,由于它是一个二元变量(假期或非假期),模式为我们提供了最常见的状态,这也是对缺失值的合理估计。


7


# Mean imputation for Humidity
df_clean['Humidity'] = df_clean['Humidity'].fillna(df_clean['Humidity'].mean())
# Mode imputation for Holiday
df_clean['Holiday'] = df_clean['Holiday'].fillna(df_clean['Holiday'].mode()[0])


方法 3:线性插值

线性插值法通过假设已知数据点之间的线性关系来估计缺失值。它对时间序列数据或具有自然排序的数据特别有用。


常用: 线性插值常用于时间序列数据,缺失值可根据其前后的值进行估计。它也适用于任何相邻点之间存在大致线性关系的数据。


在我们的案例中: 我们对温度使用线性插值。由于温度往往会随着时间的推移而逐渐变化,而我们的数据是按日期排序的,因此线性插值法可以根据附近几天记录的温度,对缺失的温度值进行合理估计。


8


df_clean['Temp'] = df_clean['Temp'].interpolate(method='linear')'Temp'] = df_clean['Temp'].interpolate(method='linear')


方法 4:前向/后向填充

前向填充法(或 “最后观测值前移 ”法)是将最后已知值向前传播以填补空白,而后向填充法则相反。这种方法假设缺失值可能与最近的已知值相似。


常用: 前向/后向填充通常用于时间序列数据,尤其是当值在变化之前可能保持不变时(如金融数据),或者当最近的已知值是对当前状态的最佳猜测时。


在我们的案例中: 我们正在为 Outlook 使用前向填充和后向填充相结合的方法。天气状况通常会持续数天,因此可以合理地假设,缺失的 Outlook 值可能与前一天或后一天的 Outlook 值相似。


9


df_clean['Outlook'] = df_clean['Outlook'].fillna(method='ffill').fillna(method='bfill')'Outlook'] = df_clean['Outlook'].fillna(method='ffill').fillna(method='bfill')


方法 5:常量估算

这种方法是用一个特定的常量值替换变量中的所有缺失值。这个常量可以根据领域知识或安全默认值来选择。


常用: 当缺失数据有一个逻辑默认值,或者当你想明确标记一个值缺失(通过使用一个超出数据正常范围的值)时,常值估算通常会被使用。


在我们的案例中: 我们对 Wind 列使用常值估算,用-1 代替缺失值。这种方法明确标记了估算值(因为-1 超出了 Wind 的正常 0-1 范围),并保留了这些值最初缺失的信息。


10


df_clean['Wind'] = df_clean['Wind'].fillna(-1)'Wind'] = df_clean['Wind'].fillna(-1)


方法 6:KNN 估算

K-Nearest Neighbors (KNN) 估算法通过在数据集中找到 K 个最相似的样本(就像 KNN 分类算法一样),并使用它们的值来估算缺失数据。这种方法可以捕捉变量之间的复杂关系。


常用: KNN 估算法用途广泛,既可用于连续变量,也可用于分类变量。当变量之间存在复杂关系,而简单的方法可能会遗漏时,这种方法尤其有用。


我们的案例 我们正在使用 KNN 估算拥挤度。拥挤度可能取决于多种因素的组合(如温度、假期状况等),而 KNN 可以捕捉这些复杂的关系,从而为缺失的拥挤度值提供更准确的估计。

11


from sklearn.impute import KNNImputer
# One-hot encode the 'Outlook' column
outlook_encoded = pd.get_dummies(df_clean['Outlook'], prefix='Outlook')
# Prepare features for KNN imputation
features_for_knn = ['Weekday', 'Holiday', 'Temp', 'Humidity', 'Wind']
knn_features = pd.concat([df_clean[features_for_knn], outlook_encoded], axis=1)
# Apply KNN imputation
knn_imputer = KNNImputer(n_neighbors=3)
df_imputed = pd.DataFrame(knn_imputer.fit_transform(pd.concat([knn_features, df_clean[['Crowdedness']]], axis=1)),
                          columns=list(knn_features.columns) + ['Crowdedness'])
# Update the original dataframe with the imputed Crowdedness values
df_clean['Crowdedness'] = df_imputed['Crowdedness']


结论: 选择(和知识)的力量

就是这样!处理缺失值的六种不同方法,全部应用于我们的高尔夫球场数据集。


12


缺失值插补总结

import pandas as pd
import numpy as np
from sklearn.impute import KNNImputer
# Create the dataset as a dictionary
data = {
    'Date': ['08-01', '08-02', '08-03', '08-04', '08-05', '08-06', '08-07', '08-08', '08-09', '08-10',
             '08-11', '08-12', '08-13', '08-14', '08-15', '08-16', '08-17', '08-18', '08-19', '08-20'],
    'Weekday': [0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5, 6, 0, 1, 2, 3, 4, 5],
    'Holiday': [0.0, 0.0, 0.0, 0.0, np.nan, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, np.nan, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
    'Temp': [25.1, 26.4, np.nan, 24.1, 24.7, 26.5, 27.6, 28.2, 27.1, 26.7, np.nan, 24.3, 23.1, 22.4, np.nan, 26.5, 28.6, np.nan, 27.0, 26.9],
    'Humidity': [99.0, np.nan, 96.0, 68.0, 98.0, 98.0, 78.0, np.nan, 70.0, 75.0, np.nan, 77.0, 77.0, 89.0, 80.0, 88.0, 76.0, np.nan, 73.0, 73.0],
    'Wind': [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, np.nan, 0.0, 0.0, 1.0, 1.0, 1.0, 1.0, 0.0, np.nan, 1.0, 0.0],
    'Outlook': ['rainy', 'sunny', 'rainy', 'overcast', 'rainy', np.nan, 'rainy', 'rainy', 'overcast', 'sunny', np.nan, 'overcast', 'sunny', 'rainy', 'sunny', 'rainy', np.nan, 'rainy', 'overcast', 'sunny'],
    'Crowdedness': [0.14, np.nan, 0.21, 0.68, 0.20, 0.32, 0.72, 0.61, np.nan, 0.54, np.nan, 0.67, 0.66, 0.38, 0.46, np.nan, 0.52, np.nan, 0.62, 0.81]
}
# Create a DataFrame from the dictionary
df = pd.DataFrame(data)
# 1. Listwise Deletion
df_clean = df[df.isnull().sum(axis=1) < 4].reset_index(drop=True).copy()
# 2. Simple Imputation
df_clean['Humidity'] = df_clean['Humidity'].fillna(df_clean['Humidity'].mean())
df_clean['Holiday'] = df_clean['Holiday'].fillna(df_clean['Holiday'].mode()[0])
# 3. Linear Interpolation
df_clean['Temp'] = df_clean['Temp'].interpolate(method='linear')
# 4. Forward/Backward Fill
df_clean['Outlook'] = df_clean['Outlook'].ffill()
# 5. Constant Value Imputation
df_clean['Wind'] = df_clean['Wind'].fillna(-1)
# 6. KNN Imputation
# One-hot encode the 'Outlook' column
outlook_encoded = pd.get_dummies(df_clean['Outlook'], prefix='Outlook')
# Prepare features for KNN imputation
features_for_knn = ['Weekday', 'Holiday', 'Temp', 'Humidity', 'Wind']
knn_features = pd.concat([df_clean[features_for_knn], outlook_encoded], axis=1)
# Apply KNN imputation
knn_imputer = KNNImputer(n_neighbors=3)
df_imputed = pd.DataFrame(knn_imputer.fit_transform(pd.concat([knn_features, df_clean[['Crowdedness']]], axis=1)),
                          columns=list(knn_features.columns) + ['Crowdedness'])
# Update the original dataframe with the imputed Crowdedness values
df_clean['Crowdedness'] = df_imputed['Crowdedness'].round(2)
print("Before:")
print(df)
print("\n\nAfter:")
print(df_clean)


文章来源:https://medium.com/towards-data-science/missing-value-imputation-explained-a-visual-guide-with-code-examples-for-beginners-93e0726284eb
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消