时间序列中的分布滞后动态模型

2025年03月11日由 alex 发表 370 0

时间序列数据往往表现出滞后效应，即变量的过去值会影响当前值。动态模型通过纳入解释变量的滞后值来捕捉这些依赖关系。分布式滞后模型（DLM）是动态模型中重要的一类，它明确考虑了过去值如何在多个时间步长上对当前值产生影响。

什么是分布式滞后模型？

分布式滞后模型假设时间t时的因变量依赖于一个或多个自变量当前和过去的值。一个包含一个解释变量X_t的简单分布式滞后模型如下所示：

其中：

Yt 是因变量（例如，销售额、温度或产量）。
Xt 是自变量（例如，广告支出、天气条件或经济指标）。
k 是最大滞后长度。
βi 是决定每个滞后项影响的系数。
ϵt 是误差项。

如果βi在i较小时的值较大，并且随着时间的推移而减小，那么Xt的影响会迅速衰减。如果βi在较长滞后时间内仍然显著，那么X的过去值会有持久的影响。如果某些βi值为负，那么Xt的影响可能是振荡的（例如，经济数据中的周期）。

在Python中估计分布式滞后模型

让我们以具有分布式滞后效应的消费者价格指数（CPI）为例来说明分布式滞后模型。

from pandas_datareader import data as web
import numpy as np
import pandas as pd
import statsmodels.api as sm
from datetime import datetime
from visualization import plot_time_series, plot_decomposition

# Function to fetch CPI data from FRED
def get_fred_data(series_id, start_date="2000-01-01", end_date=None):
    if end_date is None:
        end_date = datetime.now().strftime("%Y-%m-%d")
    df = web.DataReader(series_id, 'fred', start_date, end_date)
    return df.dropna()

# Fetch CPI data
series_id = "CPIAUCSL"  # Consumer Price Index for All Urban Consumers
cpi_data = get_fred_data(series_id)
cpi_data = cpi_data.pct_change().dropna()  # Convert to percentage change

# Prepare DataFrame
cpi_data = cpi_data.rename(columns={series_id: "CPI"})
cpi_data["Date"] = cpi_data.index  # Ensure a date column for plotting

# Create lagged CPI values
for lag in range(1, 3):  # Include 2 lags
    cpi_data[f"CPI_lag{lag}"] = cpi_data["CPI"].shift(lag)

# Drop missing values due to lagging
cpi_data.dropna(inplace=True)

# Define independent and dependent variables
X_lags = ["CPI", "CPI_lag1", "CPI_lag2"]
X_matrix = sm.add_constant(cpi_data[X_lags])  # Add intercept
y_vector = cpi_data["CPI"]  # Target is CPI itself (can be changed)

# Fit the distributed lag model
model = sm.OLS(y_vector, X_matrix).fit()

# Display results
print(model.summary())

# Find the optimal number of lags
optimal_lag = np.argmin(aic_values) + 1
print(f"Optimal number of lags: {optimal_lag}")

# Visualize CPI data
time_column = "Date"
value_columns = ["CPI", "CPI_lag1"]
plot_time_series(cpi_data, time_column, value_columns, title="CPI Time Series")

# Perform and plot decomposition
plot_decomposition(cpi_data["CPI"], model="additive", title="CPI Decomposition")

选择滞后数量的方法

我们需要一种方法来为我们的模型选择合适的滞后数量。滞后数量太少可能会遗漏重要的延迟效应，而滞后数量太多则会引入不必要的复杂性。

选择滞后的方法：

信息准则（AIC/BIC）：使用赤池信息准则（AIC）或贝叶斯信息准则（BIC）来比较具有不同滞后长度的模型。
系数的显著性：剔除系数在统计上不显著的滞后项。
偏自相关函数（PACF）：检查PACF以确定显著滞后的数量。

使用AIC选择最佳滞后数量：

import statsmodels.tsa.stattools as ts
# Determine optimal lag length
max_lags = 10
aic_values = []
for lag in range(1, max_lags + 1):
    temp_data = cpi_data.copy()
    for l in range(1, lag + 1):
        temp_data[f"CPI_lag{l}"] = temp_data["CPI"].shift(l)
    temp_data.dropna(inplace=True)
X_lags = ["CPI"] + [f"CPI_lag{l}" for l in range(1, lag + 1)]
    X_matrix = sm.add_constant(temp_data[X_lags])
    y_vector = temp_data["CPI"]
model = sm.OLS(y_vector, X_matrix).fit()
    aic_values.append(model.aic)

我们消费者价格指数（CPI）数据的最佳滞后为1。

分布式滞后模型的应用

分布式滞后模型在各个领域都有广泛应用：

经济学：建模货币政策变化对通货膨胀和失业率的影响。
市场营销：了解广告活动如何影响未来销售。
能源需求预测：估算温度变化对电力消耗的延迟影响。
公共政策：衡量税收变化如何随时间影响消费者支出。

分布式滞后模型是一个框架，用于观察自变量过去值如何影响当前结果。这让我们能够深入了解延迟关系，并提高预测准确性。

文章来源：https://medium.com/@kylejones_47003/distributed-lag-models-in-dynamic-model-time-series-ba66e3d1432a

标签：

时间序列分析

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇改进RAG准确率：微调领域知识嵌入模型（第2部分）

下一篇【指南】使用Arize Phoenix评估AI代理

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来