面板数据模型原理与Python实现

面板数据模型原理与Python实现 | 极客日志

模型类型	假设条件	模型形式
混合回归（POLS）	无个体异质性（$\alpha_1=\alpha_2=...=\alpha_N$）、无时间异质性（$\lambda_1=...=\lambda_T$）	$y_{it} = \alpha + X_{it}\beta + \epsilon_{it}$
单向个体固定效应（FE）	个体异质性为固定参数，与 $X_{it}$ 相关；无时间异质性	$y_{it} = \alpha_i + X_{it}\beta + \epsilon_{it}$
单向时间固定效应（TE）	时间异质性为固定参数，与 $X_{it}$ 相关；无个体异质性	$y_{it} = \lambda_t + X_{it}\beta + \epsilon_{it}$
双向固定效应（Two-Way FE）	个体异质性与时间异质性均为固定参数，且至少一个与 $X_{it}$ 相关	$y_{it} = \alpha_i + \lambda_t + X_{it}\beta + \epsilon_{it}$
随机效应（RE）	个体异质性为随机变量（$\alpha_i \sim iid(0,\sigma_\alpha^2)$），与 $X_{it}$ 不相关；无时间异质性	$y_{it} = \alpha + X_{it}\beta + (\alpha_i + \epsilon_{it})$

模型类型	适用场景	局限性
混合回归（POLS）	未观测异质性与解释变量完全不相关	忽略异质性会导致严重偏差
固定效应（FE）	未观测异质性与解释变量相关（如家庭能力与收入）	无法估计不随时间变化的变量；依赖个体内变异
随机效应（RE）	未观测异质性与解释变量不相关（如企业地理位置与广告支出）	若异质性与解释变量相关，估计量有偏；依赖随机抽样假设
双向固定效应（Two-Way FE）	同时存在个体与时间未观测异质性，且至少一个与解释变量相关	无法估计不随时间/个体变化的变量；计算复杂度高

import numpy as np
import pandas as pd
import statsmodels.api as sm
from linearmodels.panel import PanelOLS
from linearmodels.panel import PooledOLS
from linearmodels.iv import IV2SLS
import matplotlib.pyplot as plt

# 设置 matplotlib 字体以支持中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号

# 1. 数据模拟函数
def simulate_panel_data(n_firms=200, n_years=5, seed=42):
    """
    模拟企业面板数据
    :param n_firms: 企业数量
    :param n_years: 时间跨度（年数）
    :param seed: 随机种子，保证结果可复现
    :return: 面板数据 DataFrame
    """
    # 设置随机种子
    np.random.seed(seed)
    # 企业 ID 和年份
    firms = np.repeat(range(n_firms), n_years)
    years = np.tile(range(2015, 2015 + n_years), n_firms)
    # 个体固定效应（企业固有特征）
    firm_effects = np.repeat(np.random.normal(10, 2, n_firms), n_years)
    # 时间固定效应（宏观冲击）
    time_effects = np.tile(np.random.normal(5, 1, n_years), n_firms)
    # 研发投入（解释变量，随时间和企业变化）
    R_D = np.random.normal(20, 5, n_firms * n_years) + firm_effects * 0.2 + time_effects * 0.1
    # 控制变量：资产规模
    assets = np.random.normal(100, 20, n_firms * n_years) + firm_effects * 0.5
    # 随机误差项
    epsilon = np.random.normal(0, 3, n_firms * n_years)
    # 被解释变量：利润（真实关系：利润 = 0.8*研发投入 + 0.2*资产规模 + 个体效应 + 时间效应 + 随机误差）
    profit = 0.8 * R_D + 0.2 * assets + firm_effects + time_effects + epsilon
    # 构建 DataFrame
    data = pd.DataFrame({
        'firm_id': firms,
        'year': years,
        'R_D': R_D,
        'assets': assets,
        'profit': profit
    })
    # 设置面板数据索引（个体，时间）
    data = data.set_index(['firm_id', 'year'])
    return data

# 2. 面板数据预处理函数
def preprocess_panel_data(data):
    """
    面板数据预处理（缺失值、异常值处理）
    :param data: 原始面板数据
    :return: 预处理后面板数据
    """
    # 检查缺失值并删除
    data = data.dropna()
    # 异常值处理：缩尾处理（前后 1%）
    for col in ['R_D', 'assets', 'profit']:
        q1 = data[col].quantile(0.01)
        q99 = data[col].quantile(0.99)
        data[col] = np.clip(data[col], q1, q99)
    return data

# 3. 模型估计与检验函数
def estimate_panel_models(data):
    """
    估计面板数据模型并进行检验
    :param data: 预处理后面板数据
    :return: 各模型估计结果
    """
    # 准备解释变量和被解释变量
    y = data['profit']
    X = data[['R_D', 'assets']]
    # 3.1 混合回归模型（POLS）
    pooled = PooledOLS(y, sm.add_constant(X)).fit()
    # 3.2 单向个体固定效应模型（FE）
    fe_individual = PanelOLS(y, X, entity_effects=True).fit()
    # 3.3 双向固定效应模型（Two-Way FE）
    two_way_fe = PanelOLS(y, X, entity_effects=True, time_effects=True).fit()
    # 3.4 随机效应模型（RE）
    # 注意：Linearmodels 库中 RE 需要使用 RandomEffects，但需先安装最新版本
    try:
        from linearmodels.panel import RandomEffects
        re_model = RandomEffects(y, sm.add_constant(X)).fit()
    except ImportError:
        re_model = None
    return pooled, fe_individual, two_way_fe, re_model

# 4. Hausman 检验函数
def hausman_test(fe_results, re_results):
    """
    执行 Hausman 检验（固定效应 vs 随机效应）
    :param fe_results: 固定效应模型结果
    :param re_results: 随机效应模型结果
    :return: Hausman 检验统计量和 p 值
    """
    if re_results is None:
        return "RandomEffects 模型未安装"
    # 选取公共变量进行比较（去除 RE 中的常数项等 FE 中没有的变量）
    common_params = list(set(fe_results.params.index) & set(re_results.params.index))
    if not common_params:
        return "没有公共参数，无法进行 Hausman 检验"
    fe_beta = fe_results.params[common_params]
    re_beta = re_results.params[common_params]
    fe_cov = fe_results.cov.loc[common_params, common_params]
    re_cov = re_results.cov.loc[common_params, common_params]
    diff = fe_beta - re_beta
    var_diff = fe_cov - re_cov
    # 计算 Hausman 统计量
    # 注意：如果 var_diff 不可逆，可能需要使用广义逆，这里使用 pinv 以防万一
    hausman_stat = diff.T @ np.linalg.pinv(var_diff) @ diff
    # 计算 p 值（卡方分布，自由度=解释变量个数）
    from scipy.stats import chi2
    df = len(diff)
    p_value = 1 - chi2.cdf(hausman_stat, df)
    return f"Hausman 统计量：{hausman_stat:.4f}, p 值：{p_value:.4f}"

# 主程序
if __name__ == "__main__":
    # 生成模拟数据
    panel_data = simulate_panel_data()
    # 数据预处理
    processed_data = preprocess_panel_data(panel_data)
    # 模型估计
    pooled_result, fe_individual_result, two_way_fe_result, re_result = estimate_panel_models(processed_data)
    # 输出模型结果
    print("混合回归模型结果：")
    print(pooled_result)
    print("\n单向个体固定效应模型结果：")
    print(fe_individual_result)
    print("\n双向固定效应模型结果：")
    print(two_way_fe_result)
    # Hausman 检验
    print("\nHausman 检验结果：")
    hausman_result = hausman_test(fe_individual_result, re_result)
    print(hausman_result)
    # 可视化结果
    plt.figure(figsize=(12, 8))
    # 绘制研发投入与利润的关系
    plt.scatter(panel_data['R_D'], panel_data['profit'], alpha=0.3, label='原始数据')
    # 绘制双向固定效应模型的拟合线（仅展示核心解释变量 R_D 的影响）
    # 注意：固定效应模型的拟合需控制个体和时间效应，此处简化为展示系数方向
    plt.axline((20, two_way_fe_result.params['assets']*100 + two_way_fe_result.params['R_D']*20), 
               slope=two_way_fe_result.params['R_D'], 
               color='red', 
               label=f'双向 FE 拟合线（斜率：{two_way_fe_result.params["R_D"]:.2f}）')
    plt.xlabel('研发投入（R_D）')
    plt.ylabel('企业利润')
    plt.title('研发投入与企业利润的关系')
    plt.legend()
    plt.grid(True)
    # 保存图像
    plt.savefig('R_D_profit_relation.png', dpi=300)
    plt.show()

import numpy as np
import pandas as pd
import statsmodels.api as sm
from linearmodels.panel import PanelOLS, PooledOLS, RandomEffects
import matplotlib.pyplot as plt
# 中文显示设置
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

def simulate_panel_data(n_firms=200, n_years=5, seed=42):
    np.random.seed(seed)  # 保证模拟结果可复现（比赛必填）
    # 1. 生成面板维度：[firm_id, year] 双索引（linearmodels 面板数据的必要格式）
    firms = np.repeat(range(n_firms), n_years)
    years = np.tile(range(2015, 2015 + n_years), n_firms)
    # 2. 个体固定效应 α_i：每个企业 1 个值，正态分布 N(10, 2²)
    firm_effects = np.repeat(np.random.normal(10, 2, n_firms), n_years)
    # 3. 时间固定效应 λ_t：每年 1 个值，正态分布 N(5, 1²)
    time_effects = np.tile(np.random.normal(5, 1, n_years), n_firms)
    # 4. 解释变量：研发投入 R_D（与 α_i、λ_t 相关，更接近现实）
    R_D = np.random.normal(20, 5, n_firms * n_years) + firm_effects * 0.2 + time_effects * 0.1
    # 5. 控制变量：资产规模（与个体固定效应 α_i 相关，合理假设）
    assets = np.random.normal(100, 20, n_firms * n_years) + firm_effects * 0.5
    # 6. 随机误差项
    epsilon = np.random.normal(0, 3, n_firms * n_years)
    # 7. 被解释变量：利润（严格遵循真实双向 FE 模型）
    profit = 0.8 * R_D + 0.2 * assets + firm_effects + time_effects + epsilon
    # 8. 构建面板 DataFrame 并设置双索引
    data = pd.DataFrame({
        'firm_id': firms,
        'year': years,
        'R_D': R_D,
        'assets': assets,
        'profit': profit
    })
    data = data.set_index(['firm_id', 'year'])  # linearmodels 要求：(个体，时间) 双索引
    return data

def preprocess_panel_data(data):
    data = data.dropna()  # 缺失值处理：删除（模拟数据无缺失，实际数据需补充）
    # 异常值处理：缩尾法（Winsorize），前后 1% 分位数截断
    for col in ['R_D', 'assets', 'profit']:
        q1 = data[col].quantile(0.01)
        q99 = data[col].quantile(0.99)
        data[col] = np.clip(data[col], q1, q99)  # 把小于 q1 的设为 q1，大于 q99 的设为 q99
    return data

def estimate_panel_models(data):
    y = data['profit']  # 被解释变量
    X = data[['R_D', 'assets']]  # 核心解释变量 + 控制变量
    # 1. 混合回归：需加常数项（sm.add_constant）
    pooled = PooledOLS(y, sm.add_constant(X)).fit()
    # 2. 单向个体固定效应：entity_effects=True（无需加常数项，α_i 已包含个体异质性）
    fe_individual = PanelOLS(y, X, entity_effects=True).fit()
    # 3. 双向固定效应：同时指定 entity_effects=True（个体）和 time_effects=True（时间）
    two_way_fe = PanelOLS(y, X, entity_effects=True, time_effects=True).fit()
    # 4. 随机效应：需加常数项，若库未安装则返回 None
    try:
        re_model = RandomEffects(y, sm.add_constant(X)).fit()
    except ImportError:
        re_model = None
    return pooled, fe_individual, two_way_fe, re_model

def hausman_test(fe_results, re_results):
    if re_results is None:
        return "RandomEffects 模型未安装"
    # 1. 筛选公共参数（FE 无常数项，RE 有，需统一）
    common_params = list(set(fe_results.params.index) & set(re_results.params.index))
    if not common_params:
        return "无公共参数，无法检验"
    # 2. 提取系数与协方差矩阵
    fe_beta = fe_results.params[common_params]
    re_beta = re_results.params[common_params]
    fe_cov = fe_results.cov.loc[common_params, common_params]  # FE 的协方差
    re_cov = re_results.cov.loc[common_params, common_params]  # RE 的协方差
    # 3. 计算 Hausman 统计量（用广义逆 pinv 避免方差矩阵不可逆）
    diff = fe_beta - re_beta
    var_diff = fe_cov - re_cov
    hausman_stat = diff.T @ np.linalg.pinv(var_diff) @ diff  # np.pinv 是广义逆
    # 4. 计算 p 值
    from scipy.stats import chi2
    df = len(diff)
    p_value = 1 - chi2.cdf(hausman_stat, df)
    return f"Hausman 统计量：{hausman_stat:.4f}, p 值：{p_value:.4f}"

if __name__ == "__main__":
    # 1. 生成模拟数据
    panel_data = simulate_panel_data()
    # 2. 数据预处理
    processed_data = preprocess_panel_data(panel_data)
    # 3. 模型估计
    pooled_result, fe_individual_result, two_way_fe_result, re_result = estimate_panel_models(processed_data)
    # 4. 输出结果（核心看双向 FE 的 R_D 系数是否接近真实值 0.8）
    print("混合回归结果：", pooled_result, sep=" ")
    print(" 单向个体 FE 结果：", fe_individual_result, sep=" ")
    print(" 双向 FE 结果：", two_way_fe_result, sep=" ")
    # 5. Hausman 检验（若 RE 安装，结果应拒绝原假设，选 FE）
    print(" Hausman 检验：", hausman_test(fe_individual_result, re_result), sep=" ")
    # 6. 可视化：研发投入与利润的关系（控制 assets=100 的简化拟合）
    plt.figure(figsize=(12, 8))
    plt.scatter(panel_data['R_D'], panel_data['profit'], alpha=0.3, label='原始数据')
    # 双向 FE 拟合线：固定 assets=100（均值），斜率为 R_D 的边际效应
    plt.axline((20, two_way_fe_result.params['assets']*100 + two_way_fe_result.params['R_D']*20), 
               slope=two_way_fe_result.params['R_D'], 
               color='red', 
               label=f'双向 FE 拟合线（斜率：{two_way_fe_result.params["R_D"]:.2f}）')
    plt.xlabel('研发投入（R_D）')
    plt.ylabel('企业利润')
    plt.title('研发投入与企业利润的关系')
    plt.legend()
    plt.savefig('R_D_profit_relation.png', dpi=300)  # 保存高清图（比赛要求）
    plt.show()

面板数据模型原理与Python实现

面板数据模型（Panel Data Model）

一、背景溯源：从单维度到双维度数据的演进

1.1 面板数据的精确定义与结构特征

1.2 传统单维度模型的本质局限

（1）横截面回归（Cross-Sectional Regression）

（2）时间序列回归（Time Series Regression）

1.3 面板数据的不可替代优势

二、核心思想：未观测异质性的分离与控制

2.1 被解释变量的变异分解

2.2 未观测异质性的处理逻辑

三、算法原理与公式推导

3.1 模型分类与基础形式

3.2 固定效应模型（FE）：离差变换的本质与推导

3.2.1 模型设定与关键假设

3.2.2 组内离差变换的推导（消除 $\alpha_i$）

步骤 1：计算个体时间均值

步骤 2：原模型减去均值模型

步骤 3：离差变换的核心作用

3.2.3 固定效应估计量的推导

个体固定效应的估计

3.2.4 双向固定效应模型的推导

步骤 1：计算总均值

步骤 2：双重离差变换

3.2.5 固定效应模型的一致性证明

前提条件

证明过程

3.3 随机效应模型（RE）：复合误差与 GLS 估计

3.3.1 模型设定与关键假设

3.3.2 复合误差的方差 - 协方差结构

（1）方差

（2）协方差

（3）方差 - 协方差矩阵

（4）个体内相关系数

3.3.3 GLS 估计的推导（消除相关性）

步骤 1：GLS 变换矩阵的构造

步骤 2：变换参数的推导（为什么是这个形式？）

3.3.4 随机效应估计量的推导

3.3.5 方差组分的估计（可行 GLS）

步骤 1：估计组内方差 $\sigma_\epsilon^2$

步骤 2：估计组间方差 $\sigma_\alpha^2$

步骤 3：计算变换参数 $\theta$

3.4 模型选择：统计检验的本质与推导

3.4.1 混合回归 vs 固定效应：F 检验

F 统计量的推导

为什么约束个数是 $N-1$？

决策规则

3.4.2 固定效应 vs 随机效应：Hausman 检验

Hausman 检验的核心思想

Hausman 统计量的推导

推导过程

渐近分布

决策规则

四、完整模型求解步骤

4.1 数据准备与预处理

（1）数据结构确认

（2）缺失值处理

（3）异常值处理

（4）描述性统计分析

4.2 模型设定与初步估计

（1）混合回归模型（POLS）

（2）固定效应模型（FE）

（3）随机效应模型（RE）

4.3 模型选择与统计检验

（1）混合回归 vs 固定效应：F 检验

（2）固定效应 vs 随机效应：Hausman 检验

（3）是否加入时间固定效应：F 检验

4.4 模型诊断与稳健性检验

（1）诊断检验

① 异方差检验

② 序列相关检验

③ 工具变量有效性检验（若使用 IV）

（2）稳健性检验

① 改变模型设定

② 更换估计方法

③ 子样本分析

④ 安慰剂检验（Placebo Test）

4.5 结果解释与结论

（1）核心参数解释

（2）个体固定效应解释

2. 面板数据模拟函数 `simulate_panel_data`

3. 面板数据预处理 `preprocess_panel_data`

4. 面板模型估计 `estimate_panel_models`

5. Hausman 检验 `hausman_test`