基于 CFPS 2012–2022 面板数据的实证分析
从截面数据到面板数据 — 从关联到因果的方法论升级
本指南共十一个部分,基于真实CFPS 2012–2022面板数据的回归结果撰写。
仅使用CFPS 2022年一期数据
样本量:2,490个
方法:OLS + PSM
结论:低保家庭收入高25.2%
局限:无法排除个体异质性
使用CFPS 2012–2022年6期数据
样本量:19,761个观测(11,450人)
方法:混合OLS + 个体固定效应
结论:控制个体效应后,低保无显著因果效应
优势:更接近因果推断
升级版论文的文献综述在原有基础上增加了两个重要维度:
低保提高了“保留工资”(不工作也能获得的最低收入),降低了劳动参与动机。
代表:韩克庆(2008)
低保缓解了流动性约束,降低了风险规避,反而促进了劳动参与和更高收益的经济活动。
代表:张鹏龙等(2024)
| 理论 | 核心观点 | 对本文的预测 |
|---|---|---|
| 贫困脆弱性理论 | 贫困是“未来变穷的概率”,低保降低这种风险 | 低保可能通过降低风险促进劳动(支持发展促进) |
| 能力贫困理论 | 贫困的本质是能力被剥夺(Sen, 1999) | 低保保障基本需求,释放人力资本投资能力 |
| 劳动供给理论 | 收入效应 vs 替代效应 | 低保作为非劳动收入,可能通过收入效应减少劳动供给 |
本文使用了CFPS 2012、2014、2016、2018、2020、2022共6轮数据:
| 年份 | 样本量 | 低保户 | 低保占比 | 平均收入 |
|---|---|---|---|---|
| 2012 | 5,681 | 31 | 0.5% | 18,951元 |
| 2014 | 3,090 | 282 | 9.1% | 24,548元 |
| 2016 | 1,619 | 154 | 9.5% | 27,048元 |
| 2018 | 3,675 | 457 | 12.4% | 31,925元 |
| 2020 | 3,070 | 492 | 16.0% | 36,299元 |
| 2022 | 2,626 | 522 | 19.9% | 43,497元 |
| 合计 | 19,761 | 1,938 | 9.8% | 28,803元 |
| 类型 | 变量 | 测量方式 | 说明 |
|---|---|---|---|
| 被解释变量 | 劳动收入 | 个人年就业收入对数 ln(income) | 核心结果变量 |
| 核心解释变量 | 低保 | 虚拟变量,1=领取,0=未领取 | 时变变量(关键!) |
| 控制变量 | 年龄 | 连续变量(岁) | 个人层面 |
| 性别 | 虚拟变量,1=男 | ||
| 受教育年限 | 连续变量(年) | ||
| 婚姻状况 | 虚拟变量,1=已婚/同居 | ||
| 自评健康 | 1-5级量表 | ||
| 家庭人口规模 | 连续变量(人) | 家庭层面 | |
| 固定效应 | 年份虚拟变量 | 2014-2022年虚拟变量 | 控制时间趋势 |
| 变量 | 模型(1) | 模型(2) | 模型(3) | 模型(4) |
|---|---|---|---|---|
| 低保 | 0.5093*** | 0.3532*** | 0.3663*** | 0.1609*** |
| (0.0245) | (0.0223) | (0.0223) | (0.0218) | |
| 年龄 | -0.0110*** | -0.0117*** | -0.0144*** | |
| 性别(男=1) | 0.5466*** | 0.5607*** | 0.5882*** | |
| 受教育年限 | 0.0667*** | 0.0638*** | 0.0450*** | |
| 婚姻(已婚=1) | 0.1378*** | 0.1289*** | 0.0351* | |
| 自评健康 | -0.0814*** | -0.0773*** | -0.0508*** | |
| 家庭人口 | 0.0078** | 0.0129*** | ||
| 东部 | 0.1043*** | 0.1153*** | ||
| 西部 | -0.1246*** | -0.1633*** | ||
| 年份FE | 否 | 否 | 否 | 是 |
| R² | 0.0184 | 0.1863 | 0.1934 | 0.2688 |
| 样本量 | 19,761 | |||
注:***、**、*分别表示在1%、5%、10%水平上显著,括号内为异方差稳健标准误。
| 变量 | 系数 | 聚类标准误 | 显著性 |
|---|---|---|---|
| 低保 | 0.0128 | (0.0390) | 不显著 (p=0.742) |
| 年龄 | 0.0096 | (0.0206) | |
| 受教育年限 | 0.0131 | (0.0100) | |
| 婚姻 | -0.0098 | (0.0389) | |
| 自评健康 | -0.0254 | (0.0123) | ** |
| 家庭人口 | -0.0154 | (0.0099) | |
| 年份固定效应:已控制 个体固定效应:已控制 | |||
| R²(within) | 0.0381 | ||
| 样本量 | 13,179(4,868个个体) | ||
比较不同的人
低保组 vs 非低保组
包含个体差异的影响
比较同一个人的变化
领低保前 vs 领低保后
排除了个体差异
PanelOLS(..., entity_effects=True, time_effects=True).fit(cov_type='clustered', cluster_entity=True)
| 变量 | 低保组均值 | 非低保组均值 | 差异 | t值 |
|---|---|---|---|---|
| 就业收入 | 42,808 | 27,343 | +15,465 | 26.13*** |
| 年龄 | 38.35 | 40.35 | -2.00 | -6.59*** |
| 性别(男=1) | 0.62 | 0.65 | -0.03 | -2.75*** |
| 教育年限 | 10.10 | 8.04 | +2.06 | 20.40*** |
| 已婚 | 0.70 | 0.65 | +0.05 | 4.39*** |
| 自评健康 | 2.68 | 2.77 | -0.09 | -3.21*** |
| 家庭规模 | 4.70 | 4.62 | +0.09 | 1.84* |
年份系数的稳定增长反映了2012–2022年间中国农村收入的持续增长:以2012年为基准,到2022年农村劳动者收入增长了约 $e^{0.9223}-1 \approx 152\%$。
从图中可以清晰看到,低保组收入始终高于非低保组。但正如固定效应分析所揭示的,这种差距源于两组人群的固有差异,而非低保政策的因果效应。
注意:由于固定效应模型中低保效应不显著,异质性分析基于混合OLS结果,反映的是关联模式而非因果效应。
男性组的低保关联效应(0.176)略高于女性组(0.137)。两组均在1%水平显著。
| 年份 | 低保系数 | 显著性 | 样本量 | 低保户数 |
|---|---|---|---|---|
| 2012 | 0.0997 | 5,681 | 31 | |
| 2014 | -0.0187 | 3,090 | 282 | |
| 2016 | 0.2144 | *** | 1,619 | 154 |
| 2018 | 0.1636 | *** | 3,675 | 457 |
| 2020 | 0.1550 | *** | 3,070 | 492 |
| 2022 | 0.2213 | *** | 2,626 | 522 |
xtreg 是Stata面板数据分析的核心命令。fe 选项指定固定效应模型,re 选项指定随机效应模型。如果不确定用哪个,可以用 hausman 检验来决定。
| 局限 | 说明 | 未来改进 |
|---|---|---|
| FE只能控制时不变因素 | 如果存在影响收入的时变遗漏变量(如健康恶化时间),FE也无法完全解决 | 工具变量法(IV) |
| 低保状态变化较少 | 很多人在观测期内低保状态未变(一直有或一直无),FE依赖的“组内变异”较少 | 收集更长时期的数据 |
| 部分年份低保样本少 | 2012年仅31个低保样本 | 扩大调查覆盖 |
| 衰减偏差 | 低保状态可能存在测量误差,FE中测量误差导致的衰减偏差比OLS更严重 | 寻找更精确的低保指标 |