基于真实CFPS数据 · 面板数据升级版

低保政策对农村低收入家庭
劳动收入的影响

基于 CFPS 2012–2022 面板数据的实证分析
从截面数据到面板数据 — 从关联到因果的方法论升级

6轮面板数据19,761个观测混合OLS个体固定效应异质性分析
↓ 向下滚动开始学习 ↓

目 录

本指南共十一个部分,基于真实CFPS 2012–2022面板数据的回归结果撰写。

1论文框架升级:从截面到面板

1.1 原论文 vs 升级版:核心差异

原论文(截面数据)

仅使用CFPS 2022年一期数据

样本量:2,490个

方法:OLS + PSM

结论:低保家庭收入高25.2%

局限:无法排除个体异质性

升级版(面板数据)

使用CFPS 2012–2022年6期数据

样本量:19,761个观测(11,450人)

方法:混合OLS + 个体固定效应

结论:控制个体效应后,低保无显著因果效应

优势:更接近因果推断

1.2 升级版的逻辑链条

混合OLS
低保 → 收入↑17.4%
发现矛盾
是因果还是相关?
固定效应
控制个体差异
真相
低保效应≈0
核心发现
OLS: 0.161***  →  FE: 0.013
混合OLS显示低保家庭收入显著更高(系数0.1609,p<0.001),但个体固定效应模型显示这一“效应”完全消失(系数0.0128,p=0.742)。
这说明截面数据中观察到的正向关联并非低保的因果效应,而是由不可观测的个体特征驱动。

1.3 为什么这个发现很重要?

政策含义:很多人担心低保会“养懒人”(福利依赖假说)。原论文的截面分析发现低保家庭收入反而更高,似乎反驳了这个担忧。但面板数据分析告诉我们:这个“更高”可能只是因为领取低保的人本身就有某些让他们收入更高的特质(比如更年轻、教育水平更高、更善于申请政府补助等),而非低保政策本身的效果。

方法论意义:这个案例完美展示了为什么我们需要面板数据和固定效应模型——截面数据可能给出误导性的结论。

1.4 论文结构总览

一、绪论
提出问题
二、文献综述
理论基础
三、研究设计
面板数据+FE
四、实证结果
OLS vs FE
五、结论
政策建议
2文献综述与理论基础

2.1 文献综述的升级

升级版论文的文献综述在原有基础上增加了两个重要维度:

新增维度一:面板数据方法的文献
强调现有研究大多使用截面数据,缺乏面板数据的因果推断。张鹏龙等(2024)使用断点回归是一个进步,但仍限于局部地区。本文利用CFPS全国性面板数据是方法论上的重要推进。

新增维度二:固定效应方法在社会救助研究中的应用
国际上有很多使用面板FE研究福利政策的文献,但中国低保领域尚不充分。本文填补了这一空白。

2.2 两种竞争性假说

假说A:福利依赖

低保提高了“保留工资”(不工作也能获得的最低收入),降低了劳动参与动机。

代表:韩克庆(2008)

假说B:发展促进

低保缓解了流动性约束,降低了风险规避,反而促进了劳动参与和更高收益的经济活动。

代表:张鹏龙等(2024)

2.3 本文的理论贡献

关键洞察:以往研究在截面数据上争论这两种假说,但忽视了一个根本问题——选择偏差(Selection Bias)。领取低保的人和不领取的人在很多不可观测的维度上本来就不同。面板数据的个体固定效应可以控制这种不可观测异质性,从而更接近因果推断。

研究假设:
H1:截面分析中低保与劳动收入存在显著正向关联
H2:控制个体固定效应后,低保对劳动收入的影响可能减弱或消失
H3:低保效应在不同群体间存在异质性

2.4 理论基础

理论核心观点对本文的预测
贫困脆弱性理论贫困是“未来变穷的概率”,低保降低这种风险低保可能通过降低风险促进劳动(支持发展促进)
能力贫困理论贫困的本质是能力被剥夺(Sen, 1999)低保保障基本需求,释放人力资本投资能力
劳动供给理论收入效应 vs 替代效应低保作为非劳动收入,可能通过收入效应减少劳动供给
3面板数据构建与清洗

3.1 什么是面板数据?

截面数据就像拍了一张“合照”——你知道2022年每个人的情况,但不知道他们的过去。

面板数据就像拍了一系列“连续照片”——你能追踪同一批人在不同年份的变化。比如你能看到张三从2012年到2022年收入怎么变、是否开始领低保等。

面板数据的最大优势是:可以控制每个人不随时间变化的特征(如天生能力、性格、家庭背景),即使这些特征无法直接观测。

3.2 CFPS面板数据的构建

本文使用了CFPS 2012、2014、2016、2018、2020、2022共6轮数据:

年份样本量低保户低保占比平均收入
20125,681310.5%18,951元
20143,0902829.1%24,548元
20161,6191549.5%27,048元
20183,67545712.4%31,925元
20203,07049216.0%36,299元
20222,62652219.9%43,497元
合计19,7611,9389.8%28,803元
注意2012年低保样本极少(31人),这是因为2012年调查中ft3变量的编码方式不同,导致识别出的低保家庭较少。后续年份低保识别更为准确。

3.3 面板数据的关键:个体追踪ID

CFPS的核心优势在于它有稳定的个人ID(pid)。无论你在哪一年被调查,你的pid始终不变。这让我们能够追踪同一个人跨年份的变化。

本文的面板结构:
• 总观测量:19,761个“人-年”观测
• 唯一个体:11,450人
• 出现在2期及以上的个体:4,868人(固定效应模型使用这部分样本)
• 出现在3期及以上:2,207人

3.4 数据清洗步骤

统一变量名:不同年份的变量名不同(如收入在2012年叫income,在2018年叫emp_income),需要逐年对应并统一命名。
保留农村样本:根据每年的urban变量(urban12, urban16, urban22等),保留urban=0的农村居民。
保留在业劳动力:employ=1的样本。
保留16-75岁:劳动年龄人口。
保留收入为正:删除收入为0或负值(负值通常是缺失值编码如-8)。
构建低保变量:ft3=1为低保户,ft3=5为非低保户(2014年特殊:ft3=1为低保,ft3=0为非低保)。
删除缺失值:关键变量(年龄、性别、教育、健康)有缺失的样本删除。
按年份做1%截尾:每个年份分别对收入做1%和99%分位数截尾,避免极端值干扰。

3.5 跨年份数据合并代码

Python# ===== 逐年处理示例 ===== # 处理2022年 p22 = pd.read_stata("cfps2022person_202410.dta", convert_categoricals=False) f22 = pd.read_stata("cfps2022famecon_202410.dta", convert_categoricals=False) d22 = pd.DataFrame({ 'pid': p22['pid'], 'fid': p22['fid22'], 'age': p22['age'], 'gender': p22['gender'], 'eduy': p22['cfps2022eduy_im'], 'employ': p22['employ'], 'emp_income': p22['emp_income'], 'urban': p22['urban22'], 'provcd': p22['provcd22'], 'health': p22['qp201'], 'marriage': p22['marriage_last'], 'year': 2022 }) # 合并低保信息 dibao22 = f22[['fid22','ft3']].drop_duplicates('fid22') d22 = d22.merge(dibao22.rename(columns={'fid22':'fid'}), on='fid', how='left') # 追加所有年份后声明面板结构 panel = pd.concat([d12,d14,d16,d18,d20,d22]) panel = panel.set_index(['pid', 'year'])
4变量选取的依据与原因

4.1 变量总表

类型变量测量方式说明
被解释变量劳动收入个人年就业收入对数 ln(income)核心结果变量
核心解释变量低保虚拟变量,1=领取,0=未领取时变变量(关键!)
控制变量年龄连续变量(岁)个人层面
性别虚拟变量,1=男
受教育年限连续变量(年)
婚姻状况虚拟变量,1=已婚/同居
自评健康1-5级量表
家庭人口规模连续变量(人)家庭层面
固定效应年份虚拟变量2014-2022年虚拟变量控制时间趋势

4.2 面板数据中变量的新角色

时变变量 vs 时不变变量

在面板数据中,变量分为两类:
时变变量(随时间改变):低保状态、年龄、婚姻、健康、收入 —— 这些在固定效应模型中可以被估计
时不变变量(不随时间变化):性别、出生地 —— 这些在固定效应模型中会被“吸收”掉,无法估计其系数

关键:低保状态(dibao)是时变变量——一个人可能在2016年开始领低保,2020年脱保。正是这种“低保状态的变化”让固定效应模型能够识别低保的因果效应。

4.3 对数变换的理由

三大理由:
1. 让右偏的收入分布更接近正态
2. 减少极端值影响
3. 系数可解释为百分比变化(半弹性)

例如:dibao系数=0.1609意味着 $e^{0.1609}-1 \approx 17.4\%$

4.4 年份虚拟变量的作用

为什么要加年份虚拟变量?因为中国经济在2012–2022年间持续增长,所有人的收入都在上升。如果不控制年份效应,收入的上升趋势可能被错误地归因于低保。年份虚拟变量相当于说:“在同一年份内比较低保和非低保的人。”

从结果看,年份系数逐年递增(2014: 0.36, 2016: 0.43, 2018: 0.64, 2020: 0.73, 2022: 0.92),完美反映了中国农村收入的增长趋势。
5混合OLS回归详解

5.1 什么是“混合OLS”?

“混合OLS”(Pooled OLS)就是把所有年份的数据“混在一起”,当作一个大的截面数据来做普通最小二乘回归。它忽略了数据的面板结构——不利用“同一个人被观察多次”这个信息。

混合OLS相当于原论文中的OLS方法,只是用了更多年份的数据。

5.2 模型公式

$$\ln(\text{income}_{it}) = \alpha + \beta \cdot \text{dibao}_{it} + \gamma \cdot X_{it} + \delta_t + \varepsilon_{it}$$
• 下标 $i$ 表示第 i 个人,$t$ 表示第 t 年
• $\delta_t$ 是年份固定效应(年份虚拟变量)
• 其余符号含义同前

5.3 逐步回归结果

变量模型(1)模型(2)模型(3)模型(4)
低保0.5093***0.3532***0.3663***0.1609***
(0.0245)(0.0223)(0.0223)(0.0218)
年龄-0.0110***-0.0117***-0.0144***
性别(男=1)0.5466***0.5607***0.5882***
受教育年限0.0667***0.0638***0.0450***
婚姻(已婚=1)0.1378***0.1289***0.0351*
自评健康-0.0814***-0.0773***-0.0508***
家庭人口0.0078**0.0129***
东部0.1043***0.1153***
西部-0.1246***-0.1633***
年份FE
0.01840.18630.19340.2688
样本量19,761

注:***、**、*分别表示在1%、5%、10%水平上显著,括号内为异方差稳健标准误。

5.4 关键观察

系数从0.5093降到0.1609的过程:

模型(1)→(2):加入个人特征后从0.51降到0.35 → 说明低保组在教育、年龄等方面的“优势”占了很大一部分
模型(2)→(3):加入家庭和地区后基本不变(0.37) → 家庭和地区因素影响较小
模型(3)→(4):加入年份FE后从0.37降到0.16 → 说明一大部分“低保效应”其实是时间趋势效应(后期年份低保比例更高且收入更高)

但即使控制了这么多因素,低保系数仍然是0.1609且高度显著。这是否意味着低保真的提高了收入?且看固定效应模型的结果。
6个体固定效应模型(核心章节)

6.1 为什么需要固定效应?

想象一个场景:

张三是一个勤劳、善于社交的农民。他劳动收入较高,同时因为了解政策渠道,也申请了低保。
李四是一个比较内向、社交不广的农民。他收入较低,也不太了解申请低保的途径。

在截面数据中,我们会看到“张三领了低保且收入高,李四没领低保且收入低”→ 结论:“低保提高了收入”。

但真相是:张三收入高是因为他本来就勤劳能干,跟低保没关系。“勤劳能干”这个特质我们在数据中看不到(不可观测异质性),但它同时影响了收入和低保领取。

固定效应模型的思路:不比较不同的人(张三 vs 李四),而是比较同一个人在不同时间点的变化。这样就排除了所有不随时间变化的个体差异。

6.2 模型公式

$$\ln(\text{income}_{it}) = \alpha_i + \beta \cdot \text{dibao}_{it} + \gamma \cdot X_{it} + \delta_t + \varepsilon_{it}$$
与混合OLS唯一的区别:常数项 $\alpha$ 变成了 $\alpha_i$(个体固定效应)。

$\alpha_i$ 代表每个人特有的、不随时间变化的截距。它吸收了所有不可观测的个体差异:
• 天生能力、性格特质
• 家庭背景(父母教育、家族资源)
• 成长环境、社交网络
• 任何不随时间变化的因素

6.3 “组内变换”——固定效应的数学实现

实际操作中,固定效应通过“组内变换”(Within Transformation)实现:对每个变量减去其个体均值。

$$\widetilde{y}_{it} = y_{it} - \bar{y}_i, \quad \widetilde{x}_{it} = x_{it} - \bar{x}_i$$
然后对去均值后的数据做OLS回归。这样 $\alpha_i$ 就被消除了。

直觉:我们不再关心“张三和李四谁收入高”(水平差异),而是关心“张三自己的收入相对于他的平均值偏离了多少”(个体内变异),以及这种偏离是否与他低保状态的变化相关。

6.4 固定效应结果

变量系数聚类标准误显著性
低保0.0128(0.0390)不显著 (p=0.742)
年龄0.0096(0.0206)
受教育年限0.0131(0.0100)
婚姻-0.0098(0.0389)
自评健康-0.0254(0.0123)**
家庭人口-0.0154(0.0099)
年份固定效应:已控制   个体固定效应:已控制
R²(within)0.0381
样本量13,179(4,868个个体)
核心发现
β = 0.0128 (不显著)
控制个体固定效应后,低保对劳动收入的影响几乎为零(1.3%),且在统计上完全不显著(t=0.33, p=0.742)。
这意味着:截面数据中观察到的“低保家庭收入更高”并非因果关系,而是由不可观测的个体异质性驱动。

6.5 OLS vs FE 的对比解读

混合OLS
0.161***

比较不同的人

低保组 vs 非低保组

包含个体差异的影响

固定效应
0.013

比较同一个人的变化

领低保前 vs 领低保后

排除了个体差异

为什么差距这么大?

OLS的0.1609是一个“混合效应”,包含了:
• 低保本身的因果效应(可能接近0)
• 不可观测因素的影响(领低保的人恰好有某些导致更高收入的特质)

FE的0.0128排除了第二项,只保留了第一项。结果是:几乎全部的“低保效应”都来自选择偏差,真正的因果效应约为零。

这不代表低保没用——低保的主要功能是“保障基本生活”而非“提高劳动收入”。但确实说明,低保既没有“养懒人”,也没有显著“促进劳动”。

6.6 聚类标准误

固定效应模型使用了按个体聚类的标准误(Cluster-Robust SE)。原因是:同一个人在不同年份的误差项可能相关(如张三某一年运气好,之后几年可能也持续受益)。聚类标准误允许同一个体内的误差项存在任意形式的相关性。

Python命令:PanelOLS(..., entity_effects=True, time_effects=True).fit(cov_type='clustered', cluster_entity=True)
7图表阅读方法

7.1 描述性统计表的阅读

变量低保组均值非低保组均值差异t值
就业收入42,80827,343+15,46526.13***
年龄38.3540.35-2.00-6.59***
性别(男=1)0.620.65-0.03-2.75***
教育年限10.108.04+2.0620.40***
已婚0.700.65+0.054.39***
自评健康2.682.77-0.09-3.21***
家庭规模4.704.62+0.091.84*
关键陷阱:低保组收入高15,465元、更年轻、教育更高——这些差异解释了为什么截面OLS会发现“低保正效应”。低保组在很多方面“先天条件更好”。这恰恰是固定效应模型要解决的问题。

7.2 回归结果表中的核心数字

每个数字怎么读:

系数 0.1609:低保家庭收入对数比非低保家庭高0.161,即约17.4%
标准误 (0.0218):估计的精度。越小越精确
t值 = 0.1609/0.0218 = 7.38:信号/噪声比,>2.576就是1%显著
***:在1%水平显著,非常有把握
R² = 0.2688:模型能解释收入变异的26.9%

对比固定效应:
系数 0.0128,标准误 0.0390 → t值 = 0.0128/0.0390 = 0.33 → 远小于1.96 → 完全不显著

7.3 如何解读“年份固定效应系数”

年份系数的稳定增长反映了2012–2022年间中国农村收入的持续增长:以2012年为基准,到2022年农村劳动者收入增长了约 $e^{0.9223}-1 \approx 152\%$。

7.4 可视化:收入变化趋势

从图中可以清晰看到,低保组收入始终高于非低保组。但正如固定效应分析所揭示的,这种差距源于两组人群的固有差异,而非低保政策的因果效应。

8异质性与时间趋势分析

8.1 异质性分析结果(混合OLS)

注意:由于固定效应模型中低保效应不显著,异质性分析基于混合OLS结果,反映的是关联模式而非因果效应。

按性别

男性组 (n=12,826)
0.1759***
女性组 (n=6,935)
0.1373***

男性组的低保关联效应(0.176)略高于女性组(0.137)。两组均在1%水平显著。

按年龄

青年(<35)
0.1652***
n=7,514
中年(35-59)
0.1157***
n=10,819
老年(≥60)
0.1690
不显著 (n=1,428)

按教育程度

低教育(≤6年, n=6,831)
0.0452
不显著 (p=0.374)
高教育(>6年, n=12,930)
0.1890***

8.2 时间趋势:低保效应逐年变化

年份低保系数显著性样本量低保户数
20120.09975,68131
2014-0.01873,090282
20160.2144***1,619154
20180.1636***3,675457
20200.1550***3,070492
20220.2213***2,626522
有趣的模式:低保的截面关联效应在2016年后变得显著。可能原因:
1. 2012年低保样本极少(31人),统计检验力不足
2. 2020年脱贫攻坚决胜后,低保制度更加完善,覆盖面更精准
3. 后期年份的低保户更多,统计检验力更强
4. 但需记住:这些仍是关联而非因果
9公式推导与数学基础

9.1 OLS估计量(矩阵形式)

$$Y = X\beta + \varepsilon$$ $$\hat{\beta}_{OLS} = (X'X)^{-1}X'Y$$
推导:最小化 $S = (Y-X\beta)'(Y-X\beta)$
对 $\beta$ 求导:$\frac{\partial S}{\partial \beta} = -2X'Y + 2X'X\beta = 0$
解出:$\hat{\beta} = (X'X)^{-1}X'Y$

9.2 固定效应估计量的推导

$$y_{it} = \alpha_i + x_{it}'\beta + \varepsilon_{it}$$
步骤一:对每个个体 i 取时间均值:
$\bar{y}_i = \alpha_i + \bar{x}_i'\beta + \bar{\varepsilon}_i$

步骤二:原式减去均值(组内变换):
$(y_{it} - \bar{y}_i) = (x_{it} - \bar{x}_i)'\beta + (\varepsilon_{it} - \bar{\varepsilon}_i)$
即:$\widetilde{y}_{it} = \widetilde{x}_{it}'\beta + \widetilde{\varepsilon}_{it}$

注意 $\alpha_i$ 被消去了!

步骤三:对去均值后的数据做OLS:
$$\hat{\beta}_{FE} = (\widetilde{X}'\widetilde{X})^{-1}\widetilde{X}'\widetilde{Y}$$

9.3 为什么FE能解决遗漏变量偏差?

假设真实模型是:$y_{it} = \beta x_{it} + \gamma c_i + \varepsilon_{it}$
其中 $c_i$ 是不可观测的个体特征(如能力)。

如果 $c_i$ 与 $x_{it}$ 相关(能力同时影响收入和低保申请),OLS估计的 $\beta$ 就有偏差:
$$\hat{\beta}_{OLS} = \beta + \gamma \cdot \frac{Cov(x,c)}{Var(x)}$$

但在FE中,$c_i$ 被组内变换消去(因为 $c_i - \bar{c}_i = 0$),所以:
$$\hat{\beta}_{FE} = \beta$$
是无偏的(在条件独立假设下)。

9.4 对数模型系数解释

$$\ln(y_1) - \ln(y_0) = \beta \implies \frac{y_1}{y_0} = e^{\beta}$$ $$\text{百分比变化} = (e^{\beta} - 1) \times 100\%$$
OLS: $e^{0.1609} - 1 = 17.4\%$(低保关联效应)
FE: $e^{0.0128} - 1 = 1.3\%$(低保因果效应,不显著)

9.5 聚类标准误的公式

$$\hat{V}_{cluster} = (X'X)^{-1} \left(\sum_{g=1}^{G} X_g' \hat{\varepsilon}_g \hat{\varepsilon}_g' X_g \right) (X'X)^{-1}$$
其中 $g$ 表示聚类组(这里是个体),$X_g$ 和 $\hat{\varepsilon}_g$ 是第 g 个个体的所有观测值。
这允许同一个体内的误差项存在任意相关性。

9.6 t检验

$$t = \frac{\hat{\beta}}{SE(\hat{\beta})}$$
OLS低保: $t = 0.1609/0.0218 = 7.38$ → 高度显著 (***)
FE低保: $t = 0.0128/0.0390 = 0.33$ → 完全不显著

|t| > 2.576 → 1%显著 (***)
|t| > 1.96 → 5%显著 (**)
|t| > 1.645 → 10%显著 (*)
10Stata / Python 完整操作教程

10.1 数据准备(Stata)

Stata* ======================================== * 数据准备(假设已合并好面板数据) * ======================================== * 加载合并后的面板数据 use panel_data.dta, clear * 声明面板结构(核心!) xtset pid year * pid: 个体标识符 * year: 时间标识符 * 检查面板结构 xtdescribe * 显示每个人出现在哪些年份 * 生成变量 gen ln_income = ln(emp_income) gen east = inlist(provcd, 11,12,13,21,31,32,33,35,37,44,46) gen west = inlist(provcd, 15,45,50,51,52,53,54,61,62,63,64,65) gen married = inlist(marriage, 2, 3)

10.2 混合OLS回归

Stata* ======================================== * 混合OLS(对应论文表4) * ======================================== * 定义控制变量宏 global personal "age gender eduy married health" global family "familysize east west" * 模型1:仅低保 reg ln_income dibao, robust est store m1 * 模型2:+个人特征 reg ln_income dibao $personal, robust est store m2 * 模型3:+家庭+地区 reg ln_income dibao $personal $family, robust est store m3 * 模型4:+年份固定效应 reg ln_income dibao $personal $family i.year, robust est store m4 * 输出对比表 esttab m1 m2 m3 m4, se star(* 0.1 ** 0.05 *** 0.01) r2

10.3 个体固定效应回归(核心!)

Stata* ======================================== * 个体固定效应(对应论文表5) * ======================================== * 方法一:xtreg命令(推荐) xtreg ln_income dibao age eduy married health /// familysize i.year, fe vce(cluster pid) * fe: 固定效应模型 * vce(cluster pid): 按个体聚类标准误 * 方法二:reghdfe命令(更灵活,需安装) * ssc install reghdfe reghdfe ln_income dibao age eduy married health /// familysize, absorb(pid year) vce(cluster pid) * 同时吸收个体和年份固定效应
xtreg 是Stata面板数据分析的核心命令。fe 选项指定固定效应模型,re 选项指定随机效应模型。如果不确定用哪个,可以用 hausman 检验来决定。

10.4 Python等价代码

Python# ======================================== # 使用 linearmodels 包实现固定效应 # ======================================== import pandas as pd import statsmodels.api as sm from linearmodels.panel import PanelOLS panel = pd.read_pickle('panel_data.pkl') # 混合OLS y = panel['ln_income'] X = sm.add_constant(panel[['dibao','age','gender', 'eduy','married','health','familysize', 'east','west']]) # 添加年份虚拟变量 year_dummies = pd.get_dummies(panel['year'], prefix='yr', drop_first=True, dtype=float) X = pd.concat([X, year_dummies], axis=1) ols = sm.OLS(y, X).fit(cov_type='HC1') print(ols.summary()) # 个体固定效应 fe_data = panel.set_index(['pid', 'year']) y_fe = fe_data['ln_income'] X_fe = sm.add_constant(fe_data[['dibao','age', 'eduy','married','health','familysize']]) fe = PanelOLS(y_fe, X_fe, entity_effects=True, time_effects=True) fe_result = fe.fit(cov_type='clustered', cluster_entity=True) print(fe_result.summary)

10.5 异质性分析

Stata* ======================================== * 异质性分析(对应论文表6) * ======================================== * 按性别 reg ln_income dibao $personal $family i.year /// if gender==1, robust reg ln_income dibao $personal $family i.year /// if gender==0, robust * 按年龄组 reg ln_income dibao $personal $family i.year /// if age<35, robust reg ln_income dibao $personal $family i.year /// if age>=35 & age<60, robust reg ln_income dibao $personal $family i.year /// if age>=60, robust * 按教育 reg ln_income dibao $personal $family i.year /// if eduy<=6, robust reg ln_income dibao $personal $family i.year /// if eduy>6, robust
11核心发现与研究启示

11.1 三大核心发现

发现一:截面分析中低保与劳动收入显著正相关
混合OLS显示,控制个人、家庭、地区和年份效应后,低保家庭劳动收入仍高约17.4%(系数0.1609,p<0.001)。但这个正向关联可能来自选择偏差。
发现二:固定效应模型显示低保无显著因果效应
个体固定效应回归中,低保系数降至0.0128且完全不显著(t=0.33, p=0.742)。这意味着截面数据中的正向关联完全由不可观测的个体异质性驱动。低保政策本身既没有显著促进也没有显著抑制劳动收入。
发现三:低保关联效应存在群体差异和时间趋势
截面分析中,低保关联效应在男性(0.176)、青年(0.165)、高教育(0.189)群体中更大;在低教育(0.045,不显著)和老年(0.169,不显著)群体中较弱。2016年后效应变得更加显著。但这些模式需结合FE结果理解——它们反映的是选择效应而非因果效应。

11.2 方法论启示

截面数据 ≠ 因果推断

这篇论文完美展示了一个重要的方法论教训:
• 截面OLS和PSM虽然可以控制可观测的差异,但无法控制不可观测的差异
• 面板数据的固定效应可以控制所有不随时间变化的不可观测因素
• 当OLS和FE结论相反时,说明选择偏差严重,应以FE结果为准

数据证据:低保系数从OLS的0.1609降到FE的0.0128,降幅高达92%。这意味着OLS中92%的“低保效应”实际上是选择偏差。

11.3 政策建议

第一,低保制度并未导致“福利依赖”。固定效应结果表明低保对劳动收入无显著负面影响,打消了“养懒人”的顾虑。

第二,低保的核心功能是“兜底保障”而非“促进发展”。不应对低保的劳动激励效果抱过高期望,而应将其定位为基本生活保障网。

第三,应配套其他就业促进政策。如果要提高低收入群体的劳动收入,需要就业培训、技能提升等专门的发展性政策,形成“保障+发展”的综合帮扶模式。

11.4 研究局限

局限说明未来改进
FE只能控制时不变因素如果存在影响收入的时变遗漏变量(如健康恶化时间),FE也无法完全解决工具变量法(IV)
低保状态变化较少很多人在观测期内低保状态未变(一直有或一直无),FE依赖的“组内变异”较少收集更长时期的数据
部分年份低保样本少2012年仅31个低保样本扩大调查覆盖
衰减偏差低保状态可能存在测量误差,FE中测量误差导致的衰减偏差比OLS更严重寻找更精确的低保指标
特别说明“衰减偏差”(Attenuation Bias):

如果低保变量有测量误差(比如有人实际领了低保但问卷中回答“没有”),这种误差在FE中的影响比OLS更大。因为组内变换放大了“信噪比”中的噪声。这可能是FE系数接近零的部分原因。但即使考虑这一点,从0.1609降到0.0128的幅度也远超测量误差能解释的范围。