私以为,这种类型的问题往往会沦为「讲故事」,而每个人的经历又大相径庭,因此往往难以在一个统一的框架内讨论问题。因此,本人希望从另外一个角度,即统计数据角度入手,来为这个问题提供一些基本的直觉。
首先要说明的是,诚然,接下来的数据分析并不一定准确,也并不一定有很强的代表性,但是,相对于个人生活经验而言,数据往往能够为我们提供更全面的信息。这也正是本人写作这个答案的原因。才疏学浅,还望不吝赐教。
本人使用的数据来源有三个:2011 年中国家庭金融调查(CHFS)、2012 年中国综合社会调查(CGSS)、2012 年中国家庭健康调查(CNHS)。
在具体分析之前,本人想首先展示统计出的收入频率分布直方图,让大家对我国收入分布有一个大致的了解(已排除零收入数据,部分无效数据与无法利用的数据;组距分得过小,抱歉)
2011 年中国家庭金融调查(CHFS):
2012 年中国综合社会调查(CGSS):
2012 年中国家庭健康调查(CNHS)(由于仅统计工资收入等原因,整体分布偏左一些):
这三个调查的样本量剔除对本题无效的样本后数目均上万,虽然可能还是不够大,但也能作为一个参考。
上述这些调查中的某些已经向学术界公开了最新的调查数据,但是,由于本人能力和精力所限,手头只有这些数据可以利用。在这里说声抱歉。作为补偿,本人将对这些数据加以调整。
还有一个问题,即除 CGSS 外,其他两个调查仅统计正常工资收入、奖金等,而不统计利息、地租等其他生产要素的报酬,因此在准确性上可能有一定偏差。因此,本文将以 CGSS 作为主要参考。
从图中,可以看到,收入取对数后近似于正态分布。明确了分布之后,我们首先搁置原题目,而对这个分布作以简单的分析,具体过程不再详述,结果如下(以 CGSS 为例):
- 分位数(即将数据由低至高排列,小于该数的数据占总体的比例达到时最终落到的数):
- 10%:3000 元
- 20%:5200 元
- 50%:20000 元
- 80%:41500 元
- 90%:50000 元
- 比例:
- 年收入少于 10000 元:27.60%
- 年收入多于 100000 元:3.33%
请各位读者注意,我们在这里使用的是 2012 年的调查数据,实际上,统计的应当是 2011 年的年收入。因此,从上述分析中可以看出,在 2011 年,年收入高于 50000 元的个人是极少的一部分。特别要指出的是,仍然有一半的劳动者(已经提前将收入为零的数据排除,因此可以认为不包括失业者与非劳动力)年收入少于 20000 元,不知这样的数据和各位读者的直觉是否一致?
当然,不可否认,中国经济发展十分迅速,自 2011 年到 2015 年这四年来,我国的名义国内生产总值增长了约 1.33 倍,因此,相对准确的算法应当是将这份数据乘以 1.33。当然,这样的算法也是不严谨的——不同收入群体的收入增长率可能差异很大,而在同一阶层内部,收入的增长率也可能千差万别。具体到高收入阶层,这点有可能更为明显——譬如股市行情向好,借入杠杆即可大赚一笔;熊市一来,隔三差五都能听到资本大鳄跳楼的消息。因此,我们只能做一个比较粗略的估计。
下面回到正题。本人的思路是,用对应的 GDP 增长率将这一百万元贴回调查进行的年份,再计算出对应的分位数。具体统计过程略去,结果如下:
- CHFS:0.064%
- CGSS:0.044%
- CNHS:0.004%(由于抽样方法与仅统计工资等原因,仅作参考)
若用 CGSS 来计算,年入百万的工作者约占所有工作者的万分之四至万分之五。不知这里的结果与各位预想的是否相符?
当然,用样本估计这种过于「极端」的数据,准确性当然比不上估计平均数、中位数之类的数字特征,加之样本本身的代表性问题,这里也仅仅是为大家提供一个思路,如果我找到了更好的数据,再来补充。
https://daily.zhihu.com/story/7391503