从知识进化论(波普尔,1987)的视角来看,学术研究往往是在已有基础上的积累前进,当理论、方法或数据当中任何一方面取得进步时,新的研究成果得以产生,而此前被学术界接受的研究结论就有可能被置于怀疑的境地。一种常见的情况是原有研究者受限于现实条件而只能抛弃理想化的研究方案,转而采用可行性更强的方案。这样的条件下取得的研究成果尽管未必能令人完全信服,但向可行性的妥协造成了多大的偏差难以评估,在没有更好的选择时也有可能说服学术界加以接受。一旦新的研究者有条件采用更为严谨的研究方案对同一问题进行研究,此前的研究结果就可能需要得到更新。例如,由于无法观察到总体情况,研究者采用抽样调查来获得对总体参数的无偏估计;由于数据采集成本过高,研究者实施的抽样方案未必能满足随机抽样的理想条件,而会存在一定妥协。这些妥协往往伴随着一定的代价,但是由于抽样调查的稀缺,针对同类问题往往只有屈指可数的可比较的调查数据,因而基于这些数据进行的研究缺乏有效的反馈回路来校验其结果的可靠性。 本文试图提供对教育不平等议题下一类研究的校验。教育不平等本身是非常重要的研究课题,获得对总体参数的准确估计不论是对学术研究还是政策制定都有非常明显的价值,因此对其进行精细的讨论很有意义。教育不平等有多种表现形式,而得到研究最广泛的问题之一便是不同群体在获得教育机会方面的不平等。例如,家庭背景、地域、城乡、性别、民族等等重要的变量都可能对教育机会的获取产生影响,从而造成群体之间的教育不平等。到底不同群体之间的教育不平等差异多大?不平等的变化趋势如何?这一差异是如何产生的? 要准确地回答这些关于教育不平等的问题,定量研究不可或缺。对教育不平等的定量研究,采用的数据可以分为三类。第一类是一般性的调查数据,例如中国1%人口抽样调查、中国儿童情况抽样调查(张春泥、谢宇,2017)、中国家庭追踪调查(陈伟、乌尼日其其格,2016;李忠路、邱泽奇,2016)、中国综合社会调查(杨中超,2016)等等。第二类是生源地数据,这类数据的研究总体是参与同一场教育竞争的人群。例如,某年某省全部参与高考的学生构成的数据,就是一个典型的生源地数据(李代,2017)。与之相对,第三类是目标地数据。在中国,来自全国不同生源地的学生经过高考而汇聚到大学之中。他们所进入的大学,便是我们所说的升学“目标地”,而从大学生中获得的数据,便构成了目标地数据。例如,首都大学生成长跟踪调查(吴晓刚,2016)、首都高校生发展状况调查(叶晓阳、丁延庆,2015)、学籍卡数据(梁晨等,2012;梁晨、董浩,2015)。 这三类数据的本质差别不在于是否进行抽样,而在于总体的构建与作为研究对象的升学机制是否相互独立。一般性调查数据在构建总体时并不涉及升学的问题,也就是说总体的构建与升学相独立。生源地数据在构建总体时,选取的是升学发生之前就能定义出来的、相互竞争教育机会的人群。目标地数据在构建总体时,选取的是升学过程产生的、获得了教育机会的人群。从理论上来讲,要测量升学过程中出现的教育不平等问题,前两种数据都可能提供准确的结果,而第三种数据多数情况下不能提供准确的结果,因为它缺失了教育竞争中失败者的信息。尽管有不可回避的缺陷,但是因为数据收集方面的便利,目标地数据在大量的研究中得到了使用。本文想指出的是,采用目标地数据进行定量研究,得到的结果很可能存在可阐释性方面的问题、可推广性方面的问题,这些都使得研究结果的价值大打折扣,而且难以与前两类研究得到的结果直接进行比较。 为了说明这些问题,本文以“首都大学生成长跟踪调查”(后文简称“首都调查”)的数据生成过程为例进行分析。之所以选取这一数据进行案例分析,是因为它是典型的目标地数据,而且有不少重要的研究都基于这一数据进行,例如,吴晓刚(2016)、谢桂华和张阳阳(2016)、李骏(2016a,b)、李忠路(2016)、许多多(2017)、朱斌(2018)等等。由此可见,这一数据在研究教育不平等议题方面是质量相对较高的,否则不应产出这么多得以在优秀学术期刊发表的成果。以这一数据为例进行讨论,有更大的典型性。这一调查数据并未公开,因此本文并没能掌握数据本身①。但是数据生成的过程在研究者的文章中得到清晰的介绍(吴晓刚,2016;李路路,2013),这使我们可以对某一总体数据进行筛选,按照“首都调查”实施抽样的步骤生成模拟数据,从而判断是否能够基于该调查数据得出可靠的研究结论。 要生成模拟数据,本文使用的是某省某年的完整高考数据。该高考数据中包含了全部报考考生的个人信息、考试成绩及录取结果。这一数据包含了全部报名考试学生的信息,因此是一个总体数据。由于包含了录取结果,对其按一定的条件取子集,能够生成目标地数据。如果目标地数据是有效、可信的,那么用总体数据和模拟生成出来的目标地数据分别进行同样的分析,得到的结果应该是完全一致或至少非常接近的。如果不然,就说明用目标地数据进行分析的结果不那么可靠。因此,对生成的目标地数据重复对总体数据进行的分析,比较二者结果的差异,可以评估目标地数据的可靠程度。