随着教育的逐步普及和教育层次的逐步提高,对教育质量监控的规范化要求,对监控的公平性、可比性要求,越发成为当前迫切需要研究解决的问题。这些问题的解决牵涉到一个基本理论和技术环节是考试等值(亦称测验等值)。因而,测验等值不仅仅是教育测量学研究和应用中的一个非常重要问题,也已日益成为教育管理督导部门关注的问题。 一、测验等值的应用和研究现状 有关测验等值的设想提出于50年代,但对这一理论的真正进行规模研究并付诸于实践却是由美国教育考试服务处(ETS)在本世纪70年代末组织发起的。80年代,测验等值技术被实用化,例如在对非英语为母语地区的英语考试(TOEFL)中和美国的学能考试(ACT)中都得到了较好的应用。但其应范围还限于大规模教育测验中。 由于历史原因,我国对教育测验学理论和应用技术的研究停滞了30年之久,80年代初,我国开始了以高考为先导的考试改革。改革使我国的考试从制度到内容、形式都发生了较大的变化。但随着改革的深入,更多的理论和实践问题被提出来,推动科研工作者的研究重点转向了现代教育测验技术的前沿领域——测验等值技术。测验等值技术研究作为我国“七五”、“八五”教育重点课题的子课题,都有立项,其成果在高考等大规模的考试中也有所应用。但由于我国大规模考试的题库尚处在探索建设之中,因而,我们对测验等值的实践研究仍显得十分欠缺。 另一方面,由于教育改革的深入,学校和教育基层管理部门迫切需求对考试质量、准确性和测量的有效地进行比较、分析。这对测验等值技术在局部地区的应用提出了要求。正是我国学校领域使用需求的推动,使人们能直接进入到小规模测验等值技术的研究中。 总体上说,测验等值主要有如下作用: (1)、可以把测量同一心理特质的不同次的测验分数进行等值。因为考生在测验考试中的得分与测验的试卷和题目密切联系,从命题方面来说,两份不同的试卷题目的难度、区分度及内容、形式难以做到一致。所以,要对两次测验的成绩进行比较,就必须施行等值。分数等值可以科学地建立评价体系,为教育主管部门和学校监控教育质量提供依据。 (2)、可以把测验考试的题目进行等值。不同测验考试的题目,有它的各项题目指标参数(简称题目参数),而这些参数是与考生团体有关,同样的题目,在不同的考生团体会得到不同的题目参数(如整体水平较低的团体求得的题目难度大,相反,整体水平较高的团体题目难度相对要小),可以认为,它们是位于不同的量表之中,而测验题目的参数等值就是要把它们的题目参数置于一个共同量表系统之上,而不受测验考试的考生团体的影响。 二、小规模测验等值的条件分析 测验等值,是指测量同一心理特质的不同次的测验分数或题目参数,通过一定的数学模型转换成同一单位系统中的量表,测验等值使不同次测验分数的解释有统一的量表标准,或者,不同的考生,使用了不同的试卷题目,考生所得的分数仍有可比性。 测验等值通过数学模型的转换,是独立于导出这种转换式时使用的具体考生组的。但并非任何测验都可以等值。首先,要进行等值的测验必须是测量同一心理特质的测验。即是说,只有同类性质的事物比较才有实际意义;其次,只有信度相同的测验才能等值。 (1)、公平性(Equity)。指的是两个或两个以上的测验的确是等值的,那么,无论其中任何一个测验作为基础进行等值转换,都应该是一样的。或者说,考生接受其中任一测验,都不会低估或高估其实际水平。 (2)、横跨群体有不变性(Invariance across groups)。因为测验等值是测验之间的客观存在的实际关系,所以,虽然测验等值是转换方程源样本,但转换方程独立于考生组的性质和施测时的具体情境。即是说,等值方程可使用于同分布的总体。 (3)、对称性(Symmetry)。指的是被作为等值基础的测验,无论是选取测验X或测验Y都不影响等值。既是说,测验等值的转换关系式,即适合把测验X的分数等值化为测验Y的分数,同时也可以把测验Y的分数化为测验X的分数,表明了转换关系可以双向进行,这与回归关系不同。 (4)、测验的一维性(Unidimensionality of the tests)。指的是被等值的测验都必须是测验同一维心理特质的。 这些所谓等值的条件是理论上的规定,实际测验极少能够严格满足这些条件。作为小规模的、尤其是校内测验,对这些条件的满足有其先天的优越性也有其先天的不足。如何发挥特长弥补不足,是小规模测验等值研究的重点。 小规模的或校内测验对于等值条件的优越性如下: 首先,一般情况下,这类测验是期中、期末考试等学业测验。同一年级,每学期的教学内容是一致的,因此考试测量的是相同知识点和同样的能力。这无疑很好地满足了“同一心理特质”的条件要求。 其次,校内测验是严格以教学大纲为命题依据的,这是两个测验具有平行性的根本保证。在我国基础教育阶段,教学内容的难点、重点、能力要求都有较为详细的文字材料,无论是试题的内容取样还是实际难度,平行条件都被很好地满足。 再次,对于测验一维性条件的满足。任何一个实用的测验都难以保证理论上的一维性。因为测验的目的是为了获取人的智力、能力水平的信息,而量越广泛,越全面,对人的内在状态的估计就越为准确。严格的一维性测验是与广泛的信息覆盖面相对立的,亦即测验等值的条件有悖于测验的目的。实际上,校内测验对一维性条件的满足要优于大规模的选拔性测验。