一 问题的提出 测验、考试被作为一种尺度来对人的心理特质进行测量,这种尺度应该具有稳定性。不同的考试版本之间应该具有一致性。对于同一个测量对象,不能用这个版本测量得到一个度量,用另一个版本测量却得到相差很大的另一个度量。根据国家教委的规定,汉语水平考试(HSK)成绩是外国留学生进入中国高等院校学习专业的必要条件(国家教育委员会,1992)。今天,国内外许多机构已经将HSK成绩作为人员选拔的一种依据。如果HSK证书的授予标准缺乏稳定性和公平性,那么,不仅会大大影响HSK的信度和效度,而且会对有关的决策产生误导,会使考生受到不公平的对待。 尽管我们在命题过程中总是尽量保持考试难度的稳定性,但不同试卷之间在难度、信度、分数分布方面的差别很难完全避免。这样,就需要将具有不同难度、分数分布的试卷的分数转换到一个统一的量尺之上,采用统一的量尺对应考者进行测量。这种将一个测验的不同版本的分数统一在一个量表上的过程即等值(equating)。 随着计算机技术的迅速发展,测验、考试的计算机化正在成为一种重要的发展趋势。项目反应理论的发展,为这种趋势提供了工具。使计算机辅助自适应性测验成为可能。计算机化的GRE已经问世,计算机化的TOFEL也将在不久问世。美国教育测验服务中心(ETS)已经宣布,1998年将在全世界大部分地区用计算机化的自适应性TOEFL取代原来的纸笔测验,2001年在全球完全取消纸笔测验(ETS,1997)。实现计算机化自适应性考试是摆在HSK面前的重要课题。计算机化自适应性测验开发中的一个核心环节就是在统一的量表上标定试题参数,实现各个考生所回答的不同题目之间的等值。 基于经典测验理论(以下简称CCT)之上的等值方法只能实现不同试卷之间的等值,满足“试卷库”建设的需要,很难实现在统一的量尺上标定试题难度和区分度的任务,很难满足题库建设和实现计算机辅助自适应性HSK的需要。实现基于项目反应理论(以下简称IRT)之上的测验等值是实现计算机辅助自适应性HSK考试的关键。 关于基于IRT的等值方法的研究,不仅可以提高现在以纸笔方式进行的HSK的等值可靠性,而且是实现计算机辅助自适应性HSK的前提。因此,我们开展了此项研究,旨在分别对基于CTT和IRT的多种等值方法进行比较,以期为HSK的题库建设确立最好的等值方式。 二 关于等值问题的研究状况 在心理测量学领域中,等值问题的研究开展较晚。虽然从50年代就有一些零星的研究,但80年代才引起比较广泛的注意(R.L.Brennan,ACT,1987)。在70年代、80年代出版的有关心理测量的教科书中几乎见不到关于等值问题的讨论,甚至一些90年代出版的大学心理测量学教科书中都未涉及测验的等值问题。Anastasi的Psychological Testing一书被认为是较权威的心理测量教科书。在1976年出版的第四版和1982年出版的第五版中均未涉及等值问题。在1988年出版的第六版中也仅仅提到一句话:“等值问题受到越来越多的关注,但此问题超出本书的范围。”(第98页)直至今日,关于等值问题的系统性文献也十分少见(Livingston,ETS,1996,第369页)。近年来,心理测量学家们对测验等值问题给予越来越多的关注,不仅提出了许多等值方法,而且围绕等值问题展开了多方面的研究。在等值数据资料的收集方面,即可以采用以“人”为媒介的共同被试组设计,也可以采用以“题”为媒介的“锚测验”设计。在等值数据资料处理的理论模型方面,可以依据基于真分数假设之上的CTT,也可以依据基于潜在特质假设之上的IRT。在两种理论模型的框架内,区别于数据收集的方式不同、所采用的计算方法不同等,又存在着多种不同的等值方法。等值研究的内容涉及到不同等值设计之间的比较、不同理论模型之间的比较、不同的等值系数估计方法之间的比较、关于造成等值误差因素的研究等。 从现有研究文献中反映出,像测验误差不可避免一样,等值误差也是不可避免的。事实上,各种模型、各种方法都具有或强或弱的一定假设,都仅仅适合一定的测验条件。有些假设是可以通过一定方式来检验的,有些假设是不可能或很难被检验的。(Braun,H.I.,Holland,P.W.1982,第25页)因此,测验等值是一项难度很大的工作。进行了许多等值研究的ETS学者Cook和Petersen曾经写到:“许多心理测量学家将等值视为一种基于一定理论之上的主观艺术,因为,同一测验的不同版本之间的真实关系,实际上是根本无法了解的。而且,真实的数据根本无法满足各种等值模型所包含的假设。”(1987,第225页)至今,对于如此众多的各种等值方法的误差来源、误差幅度尚不够清楚,对于各种方法的适用条件也不够清楚。 在我国,迄今等值是测验研究中最薄弱的一个环节,许多重要的考试都尚未实现统计等值。据笔者了解,目前实现了统计等值的考试有HSK、浙江省的高中会考以及英语水平考试(EPT)。HSK迄今所采用的等值数据的收集方式为“锚测验”设计,等值所依据的理论模型为经典测验理论,所采用的计算方法为Tucker线性等值方法。浙江省高中会考所采用的等值数据收集方式是共同组设计,将不同试卷同时施测于外省的同一组考生(蔡建民)。EPT所采用的等值数据收集方式为“锚测验”设计,等值所依据的理论模型即非经典理论,也不是IRT,而是自己创造的一种方法,基本上属于平均数等值(孙玉荣)。 现行HSK“锚题”等值的基本过程是:首先根据a组在锚题和在α卷上的表现、b组在锚题和在β卷上的表现以及全体在锚题上的表现来估计全体在α卷和在β卷上的表现,之后,根据全体在α卷和在β卷上的表现的估计值计算等值转换系数。借助“锚题”实现等值的原理是:不同试卷的两次考试的平均分之间总会存在差异。造成这种差异的原因有两方面。一是两份试卷的难度不同,一是参加考试的两组考生的水平不同。根据考生在“锚题”上的表现,我们可以估计出两组考生之间在水平上的差异。在排除了考生水平的差异的影响之后,我们就可以估计出两份试卷在难度上的差异。 HSK现行等值方法的局限性是非常明显的,主要有: 1.由于不同试卷施测于不同考生,等值过程受到来自考生和来自试卷两方面误差因素的影响; 2.由于Tucker模型假设不同试卷之间、锚题与不同试卷之间具有线性关系,假设对于两组考生锚题与全卷之间具有相同的回归,因此,考生样本水平之间的差别对等值结果影响很大,影响到等值的准确性;