1 引言 语言表达能力是指语言学习者和使用者运用语言表达意义的能力,包括书面表达能力和口头表达能力(中华人民共和国教育部考试中心,2018:2)。不管是书面表达能力测试(以下简称写作测试)还是口头表达能力测试(以下简称口语测试),其中一个关键环节就是评分。评分是评分者依据评分工具对考生的作答内容进行价值判断与赋分评定的过程。语言测试界对评分工具的称谓不一,比较常见的有评分标准、评分量表、评分规则等,对应的英文表述有“scoring standards” “rating scales” “rating criteria”等。这类标准或规则主要对写作能力或口语能力做了宽泛的规定性描述,通常作为终结性测试评分的参照依据,基于此所得的评分结果大多仅报告总分,忽略了考生个性化的能力构成,也就无法显示分数背后的考生表现差异。分数相同的考生,其能力结构会存在不同,相同的分数通常反映本质不同的考生表现(Douglas,1994)。因此,这类评分标准或评分量表不能为考生、教师、分数使用者提供精准的能力反馈信息,也难以为学习者提供学习进阶的补救方向。 评分量规(scoring rubric)是由评价者(如教师、测试开发者等)开发的一种对学习者能力表现进行描述的评分工具,既规定了学习者应当具备的能力目标,也按照能力的不同维度对学习者不同表现的典型水平做了详细要求,是对学习目标的具体化。本文倡导用“评分量规”,原因有二:其一,评分量规既包括表现水平分级和评分特征描述语,也呈现了评分的具体步骤和赋分轨迹,前者属于“量化”描述,后者属于“操作规程”;不仅是评价性、教学性工具,也是一种评分工具和赋分流程,方便评分者分级定档。其二,与传统的评分量表、评分标准、评分规则等不同,评分量规的一个主要功能是能力构成反馈,它集能力诊断和表现反馈于一体,可以让学生、教师清楚判断是否有效完成了特定的任务要求、表现有哪些不足之处以及将来如何表现得更好,有利于优化教学方法和促进学生学习。这种评分量规主张评分的过程也是能力诊断的过程,强调赋分的针对性和反馈的指向性。 为了凸显评分量规的诊断作用和反馈效能,本文提出并阐述同分异构的理念,借鉴Upshur & Turner(1995)提出的EBB(empirically derived,binary choices,boundary-definition)评分量表开发模式,探讨二元决策树形在线评分量规的设计思路,以期为写作测试、口语测试等主观性测试评分工具的开发以及语言能力自评量规的设计提供新的启示。 2 语言测试中的同分异构理念 2.1 关注能力差异 不同考生在同一考试或同一考生在不同考试中获取的分数虽然相同,但相同分数反映的考生表现水平内部特征总会存在差异,分数所代表的能力结构不尽相同,这类似于化学中的“同分异构”现象。在语言测试领域,同分异构是指同样的分数、不同的能力构成。现行写作测试和口语测试的评分结果仅提供一个总分,缺乏对考生能力表现的具体反馈,以致考生无法得知分数反映的能力构成,教师也难以判断学生的表现差异,以致后续的精准干预往往缺失。因此,语言测试结果中“同分异构”的现象一直被忽视。 Douglas(1994:125)曾对口语测试中的同分异构现象做过研究,认为口语测试中相同的评分结果通常会反映本质不同的考生表现,因此基于该分数对考生口语能力和语言习得过程的解释可能会是无效的。不同评分者或不同情形下同一评分者赋分时,给出的分数虽然相同,但分数背后的意义和内涵可能会有很大差异(Bachman & Palmer,2010:341)。目前大多数写作测试和口语测试仍采用整体评分法评判考生的表现。有些测试即使采用了分项评分标准,但在实际评分过程中依然离不开整体评分的方法。整体性评分标准的描述语通常过于宽泛而不足以反映学生的能力发展特征,难以为教师开展课堂形成性评估提供恰当有效的指导(Upshur & Turner,1995;Fulcher,1996;Colby-Kelly & Turner,2007),评分结果对考生水平的可解释性也较低。要使评分结果能有效解释考生的能力构成和水平差异,采用的评分标准就要能全面体现测试任务的既定测试目标,评分结果也要尽可能反映不同考生差异化的能力结构。由上可见,关注能力差异是语言测试中同分异构理念的主要特征之一。 2.2 关涉认知诊断 认知诊断评估理论倡导将考生的能力结构模式化,利用合适的诊断模型呈现其个性化的认知构成和能力差异,通过向考生反馈能力诊断结果,进而提供补救措施。目前认知诊断评估在语言测试领域主要用于听力认知诊断(Aryadoust,2018;孟亚茹,2013;闵尚超、熊笠地,2019等)和阅读认知诊断(Kim,2015;范婷婷、曾用强,2016;杜文博、马晓梅,2018等)。囿于写作测试和口语测试的主观性及其测试任务的特殊性,鲜见关于写作能力和口语能力的认知诊断研究。 学习者的能力结构称为属性(attribute),是正确回答测试项目所要求的基本认知过程或能力(Leighton et al.,2004)。写作能力和口语能力具有多成分特征,难以通过测试任务细化能力属性,更无法像听力测试和阅读测试将能力属性嵌入单个选择性题目中。对于写作测试和口语测试而言,评分模型是能力各要素的操作化形式(Pishghadam & Shams,2013:73)。对写作能力和口语能力进行诊断评估只能通过评分模型体现出来。评分模型是诊断反馈信息的载体,是能力构念、评分属性与认知模型三者的高度匹配融合(吕生禄,2018)。