【教育评价】综合素质评价的量化路径
关键词:综合素质评价;素质教育;量化评价
综合素质评价中的量化数字,仅仅是学生某个属性水平的一种表征。这种表征方式成立或不成立,科学或不科学,首要的问题不是给出的数字有多少位,而是要确认数字系统与所要测量客体某种属性特征的对应关系。
综合素质评价是实践素质教育的重要环节,能有效引导和促进学生的全面发展,是从根本上扭转唯分数、唯考试等弊端的重要措施。
但围绕综合素质怎么评、怎么用的问题始终争论激烈。争论的焦点在综合素质评价的科学性、客观性上,由此引发出综合素质评价的种种理论和操作性问题。
综合素质评价的数量化不是数字化
综合素质评价结果的可用性在于评价的客观性。如何在评价中排除无关因素的干扰,从而使评价结果更为精确?这个疑问是对综合素质评价的诟病,也是困扰评价操作和结果使用的问题。
解决这个问题,量化路径是一个研究探索方向,其中量化方法成为有的综合素质评价方案的核心要素。
综合素质评价的量化研究固然是积极的探索,但在实际操作中,由于理论准备不足,存在一些误区。例如,有的学校方案规定,学生的前30%划为“优秀”等级。但是学生群体属性特征真的具有这样确定的比例差别吗?如果没有,就会导致对某一部分学生的评价结果带有较大的偏差。也许这种关系确实存在,但需要证明两点:一要证明那所学校的学生综合素质发展状态连续多年一直稳定,而且稳定在这个确定的百分比上;二要证明30%的学生与31%的学生综合素质的质性差异确实存在。至于一些评价方案中,指标的数量标定无有效依据、量化指标合成方法欠科学等问题,还在一定程度上存在。
数字仅仅是学生某个属性水平的一种表征。这种表征方式成立或不成立,科学或不科学,首要的问题不是给出的数字有多少位,也不是指标体系的规定就不可改变,而是要确认数字系统与所要测量客体某种属性特征的对应关系。因此,数字表征与属性特征必须具有质的一致性。
学生综合素质的种种属性虽然是客观存在,但由于当前我们对这些属性无法像用扫描电镜了解物质结构那样,通过图像来明晰它的机理,评价体系就只能是一种理论建构,是以心理学、教育测量学和行为分析为基础的建构。例如,某校把综合素质分为几个维度进行评价:思想品德、学业水平、身心健康、艺术素养、社会实践。这几个方面只是一种理论设定的维度。综合素质的评价目标、维度、指标之间,是一种理论的逻辑关系。这种逻辑关系一方面可以从实践中反复探索,通过感知经验来校正完善;另一方面也一定要依靠心理学、教育测量学等理论的支撑。
综合素质评价重在质性区分不是量化差异
综合素质评价体系的建构,是从一级指标到二级指标,再到末级指标逐级分解的。分解过程中往往会过于注重指标的操作性,容易忽略对评价内容范围的清晰界定,即界定“行为域”。从教育测量学的角度看,这是必不可少的测量条件。分解是为了把抽象的评价目标具象化,使一些内隐的、抽象的评价维度具体外化为显性行为,并在现实中找到相对应的行为观察点,使其可判断。因此,需要把综合素质评价总体的行为域分解为不同维度对应的行为域,每一项维度还要分解为评价指标。当评价目标分解到每一个指标后,这个指标也必须界定出所对应的行为域。评价指标的行为域需要每一位教师都清晰了解,它是教师的评价观测范围和依据。
在综合素质评价中,同一评价指标规定的量的差异,能否真正对指标标定的属性进行质的区分,而量的差异是否恰好是质的区别的表达?例如,5分和4分,不仅是量的不同,也必须有实质性的差异,并且5分和4分对应的水平差异大体相当于4分和3分的差异。这种质的区分,完全不是为某种需要而规定的比例的概念。
在综合素质评价中,每一项指标评价记录的有效性和可信性如何,能否进行有效的、合理的解释,可以通过过程性、内部性和外部性三类证据进行衡量。
过程性证据是指对指标体系理解正确、评价方法使用正确以及方法实施有“质量”保障。过程性证据,是从评价的程序上保障评价的结果。
内部性证据是指检查学生该项指标的表现与以往表现的一致性程度。这是用一段时间评价的记录进行的检验。当然,要用发展的观点看待学生。学生可能有进步或暂时的退步,但如果发现他们在一项具体指标上大起大落,可以提醒评价者慎重对待,进行再评估甄别。
外部性证据是指与其他证据源的比较。比如与自评、学生互评、家长评价的一致性比较。目前,学校对评价结果进行公示,就是一种寻求外部性证据的检验方法。
教师面对几十位学生,对每位学生的每项指标,不可能都从这3个方面进行考查,但教师需要有从这3个方面思考的意识。经过培训,能熟练掌握评价方法的教师,会把这种思考从有意识的行为变为自然自行的评价行为。
综合素质评价的关键,在于表征学生某个属性的水平,并不是为了给一个确定的量。数字和学生的属性之间的对应关系是最为重要的,至于数量本身的大小,仅仅是一种呈现方式。
综合素质评价的客观化不是刻意化
综合素质评价的目标和维度是高度抽象的,进行指标分解后,往往还要对应指标给出典型事例。然而,这些事先确定的具体事例,在评价学生过程中并非都能观察到。如果教师为了评价而刻意寻找这些事例,评价不仅失去了客观性,而且失去了评价本身的意义。
为了能让评价“真正”发生,评价教师需要十分明确。在很多情况下典型事例并不重要,重要的是寻找与评价指标有内在关联的因素,也就是寻找与典型事例相对应的“行为观察点”。这样评价才能够在自然状态下进行,结果也必然是客观的。
典型事例只是行为域范围的一个样本。从理论上说,这个行为域范围里所有具有代表性的事例,都可以作为典型事例。评价手册中例举的事例尽管具有典型性,但把所有列出的典型事例加在一起,也只是行为域范围内的极其少数行为。客观的评价不能刻意追求这些少数的典型行为。
评价要依据标准。什么是评价标准?标准不是一个条条准则,更不是确定的一个事例,而是一个行为范围,是“行为领域的规范”。无论是评价指标还是典型事例,都是指学生的一类行为。如“诚信待人,踏实做事”,并不是哪个具体待人和做事的特定行为。如果把它限定为特定行为,必然出现评价导向弊端。再如评价“尊敬师长”一项,如果仅仅记录见到老师主动问好,并不能证明这位学生具有“尊敬师长”的品质,用这个实例只是对这个品质存在的佐证或具体说明。最令人担心的是,评价手册中对于学生“尊敬师长”的评价列出了具体事例,比如“见到老师主动问好”,而学生仅能见到班主任自觉主动问好,回家见到长辈却少有主动性。按照这种严格而精确的典型事例进行记录评价,结果可能导致弱化学生的某一类观念和行为能力,却能够以“取巧”的方式获得好的评价结论。这就是典型的“唯分数”,且高分低能。这种找寻典型事例的刻意评价,失去了评价的客观性,也失去了评价本身的意义。
从一位学生的一个指标行为域中,必然可以找出多个具有代表性的事例。使用同一评价方案进行评价,记录的评价事例当然可以完全不同。但这并非评价不客观,并恰恰是综合素质丰富性、多样性所呈现的客观规律。以整齐划一的规定,追求评价的客观性,可能会适得其反。这便是由质性转为量化评价过程的复杂和困难之处。
对一位学生的评价,理论上应该呈现行为域中所有的事例,这才是对被评价者的精准考查,但不现实。因此评价结果也要采用“样本”,用典型事例的方式表达。在评价过程中,所记录和评价的行为也必须是表征学生行为表现的代表性“事件”,而绝不是偶然的或具体指定的行为记录。记录的原则是要符合他“一贯的或一类的行为”,而不是事先预设的具体的行为。不能通过某一个不能代表该学生行为特征的事例考查其内在水平。
值得注意的是,也许评价者某一时刻终于看到了被评价者的一个行为或一件事,事实确凿,并记录在案(无论正面还是负面行为)。但如果这只是偶然行为,代表不了被评价者的某一类行为,就不应该作为评价依据。即便是评价手册典型事例中列出了这一行为,也不应该视为对该生严格而精确的行为记录,因为对有些学生来说,这并不是他们的典型行为。
评价教师需要在有限时间和空间内完成评价观察和记录。教师能否根据所记录的有限行为,推断得到评价学生本真的真实状态,对于评价理论建构和实际操作都是科学性极强的考验。
综合素质评价的量化设计更倾向于结构化和规范化,评价内容具体,操作程序明确。量化设计偏重于教育测量学和教育统计学的方法,收集、整理、分析、解释数据,研究总体、个体、参数、变量之间的关系,试图通过收集主观性较少的事实性资料,采用实证性方法,从微观结构上来研究宏观性质及其规律。尽管量化评价借鉴抽样设计思想,但对于综合素质评价的样本确定、信息采集等多个方面,还是需要依靠主观方式确定,在评价过程中有时难以遵从概率抽样的规则。
值得注意的是,评价目标在抽象维度转为具象的外化行为时,通常需要两次以上的转换,每次转换都不可避免产生偏差。转换的层次和环节越多,具象性行为产生的偏差就越大,这将大大降低评价效度。当把量化评价结果进行综合时,简单的加权合成把低效度评价指标的误差等倍量放大,给总体结果带来了大的累积偏差。而采用综合思想,从总体上概括评价,偏差的积累效应要小得多。
质性评价的结构化程度较低,着重在对事物进行整体分析,通过对现象进行深入细致的了解后,再整体判断其本质,通过各方认同达成共识。
综合素质评价是多因素、多层次参与的复杂过程,其对象并不是确定性现象,而是发展变化的。采用质性与量化相结合的方法进行评价,是必然和可行的路径,可以把数据、事例、问题等融为一体,既有定量分析,又有定性分析,有助于帮助作出正确的判断评价。
综合素质评价采用定性与定量结合的方法,具有如下特点:一是能够对特定时间和特定空间的特征表现,从定量和定性多个角度全面分析;二是综合从微观到宏观的行为域和过程表现,可以对不同的事物作有联系的综合性分析,也可以进行纵、横向对比分析,能够更集中、更系统、更清楚地反映客观实际。三是定量与定性结合的评价方式,评价结果便于阅读、理解和利用。
但综合素质评价的所有方法和实施过程,离不开评价教师的职业素养和评价能力。综合素质评价本质上是带有主观成分的操作,这更要求对评价教师进行有效培训,并强化教师的职业忠诚度。只要深入理解综合素质评价理念、掌握运用评价方法、坚持教师的职业操守,教师就能够使综合素质评价结果更贴近真实,更为客观。
探讨综合素质评价量化方法的使用,有必要以教育测量学、教育统计学和教育评价理论为基础进行系统梳理研究。目前,综合素质评价有了大量实践成果积累,但理论研究还相当滞后。虽然不能按照理论化方法或理想方式在操作上一步到位,但是必须坚守综合素质评价的目标和方向,绝不可因为操作上的制约而改变评价的初衷和科学的路径。(本文系国家社会科学基金2019年度教育学一般课题“义务教育阶段学生综合素质评价研究”[BHA190140]成果)
作者:臧铁军
来源:《中国教育报》2020年04月30日