【教育评价】综合素质评价的量化路径

惠众观察

惠众观察您的位置：主页 > 惠众观察 >

【教育评价】综合素质评价的量化路径

2020-05-06 返回列表

关键词：综合素质评价;素质教育;量化评价
　　综合素质评价中的量化数字，仅仅是学生某个属性水平的一种表征。这种表征方式成立或不成立，科学或不科学，首要的问题不是给出的数字有多少位，而是要确认数字系统与所要测量客体某种属性特征的对应关系。

　　综合素质评价是实践素质教育的重要环节，能有效引导和促进学生的全面发展，是从根本上扭转唯分数、唯考试等弊端的重要措施。

　　但围绕综合素质怎么评、怎么用的问题始终争论激烈。争论的焦点在综合素质评价的科学性、客观性上，由此引发出综合素质评价的种种理论和操作性问题。

　　综合素质评价的数量化不是数字化

　　综合素质评价结果的可用性在于评价的客观性。如何在评价中排除无关因素的干扰，从而使评价结果更为精确？这个疑问是对综合素质评价的诟病，也是困扰评价操作和结果使用的问题。

　　解决这个问题，量化路径是一个研究探索方向，其中量化方法成为有的综合素质评价方案的核心要素。

　　综合素质评价的量化研究固然是积极的探索，但在实际操作中，由于理论准备不足，存在一些误区。例如，有的学校方案规定，学生的前30%划为“优秀”等级。但是学生群体属性特征真的具有这样确定的比例差别吗？如果没有，就会导致对某一部分学生的评价结果带有较大的偏差。也许这种关系确实存在，但需要证明两点：一要证明那所学校的学生综合素质发展状态连续多年一直稳定，而且稳定在这个确定的百分比上；二要证明30%的学生与31%的学生综合素质的质性差异确实存在。至于一些评价方案中，指标的数量标定无有效依据、量化指标合成方法欠科学等问题，还在一定程度上存在。

　　数字仅仅是学生某个属性水平的一种表征。这种表征方式成立或不成立，科学或不科学，首要的问题不是给出的数字有多少位，也不是指标体系的规定就不可改变，而是要确认数字系统与所要测量客体某种属性特征的对应关系。因此，数字表征与属性特征必须具有质的一致性。

　　学生综合素质的种种属性虽然是客观存在，但由于当前我们对这些属性无法像用扫描电镜了解物质结构那样，通过图像来明晰它的机理，评价体系就只能是一种理论建构，是以心理学、教育测量学和行为分析为基础的建构。例如，某校把综合素质分为几个维度进行评价：思想品德、学业水平、身心健康、艺术素养、社会实践。这几个方面只是一种理论设定的维度。综合素质的评价目标、维度、指标之间，是一种理论的逻辑关系。这种逻辑关系一方面可以从实践中反复探索，通过感知经验来校正完善；另一方面也一定要依靠心理学、教育测量学等理论的支撑。

　　综合素质评价重在质性区分不是量化差异

　　综合素质评价体系的建构，是从一级指标到二级指标，再到末级指标逐级分解的。分解过程中往往会过于注重指标的操作性，容易忽略对评价内容范围的清晰界定，即界定“行为域”。从教育测量学的角度看，这是必不可少的测量条件。分解是为了把抽象的评价目标具象化，使一些内隐的、抽象的评价维度具体外化为显性行为，并在现实中找到相对应的行为观察点，使其可判断。因此，需要把综合素质评价总体的行为域分解为不同维度对应的行为域，每一项维度还要分解为评价指标。当评价目标分解到每一个指标后，这个指标也必须界定出所对应的行为域。评价指标的行为域需要每一位教师都清晰了解，它是教师的评价观测范围和依据。

　　在综合素质评价中，同一评价指标规定的量的差异，能否真正对指标标定的属性进行质的区分，而量的差异是否恰好是质的区别的表达？例如，5分和4分，不仅是量的不同，也必须有实质性的差异，并且5分和4分对应的水平差异大体相当于4分和3分的差异。这种质的区分，完全不是为某种需要而规定的比例的概念。

　　在综合素质评价中，每一项指标评价记录的有效性和可信性如何，能否进行有效的、合理的解释，可以通过过程性、内部性和外部性三类证据进行衡量。

　　过程性证据是指对指标体系理解正确、评价方法使用正确以及方法实施有“质量”保障。过程性证据，是从评价的程序上保障评价的结果。

　　内部性证据是指检查学生该项指标的表现与以往表现的一致性程度。这是用一段时间评价的记录进行的检验。当然，要用发展的观点看待学生。学生可能有进步或暂时的退步，但如果发现他们在一项具体指标上大起大落，可以提醒评价者慎重对待，进行再评估甄别。

　　外部性证据是指与其他证据源的比较。比如与自评、学生互评、家长评价的一致性比较。目前，学校对评价结果进行公示，就是一种寻求外部性证据的检验方法。

　　教师面对几十位学生，对每位学生的每项指标，不可能都从这3个方面进行考查，但教师需要有从这3个方面思考的意识。经过培训，能熟练掌握评价方法的教师，会把这种思考从有意识的行为变为自然自行的评价行为。

　　综合素质评价的关键，在于表征学生某个属性的水平，并不是为了给一个确定的量。数字和学生的属性之间的对应关系是最为重要的，至于数量本身的大小，仅仅是一种呈现方式。

　　综合素质评价的客观化不是刻意化

　　综合素质评价的目标和维度是高度抽象的，进行指标分解后，往往还要对应指标给出典型事例。然而，这些事先确定的具体事例，在评价学生过程中并非都能观察到。如果教师为了评价而刻意寻找这些事例，评价不仅失去了客观性，而且失去了评价本身的意义。

　　为了能让评价“真正”发生，评价教师需要十分明确。在很多情况下典型事例并不重要，重要的是寻找与评价指标有内在关联的因素，也就是寻找与典型事例相对应的“行为观察点”。这样评价才能够在自然状态下进行，结果也必然是客观的。

　　典型事例只是行为域范围的一个样本。从理论上说，这个行为域范围里所有具有代表性的事例，都可以作为典型事例。评价手册中例举的事例尽管具有典型性，但把所有列出的典型事例加在一起，也只是行为域范围内的极其少数行为。客观的评价不能刻意追求这些少数的典型行为。

　　评价要依据标准。什么是评价标准？标准不是一个条条准则，更不是确定的一个事例，而是一个行为范围，是“行为领域的规范”。无论是评价指标还是典型事例，都是指学生的一类行为。如“诚信待人，踏实做事”，并不是哪个具体待人和做事的特定行为。如果把它限定为特定行为，必然出现评价导向弊端。再如评价“尊敬师长”一项，如果仅仅记录见到老师主动问好，并不能证明这位学生具有“尊敬师长”的品质，用这个实例只是对这个品质存在的佐证或具体说明。最令人担心的是，评价手册中对于学生“尊敬师长”的评价列出了具体事例，比如“见到老师主动问好”，而学生仅能见到班主任自觉主动问好，回家见到长辈却少有主动性。按照这种严格而精确的典型事例进行记录评价，结果可能导致弱化学生的某一类观念和行为能力，却能够以“取巧”的方式获得好的评价结论。这就是典型的“唯分数”，且高分低能。这种找寻典型事例的刻意评价，失去了评价的客观性，也失去了评价本身的意义。

　　从一位学生的一个指标行为域中，必然可以找出多个具有代表性的事例。使用同一评价方案进行评价，记录的评价事例当然可以完全不同。但这并非评价不客观，并恰恰是综合素质丰富性、多样性所呈现的客观规律。以整齐划一的规定，追求评价的客观性，可能会适得其反。这便是由质性转为量化评价过程的复杂和困难之处。

　　对一位学生的评价，理论上应该呈现行为域中所有的事例，这才是对被评价者的精准考查，但不现实。因此评价结果也要采用“样本”，用典型事例的方式表达。在评价过程中，所记录和评价的行为也必须是表征学生行为表现的代表性“事件”，而绝不是偶然的或具体指定的行为记录。记录的原则是要符合他“一贯的或一类的行为”，而不是事先预设的具体的行为。不能通过某一个不能代表该学生行为特征的事例考查其内在水平。

　　值得注意的是，也许评价者某一时刻终于看到了被评价者的一个行为或一件事，事实确凿，并记录在案（无论正面还是负面行为）。但如果这只是偶然行为，代表不了被评价者的某一类行为，就不应该作为评价依据。即便是评价手册典型事例中列出了这一行为，也不应该视为对该生严格而精确的行为记录，因为对有些学生来说，这并不是他们的典型行为。

　　评价教师需要在有限时间和空间内完成评价观察和记录。教师能否根据所记录的有限行为，推断得到评价学生本真的真实状态，对于评价理论建构和实际操作都是科学性极强的考验。

　　综合素质评价的量化设计更倾向于结构化和规范化，评价内容具体，操作程序明确。量化设计偏重于教育测量学和教育统计学的方法，收集、整理、分析、解释数据，研究总体、个体、参数、变量之间的关系，试图通过收集主观性较少的事实性资料，采用实证性方法，从微观结构上来研究宏观性质及其规律。尽管量化评价借鉴抽样设计思想，但对于综合素质评价的样本确定、信息采集等多个方面，还是需要依靠主观方式确定，在评价过程中有时难以遵从概率抽样的规则。

　　值得注意的是，评价目标在抽象维度转为具象的外化行为时，通常需要两次以上的转换，每次转换都不可避免产生偏差。转换的层次和环节越多，具象性行为产生的偏差就越大，这将大大降低评价效度。当把量化评价结果进行综合时，简单的加权合成把低效度评价指标的误差等倍量放大，给总体结果带来了大的累积偏差。而采用综合思想，从总体上概括评价，偏差的积累效应要小得多。

　　质性评价的结构化程度较低，着重在对事物进行整体分析，通过对现象进行深入细致的了解后，再整体判断其本质，通过各方认同达成共识。

　　综合素质评价是多因素、多层次参与的复杂过程，其对象并不是确定性现象，而是发展变化的。采用质性与量化相结合的方法进行评价，是必然和可行的路径，可以把数据、事例、问题等融为一体，既有定量分析，又有定性分析，有助于帮助作出正确的判断评价。

　　综合素质评价采用定性与定量结合的方法，具有如下特点：一是能够对特定时间和特定空间的特征表现，从定量和定性多个角度全面分析；二是综合从微观到宏观的行为域和过程表现，可以对不同的事物作有联系的综合性分析，也可以进行纵、横向对比分析，能够更集中、更系统、更清楚地反映客观实际。三是定量与定性结合的评价方式，评价结果便于阅读、理解和利用。

　　但综合素质评价的所有方法和实施过程，离不开评价教师的职业素养和评价能力。综合素质评价本质上是带有主观成分的操作，这更要求对评价教师进行有效培训，并强化教师的职业忠诚度。只要深入理解综合素质评价理念、掌握运用评价方法、坚持教师的职业操守，教师就能够使综合素质评价结果更贴近真实，更为客观。

探讨综合素质评价量化方法的使用，有必要以教育测量学、教育统计学和教育评价理论为基础进行系统梳理研究。目前，综合素质评价有了大量实践成果积累，但理论研究还相当滞后。虽然不能按照理论化方法或理想方式在操作上一步到位，但是必须坚守综合素质评价的目标和方向，绝不可因为操作上的制约而改变评价的初衷和科学的路径。（本文系国家社会科学基金2019年度教育学一般课题“义务教育阶段学生综合素质评价研究”[BHA190140]成果）
作者：臧铁军
来源：《中国教育报》2020年04月30日

上一篇：【创新教育】美国纽约抓住时机培养创造力 下一篇：【大学治理】为创新而治理：大学治理变革的方向