机构动态

机构动态

谢小庆教授 | 思维水平的成长评估

11个月前 (11-28) 热度:691 ℃


谢小庆教授,北京语言大学教育测量研究所原所长、中国心理学会测验专业委员会理事、中国教育学会统计测量分会学术委员会副主任

11月23日下午,谢小庆教授为春禾第三期校长研修坊带来一场《思维水平的成长评估》的报告。谢教授从四个方面展开了论述:什么是科学评估?什么是思维水平?思维水平评估以及从“达标评估”到“成长评估”。

1

什么是科学评估?

在我们过去几十年的教育中一直就是“分数面前人人平等”,“是英雄是好汉,考场上比比看。”但是,考试一定可靠吗?我们来看这几年出现的高考案例:
2020年高考浙江省考生的一篇《生活在树上》的高考作文在网络上引起了轩然大波。这篇文章阅卷时第一位老师给了39分,第二位老师给了55分,最后,作文审查组的老师认真审阅后,才给了这篇文章满分。这也说明,在评阅老师那里,对这篇文章的评价也是不一的。浙江省高考作文阅卷大组组长陈建新给予了这篇文章非常高的评价:
“在我几十年的高考作文阅卷生涯中,这是一篇极少能碰到的高考作文,它文字的老到与晦涩同在,思维的深刻与稳定具备。”,“给此文满分,不仅是给予这篇作文恰如其当的分数,也是展现浙江高三学生的作文水准。”
但语文出版社社长,教育部前发言人王旭明则持完全相反的观点,他认为“如此文风不可长,如此文路不可学,如此文采有或没有都无所谓。”著名时事评论员曹林甚至提出“浙江这篇高考满分作文侮辱了语文”。
同样,在2002年的四川省一篇《潘金莲的选择》的高考作文,最初在评卷老师那里只得了20多分,其原因在于考生将潘金莲在武大郎和西门庆之间选择的落脚点定在西门庆上,这与传统观点格格不入。但是,又考虑到这篇文章的文笔流畅、行文优美、引经据典,分析得很有道理,于是最后又将此文提出来与整个阅卷室的数十位阅卷教师讨论,结果争议很大,从20多分改成了40多分,最后请示评卷指导委员会,最终被认为是一篇不可多得的佳作,给出了相当高的分数。
还有,2009年的湖北,一篇《站在我家的门口》的高考作文,两位阅卷老师给出的分数差超过9分,被提交到第三位阅卷老师处,与前两位老师的平均值相差也超过9分,最后提交阅卷点专家组讨论,几经争议,最终得到了50余分,属优秀作文。
所以你说,考试是公平的吗?考试应该是把“尺子”,无论谁来量,都是一样的,但现在这把尺子不同的人手里量出了不同的数,那还准吗?还可以用吗?这就是考试的信度。
但是,可靠的考试一定有效吗?未必。谢教授又列举了两道考题考大家。原本的语言能力考查变成了对语法知识记忆和应试技巧的测试,失去了语言能力考查的意义。“高分低能”的考试可能是真实可靠的,但不是有效的考试。考试总能反映考生某一方面的特点,但不一定是考试的使用者所关心的特点。也就是考试的效度出了问题。
那么,可靠、有效的考试一定有用吗?大学成绩单上的“语文 85分”能提供的信息很少。缺乏有用信息的原因是缺乏必要的参照系。谢教授拿浙江高考举例说明:2008年10月高考英语考试以后,由于10月考试的试卷明显偏难,为使考生受到公平对待,浙江教育考试院对分数进行了调整,给所有的考生都加了分。消息泄漏后群声鼎沸,浙江省委连夜召开紧急会议,决定取消加分。家长为他们的无知付出了代价。
还有考试的公平性,谢教授列举了国家公务员考试的题目,问下列城市(深圳、厦门、广州、汕头)哪个不是经济特区?正确答案是广州,这道题目广州的考生正确率很高,成都的正确率就很低,这对成都的考生不公平。还有一些微波炉、地铁、空调等,对于少数民族学生不公平。
所以我们需要认识到:
1. 考试不一定可靠
2. 可靠的考试不一定有效
3. 可靠、有效的考试不一定有用
4. 考试的分数需要具有可比性
5. 考试需要具备公平性
因此,符合科学标准的评估需要具有:

1. 可靠性(信度)

2. 有效性(效度)

3. 分数解释的的合理性

4. 分数的可比性(等值)

5. 公平性(DIF分析)


2

什么是思维水平?

从2001年启动“基础教育新课程改革”以来,围绕“新课改”一直存在激烈的争议,“新课改”在争议中艰难前行。19年来,为了挽救“小范进”们,为了推动“课改”,成千上万的中小学老师付出了许多心血,承担了种种的压力。在他们的努力下,基础教育已经发生了重要的变化。
谢教授用他亲自拍摄的几张照片向大家展示了课改前后的课堂变化,课桌椅由原来的排排坐变成了分组式讨论教学,从2001年“基础教育新课程改革”推进以来,许多教师都看到过这样的现象:学生一旦在课堂上展示自己的学习成果,就会兴高采烈,眉飞色舞。

在2018年3月18日北京师范大学中国教育创新研究院发布的核心素养《5C模型》中有一C是审辩思维(Critical Thinking)。中国教育报、中国青年报、中国教师报等众多媒体都针对5C模型发表了专题文章,也着重提出了审辩式思维教学的必要性。
思维水平包括了以下三方面内容:
Ø 交流沟通(communication)
Ø 逻辑推理(logical reasoning)
Ø 审辩式思维(critical thinking)
今天,国际教育界已经形成共识:教育最重要的任务之一是发展学生的审辩式思维,审辩式思维是最值得期许的、最核心的教育成果。几乎所有对世界各国教育都有所了解的人的共同感受是:与发达国家相比,今日中国学校中最缺乏的就是审辩式思维。
Critical thinking的汉译有很多种:批判性思维、评判性思维、思辨能力、思辨力、审辩式思维、明辨性思考、分辨性思考、明辨性思维、辨识性思考、慎思明辨。谢教授认为用《中庸》中的一句话形容最合适了博学之,审问之,慎思之,明辨之,笃行之。
关于审辩式思维的最简描述:不懈质疑、包容异见、力行担责。具有审辩式思维的人不轻易相信家长、老师、领导、专家和权威的说法。他们会用自己的头脑独立地进行思考,不懈质疑。
他们会想,家长、老师、领导、专家和权威们这样想,这样说,这样做,那么,我自己应该怎样想?怎样说?怎样做?他会根据自己的思考、学识、情感、经验和理性作出自己的独立判断。这是一个审问、慎思、明辨、决断的过程,这个过程所需要的就是审辩式思维。他并非一概地拒绝和反对他人的意见,而是在经过自己的思考以后,做出自己的判断,接受或者拒绝他人的看法。
2013年8月12日,在上海纽约大学开学典礼上,美方校长杰弗里·雷曼(Jeffrey Lehman)给首届学生开讲了新学年的第一课。
“我们的目的不是要给你们我们的智慧,不是要给你们我们的知识,也不是要告诉你们某个正确答案。创造者、发明者和领导者不可能靠背诵和记忆别人的答案来创造、发明和领导。他们必须掌握对旧问题给出新的、更好的答案的能力,必须掌握能及时发现旧答案已经不合时宜的能力,因为世界是在不停变化的。”
“上海纽约大学要把你们培养成出色的学习者,对事物充满好奇,……为了实现这个目标,老师们会不断向学生提出非常难的问题,而这些问题并没有标准答案。我们会教你们怎样发表精深独到的见解,同时,你们也会看到别人用同样精深同样独到的方式给出完全不同的答案。当然,你们也会发现有些答案是错的……学生应该怎么称呼校长?雷曼校长?雷曼?Jeff?雷蒙教授?老雷?并没有标准答案,因为学生不需要用一个统一的称呼来叫校长。但有一些答案是错误的——“喂,你(Hey, you)!” ,“雷蒙老头(Old Man Lehman) !”
“你们要担当起领导和服务的责任。服务于谁?这个问题也没有唯一的标准答案。但是,有一个答案是错误的:我只服务于我自己和我的家人。在这个错误的答案之外,有多种可能的选择。我希望你们能与你们的同学讨论你自己的答案,你自己的选择,以及你将为自己的选择可能承担的后果。”
谢教授认为雷曼校长道出了审辩式思维的精髓。


3

思维水平评估

从事教学改革的校长和老师们面临着一个困惑:怎样说明新的教学方法达到了更好的教学效果?教学改革的效果如何体现?
如果采用传统的“知识记忆测试”,往往不足以反映教学改革在发展学生交流表达、逻辑推理和审辩式思维方面所取得的成效,不足以反映教学改革在提高学生核心素养方面的成效。
因此,今天迫切需要一个测试学生核心素养的测试工具。
思维水平测试的主要题型有:阅读理解、逻辑推理、事实判断、假设辨认、论证评价。谢教授通过几道例题向大家展示了这些题型。
而且,谢教授认为,发展审辩式思维的最好方式是与学生一起思考和讨论一些没有唯一正确标准答案的问题。既然所讨论的问题没有标准答案,怎么对孩子的审辩式思维水平进行评价和测量呢?
论题(如愚公移山还是搬家)并没有标准答案,但论证的水平(level of argument)有高下之分。这种论证水平的高下,不仅可以测量,而且可以用客观性选择题的方式进行测量。


4
从“达标评估”到“成长评估”
新的“达标+成长”的教育评估模型体现了一种新的教育理念。
学习,不仅要追求“达标”,更要追求“成长(growth)”。对于一些基础好的学生,实现“达标”并不一定能够实现“成长”;对于一些基础薄弱的学生,即使暂时“达标”有困难,仍然可以通过学习获得“成长”。这就是新的“达标+成长”的教育理念和教育测量模型当学生感到吃力时,学习才真正发生。
成长评估的教育理念:个性化学习。这是一种正视“个别差异(individual difference)”的教育理念。世上没有相同的两片树叶,也没有相同的两个人。统一的标准(standard)很难适用于所有人。成长评估模型体现了人工智能时代一种个性化学习(individualized learning)的思路。

成长评估的内容:能力发展。成长评估只能是关于能力(competence)或核心(core)能力的评估,不会是一种关于特定知识记忆的评估。成长评估,主要是评估能力发展,主要是评估交流沟通、逻辑推理和审辩式思维等核心能力的发展。

行成长评估,不仅可以更准确地了解学生学习的实际成效(outcome),同时可以更准确、清晰地了解教师、学校对学生成绩的提高所实际产生的影响。

最后,谢教授提出:就人均占有量而言,中国不仅算不上自然资源大国,甚至可以算是一个自然资源贫国。但是,中国毫无疑问是一个人力资源大国。中国未来的持续发展,很大程度上要依靠开发自己的人力资源,而不是开发自己的自然资源。
为了实现经济发展方式的转变,需要通过发展人的口头和书面表达能力、推理能力和审辩式思维三项核心职业胜任力,开发中国的人力资源。

文字整理|卢 景

     排版|刘红玲


扫二维码|关注我们

一起关注研学


发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。