任春荣、辛涛:美国学校评价问责政策可操作性特征分析

  

  引言

  公共政策的可操作性是公共政策的有效执行在技术层面的体现,是衡量公共政策质量的重要标准。当前,我国各地政府积极贯彻中共中央、国务院印发的《深化新时代教育评价改革总体方案》(以下简称《总体方案》),研制新的学校评价办法,但不少地方制订的方案存在简单重复中央文件、实施办法空洞,甚至对文件有误解等问题。这说明国家层面的改革理念要转化为地方实践,需要有可操作性的政策工具,以指导和支持评价实践者的行动。美国学校评价问责政策及其实践值得研究和借鉴。2001年,美国颁布了《不让一个孩子掉队法案》(No Child Left Be?hind, NCLB),建立了基于各州标准化考试的学校问责制度。2015年,《每个学生都成功法案》(Ev?ery Student Succeeds Act,ESSA)颁布,在以学业成绩为核心指标的基础上丰富了学校问责指标,取消了部分强制规定,给予各州更多问责制度设计的自主权,联邦政府每年拨款 3.78亿美元用于州级考试评估。ESSA 法案被称为第二代问责系统,与 NCLB 法案本质上是一致的,只是具体策略上有所改变。ESSA和NCLB法案规定下的学校评价问责政策总目标都是尽可能地保障所有孩子有公正、平等和有效的机会获得高质量的教育,从而达到各州规定的学业标准最低能力要求。在国情复杂、地方高度自治的社会背景下,美国联邦政府通过全环节的、明确的操作办法,使政策目标和理念落地,促进了学校和学生群体在州级范围的均衡发展;既尊重州的教育自治权,考虑各州实际情况的差异,同时又满足联邦政府的统一要求,维护美国教育改革大方向的一致性。

  以往研究对美国学校评价与问责的理论、指标框架、宏观政策等关注较多,较少涉及理念如何变成实践、指标如何测量、结果如何使用、问责制的效果评价等运行层面的内容。本文从美国学校问责政策的运行视角入手,展现治理理念和评价理念如何转变为行动,分析评价问责工作体系从整体到局部的可操作性、实施的效果及存在的问题,为我国地方学校评价改革提供务实的参考和借鉴。为了更好地说明美国学校评价问责的操作办法,采用案例法,以教育质量较高的马萨诸塞州为重点案例,并根据具体情境介绍其他州的一些典型做法。

  政策理念的可测化

  美国联邦教育法案所阐述的教育公平和教育质量的理念被渗透、分解到学校评价问责政策的整体架构中,构成了美国学校问责政策的基本要素。例如:问责指标的内容和测评方法,年度学业统考或测评对象的确定,少数群体的最低人数标准,学校评级,学校识别,对学校和学区问责,评价结果使用办法等,均是政策目标和评价理念的实现渠道。

  1.1 设计原则:标准与循证为基

  政策理念转变为可以评价的指标,或者能够被评价各环节所体现,必须具有一定基础条件。遵循标准和循证决策是评价问责政策设计的2个基本原则,兼具技术性和理念性,为政策理念的测量奠定了基础。对学校评价问责的关键证据建立在各州标准化统考基础上。联邦法案规定,不论城乡和种族,所有公立学校和学生在本州内应达到的学业标准是相同的,并且为残疾儿童、新移民学生制订了选择性学业标准。标准化是美国评价问责体系的一个重要特征,测验设计在内容和能力维度依循各州的课程标准或者共同核心标准,在测验效度方面依据测评行业标准《教育和心理测验标准》(Standards for Educational and Psychological Testing),质量监测的有关行政工作和效度保障、报告规范等参照联邦教育部制定的《州同行评估要素》(Critical Elements for State Assessment Peer Review)。标准化评价也引导教师依照课程标准进行教学,考教一体,保障全体学生,尤其是弱势家庭的学生能够获得与高阶层家庭学生相同的学习内容和学习结构。对教师常抱怨的评价标准统一对生源差的学校不公平问题,则用增值评价和分群体的目标实现指标来解决。

  循证决策是保障政策科学设计的基础,也推动了政策实施各环节的可操作性。源于问责体系外部的证据本身就是优秀的操作范例,源于评价问责体系内部的证据则是问责的依据和改进的切入点。国内已有多篇文献介绍循证测验设计,本文不再赘述。值得关注的是,识别出薄弱学校后,美国对干预措施选择的循证要求体现了科学严谨的学校改进思路。问责干预的循证要求强度包括3个等级:一是强有力的证据基础,至少有一项实验研究对学生成绩有统计学上显著的影响;二是中等程度的证据基础,显示了准实验研究的证据;三是可能的证据基础,至少有一项控制了选择偏差的相关性统计方法的研究。从 NCLB 到 ESSA 均要求各地区和学校使用通过正式的、规范的科学研究产生的结论作为教育项目立项依据和干预措施的选择依据,避免干预措施选择的随意性、脱离实际、伪科学等问题,提高了学校改进的效率。

  1.2 评价内容:动态与静态指标结合

  学校问责政策是为评估教育投入和工作是否符合预期目标而产生的,一个指标往往同时蕴涵质量、公平和效率 3 种属性的测量;因此,静态和动态指标相结合才能满足评价需要。首先,通过了解学生在某个单独时间点上的学业表现来判断教育投入是否有效,各州都要测量分群体的学生对英语、数学、科学学业标准的达到程度。其次,测量不同年度的相同年级之间学生成绩的变化,评价学校的教育教学是否有进步。最后,评价学生个体的成长,即在 2 个或者更多时间点上评价同一个学生或者同一群体学生的学业成绩成长。各州常用的成长测量方法包括学生成长百分位数(student growth percentiles)、增值模型(value-added models)、达 标 性 成 长(growth-tostandard)。例如,母语非英语学生英语语言能力的进步可以用学生每年进步的百分位数和英语熟练程度逐年提高来表达,前者为相对于同起点同学的进步程度,属于相对成长,后者为等值测验中能力分数的增长,属于达标性或者绝对成长。学生个体的成长进步情况最终被用于评价学校努力和成功的程度。不论是学校还是学生,没有进步或者进步没有达到预期要求即为低效低质。

  除了学业成就类的指标之外,各州的问责指标体系中必须包括一个及以上其他教育质量指标或者影响质量的指标,如学生投入、教育者投入、中等教育后准备程度、学校氛围和安全、高中连续 4 年的毕业率、扩展年限的毕业率等方面的指标。部分州包括马萨诸塞州也考察学校能否开设保障学生全面发展的课程,即学生在社会研究、科学、美术、体育和健康、信息科学、社会服务等课程的合格情况或者参与机会,以及采用学生自我报告的方法考核5~8年级学生社会情感发展指标,包括成长心态、自我效能感、自我管理能力和社会性意识等。学生参与并且完成各类高级课程或者大学先修课程、就业准备课程等指标则是督促学校分别为学有余力和就业优先的2类学生服务,即课程设置不仅要关照大多数,也要兼顾两端学生发展的需要。

  1.3 对象界定:少数群体与全体同行

  如果只报告总体均值、及格率或者优秀率等指标,那么少数群体的表现会淹没在总体里,容易导致学校对全体学生的关注流于形式。将少数群体从全体中分离出来,让其能够被“看见”是评价问责政策公平的基础性工作,推动对“每一个学生”的关注在最大程度上能够实现。学生参加质量监测被视为一种权利,联邦政府规定,不仅全体学生中应有不少于 95% 的学生参加州统一考试,每个少数群体的学生参与率也不能低于95%,残疾儿童应参加全州替代性考试。如果某个规定群体的参与率达不到要求,则给学校的问责等级降级,学校成绩报告单必须向政府和社会公布全体和各个群体学生的成绩。除了按照种族划分的少数群体之外,还有4个常见子群体,包括经济困难、英语学习者(一般为母语非英语的移民学生)、残疾学生和高需求学生。

  州教育部负责设定学校独立报告少数群体的最低学生人数。如果一个州将其最低人数设置为 20 名学生:一所学校一个年级有 20 名及以上非裔学生时,非裔学生必须作为一个独立的群体单独计算和报告考试参与率、毕业率和成绩;如果低于20名学生,该群体在学校的问责要求中不出现 ,也不会得到联邦政府的专项支持。2016 年,有 16 个州的学校问责最低人数在 10 人及以下,8 个州在 30 人,其余州在 10~30 人;成绩公开报告的最低人数普遍更小,只有 8 个州在20~25 人,其余在 11 人以下。由于少数群组学生的数量规定影响到有多少学生在低学业表现时能够获得额外支持,各州不断降低最低人数标准,帮助学校获得更多联邦拨款,以尽可能关照到更多少数群体学生。肯塔基州因为该州有许多小型乡村小学,将其最低人数标准从最初的25 名学生减少到 10 名学生。通过设置最低人数标准,马萨诸塞州规划的学校问责系统中有74.8% 的非裔学生、89.1% 的残疾学生的成绩需要单独报告,而印第安土著学生按照最低人数标准达不到报告要求的规模,只有3.1%能够被单独报告。最低人数标准值过小对问责决定的可靠性存在潜在负面影响,一些州通过查看 3 年的数据来作问责决定,弥补样本量过小可能带来的统计稳定性问题。

  实施方案的图纸化

  实施方案是政策工具的载体,用于说明实现政策目标的具体方法或手段。美国学校评价问责实施方案的操作说明如同图纸,详细呈现并解释了依据核心指标以往表现预测的州、学区和学校下一步应达到的目标、学校期望等级,以及全面的学校等级赋分算法。

  2.1 目标管理:预设分阶段任务表

  学校评价问责政策对于美国联邦政府来说是采取目标管理的手段,联邦政府只对核心要素和价值理念提出要求,而不直接管各州的实现路径。每个州的教育部向联邦政府教育部提交具有高度可操作性的方案,如所有学生组的中期进步目标和衡量标准,以及学业、毕业率和英语语言能力的长期目标,说明如何建立并实现其长期目标及实现目标的时间表,并提交基线数据、进展情况的测量数据,用于联邦政府判断和监督各州的方案执行情况。

  学校问责政策没有规定学校之间差异的阈值,而是通过目标设定将促进教育公平的层级直接落实到人群,目标设定要符合最落后的群体获得最大收益的要求,从而缩小州范围内的学习结果差距。以马萨诸塞州为例,其2017年设定的学业目标是,到2022年81%的学生阅读达到合格水平,75.9%的学生数学达到合格水平,11个少数群体学生各学科合格率的差距缩小 1/3。以2015—2016学年为基线年,马萨诸塞州英语合格率 在 所 有 学 生 群 体(71.7%)与 经 济 困 难 组(54.6%)之间的差距为 17.1 个百分点,在所有群体共同进步的情况下,提出这一差距到2022年应缩小到 11.4 个百分点。高中毕业率的目标到2020年达到91%,虽然全体学生的毕业率增长目标只有 3.7 个百分点,但毕业率最低的移民学生增长目标是 10.4 个百分点,其次是残疾学生,其毕业率需要增长 8.7 个百分点。2020 年,这 2 个群体虽然仍旧是毕业率最低的群体,但是能够让大部分学生获得高中文凭,取得就业的基础学历资格。这个州级目标任务最终逐层分解到学校。

  目标设定实施“跳一跳摘桃子”的原则,任何一所不在底部 10% 的学校都会被设定比现有水平高一级的目标。如果学校实现或者超过预期目标,评级时就落在规划的等级中;如果没有实现目标则按实际情况划定等级。马萨诸塞州将学校目标达成情况的评价等级分为 4 类:达到或者超过目标,在很大程度上实现了目标,目标取得了中等程度的进展,没有进步或者进步有限。这样,所有学校都能够提前知道自己的奋斗目标,学校评价从依据一个指标体系评分、给出一个排名或等级的传统做法走向服务目标管理,提升学校治理效能。

  2.2 精确测量:指标内涵和算法严谨具体

  评价指标是评价方案的核心内容,不同的指标内涵和算法表达不同的评价理念。严谨表达的指标有助于减少与理念背道而驰的现象产生,有具体说明的指标有助于减少误解及操作空间过大无法进行比较的问题。

  2.2.1 指标内容和指标测量

  学业成绩指标如前所述,以动静结合、全体分组结合等多样形态构成学校评价的核心指标。英语、数学在各州多是从3年级开始每年考,科学学科按照国家规定是 5年级考、8年级考,但内布拉斯加等州规定所有开课年级都要全州统考。对于不能参加全州标准化测验的年级,田纳西州采用档案袋评估方法记录学前班和低年级学生各科的表现性评价结果。

  马萨诸塞州的学校评价问责指标大致分为5 个类别,即学业绝对水平、学生成长或增值、高中毕业率、母语非英语学生的英语合格率、学校质量指标,各指标的说明见表1。学校氛围、校长领导力和教师专业能力等内容也在评价范围内,评价结果反馈给学校和家长,但不纳入奖惩性问责范围。学业水平测验在年度之间等值,量尺分数范围固定在200~280分。学校和学区的评价用学生的平均量尺分数。成长或增值水平主要用成长百分位数表达,当学区、学校和某个群体学生的平均成长百分位数达到或者超过50分,可在该指标上获得满分。

  

  学校质量维度的缺勤率指标被定义为风险预警指标,缺勤计算包括病假等情况,其依据是不管什么原因,学生都失去了教学时间,将会影响学生的学业表现。风险预警指标还有9年级学业成功率,因为 9 年级成绩是学生在高中及以后取得成功的首要影响因素。一项预测研究发现,9年级时 1~2个核心学科不及格就使毕业的可能性分别下降到 60% 和 44%。美国高中学制为4年,为了提高高中文凭拥有量,在毕业率指标中包括了 5 年毕业率,即允许学生留级完成高中学业,许多高中专门为偏离轨道的学生设计了替代性课程。

  2.2.2 指标权重设置与指数合成

  指标的权重设置和合成办法表达了评价者对各指标的重视程度,权重高低取决于哪个事项对于当地和学段发展来说更重要。康涅狄格州将高中毕业率的分值设置为 200 分,按时毕业率50 分,大学和职业准备各 100 分,各科成绩和进步幅度合计 800 分;初中阶段的学业水平分值为300分,成长进步400分,高中升学率50分。得克萨斯州总体上更重视学业成绩,小学和初中的州统考成绩和成长水平以及学校日常成绩占比90%,10%为英语学习者的英语能力水平合格率。加利福尼亚州崇尚地方自治,学校不划分等级,也没有设置权重。

  马萨诸塞州激励学校之间的竞争,问责分数衡量的是一所学校所有学生的表现与该州其他学校比较的结果,相对分值范围为 1~99 分,根据学校所有可获得的 2 年数据计算得出,本年度的工作情况占比 60%左右,前一年占比约 40%。马萨诸塞州非常重视学业绝对水平,学业绝对水平和学业成长的权重之比为 3∶1,高中和高中以下学段各指标的权重趋势相同,个别指标有小的调整。学业绝对水平的权重之和为 60%,英语、数学和科学分别为 20%,如果没有科学考试,则英语和数学分别为30%的权重。

  学业水平指标最终用学业绩效点数 CPI 表示,计算方法是,将参与州统考和州统考替代性考试各等级的学生人数乘以相应等级的分数,然后将每个成绩等级的总分加在一起,除以该组学生的总数,取值0~100。当所有学生都处于合格及以上水平时,学校的学业绩效点数为100。CPI计算方法也是关注“每一个学生”理念的具体体现。表2显示一组40名学生的绩效点数的计算方法。

  虽然考试研发成本很高,但为了保障和推动移民英语学习者及残疾儿童等特殊群体能够学有所得,州教育部门提供了标准低于州正规统一考试的各类替代性考试。2016年,参加至少一个内容领域的替代评估的 3~8 年级和 10 年级学生的人数仅占总测试学生数的 1.7%,这体现了“一个都不能少”的精神。对特殊群体学生的评价重在促进其进步,在替代性考试上取得进步分数可获得 100 绩效点数的残疾种类包括智力残疾、感觉/聋哑残疾、多重残疾、自闭症和发育迟缓等。

  

  对年度目标完成情况的考察分为 2 个部分,一部分是学区和学校所有学生的实得绩点占目标绩点的百分比,另一部分是该地区或学校中最低表现学生的实得绩点占目标绩点的百分比,2组数据的权重是相等的。每个指标(如学业成绩、辍学率等)按照学区或者学校往年情况设置目标绩点,超过目标绩点则得4个绩点,比上一年下降则得0个绩点。表3展示了详细的绩点计算方法。

  

  结果使用的规程化

  评价结果最终可以被各个层面的机构和人群使用,如从教师到学区的工作反思和改进计划制订,到家长的择校或家校合作行为的触发,再到媒体发起的社会性问责和社会讨论等。政府层面的结果使用主要包括问责的实施和干预2个环节,并明确了不同情境下的分工责任,避免出现结果报告后没有后续行动、多头管理无人负责或者多头重复干预等问题。同时,评价结果出来以后,学校参照评价方案也能够预判本校应采取哪种行动或者获得哪种程度的惩罚或支持。

  3.1 分级担责:学校问责的实施

  获得学校问责指数以后,大部分州会将学校按表现水平划定问责等级,并以此决定对学校采取相应措施。问责结果一般包括关闭学校、合并、拆分、委托管理、延迟拨款等类型,偶尔也可能会合并或新建学区。学校问责的结果影响教育资源分配,但主要是引导资源对薄弱学校和弱势群体倾斜投入。按照美国的教育管理体制,学区对学校有更大的管理权限,没有地方政府和学区的许可,州一般不能直接干预学校。但当学区内的学校表现太差并且各种干预和支持手段均效果不佳时,州有权力直接关闭学区或越过学区关闭学校,将学校委托给第三方管理或者将学区和学校置于州托管之下。2019 年,马萨诸塞州有3个学区和4所学校接受托管。

  为学区和学校的发展规划提供支持也是问责结果数据的重要用途。马萨诸塞州教育部依据问责数据指导学区和学校作发展规划,研制分析、审查和援助工具包,支持学区和学校在学校委员会治理能力、学区和学校领导力、学区和学校改进规划、预算制定以及学校支持和干预系统等方面的提升工作。

  3.2 弱校筛选:干预目标的识别

  干预薄弱学校是评价结果应用的一个重要任务,识别薄弱学校是该任务的起点,各州的识别办法也是标准化的,符合以下条件的学校被认定为需要综合支持:各年度考察指标排名最低的5% 的联邦法案规定的类别 1 学校,学生毕业率低于67%的公立学校,在州规定的年限内持续表现不佳的需额外支持的学校。这类学校大约占全体学校的 15%。薄弱学校还分为 2 类:一类是焦点群体需要特别支持的学校,包括问责等级百分位数为1~10、但尚不需要广泛或全面支持的学校,某个群体表现水平低的学校,考试参与率低的学校;另一类是需要广泛综合支持的学校,如当前总体表现水平低的学校、长期低水平的学校等。

  3.3 流程管理:学校干预的措施

  美国联邦政府的总投入只占全国教育投入的8%,主要用于对类别1学校学生的投入。各州的生均教育经费投入来源结构差异很大,如佛蒙特州的生均教育经费中州级财政投入占 90%,而内布拉斯加州、新罕布什尔州和南达科他州等州级财政投入只占 1/3。尽管各州投入来源结构差异很大,这种差异与生均投入总额不相关。学校干预措施的经费投入方式在各州差异也比较大,但不论谁出资,州和地方政府、学区对薄弱学校的干预和支持是多元的,聚焦于教育教学质量的提升,有清晰的职责分工、任务安排和效果评价要求。表 4 列举了各种支持类别的关注点、各级权力分配和干预无效应怎么做的典型措施。具体干预工作由地方政府负责,州的主要任务是审查地方教育局在众多综合性和焦点目标支持学校服务方面的资源分配,并向其提供技术援助。

  

  马萨诸塞州涉及的资助安排有学校重新设计补助金(SRG)和有针对性的援助补助金(TAG)2大项。学校重新设计补助金是面向表现最差的学校和学区开展的联邦政府竞争性补助金,通过资助学校改进策略(如增加学生学习时间、教育工作者专业发展计划和学生学术计划)来帮助学区和学校满足学生的需求。马萨诸塞州政府认为该资助效果明显,自 2010 年实施以来,大多数被确定为表现不佳等级的学校已经升级。TAG 结合了用于州定向援助的资金以及州问责系统中确定为“需要援助或干预”的 100 多所学校提供的联邦学校改进资金,资金重点投向文化响应实践、学生支持机构建设和学业加速计划。TAG不仅支持规划的实施,还设置了规划研制资助金,以提高规划的质量。

  马萨诸塞州在能力建设方面的内容也比较丰富。对于缺乏申请资助能力的学区和学校,派援助团队协助提交申请和预算,避免出现精英捕获现象而遗漏最差的学校和学区。教学方面的一般性援助由地方学科专家提供,高需求学生的成绩改善由州教育部聘请专业人士提供有针对性的支持。政府还购买第三方团队服务,开展各类型的现场访问,为参与改进的学校提供形成性评价反馈,并指导地区对学校的援助工作。

  成效与挑战

  政策的高度可操作性强化了政策的实施力度,既可能推动政策目标的实现,也可能带来统一僵化的负面效应。

  4.1 实证研究证明成效显著

  美国学校评价问责政策的实施提供了学区、学校、学生各个群体发展情况的详细数据,提高了各州教育改革政策、各类宏观或微观干预措施制订的科学性和针对性。总体来说,披露公共服务绩效有利于加强社会监督和民众问责,问责压力也引导了学区和学校在日常工作中重视核心指标要求的工作内容,发挥了评价指挥棒作用。

  最明显的成就是获得高中毕业证书的人增多,部分弱势群体的成绩取得进步,提高了劳动力质量和高等教育准备质量。公立高中毕业率从 2010—2011 学年度第一次计算全国高中毕业率时的 79% 提高到 2018—2019学年度的 86%。毕业率的提高与毕业率这个指标给学校带来的压力有关,也与学业水平提高使学生能够完成学业有关。国家教育进展评估(National Assessment of Education Progress,NAEP)对学生成绩增长的分析表明,20 世纪 90 年代以来引入的问责制对学生成绩产生了明显的积极影响,虽然没有缩小黑人和白人之间的成绩差距,但缩小了拉美裔和白人之间的成绩差距。

  美国学校评价问责政策使问责压力转化为学校发展动力。有研究发现,较低的问责等级降低了教师的流失率,问责压力促使等级较低学校的校长和教师更加努力。有研究将考试分数的进步设定为学校必须关注低于熟练水平学生的一个函数,结果发现,问责惩罚的压力与成绩不佳学校中落后学生考试成绩的进步呈正相关,且落后学生的考试成绩高于预期时并不会以优秀学生退步为代价。这个研究结果说明问责惩罚的压力可能会刺激失败学校提高生产率。

  4.2 改革面临现实挑战

  统一的标准化考试由于测试时间有限,对测试的内容覆盖范围是有限的,常用的多项选择题也限制了可以评价的能力种类。因此,许多州已经用开放式题目补充或替代了多项选择题,如采用论文、动手实验或作品集。结合多种题型可以提高对知识和能力的测评覆盖范围,但它们需要更长的时间来回答,在给定的测试时间内只能设置更少的问题,导致对学生能力的测评精度不足。开放题目评分的巨大成本也导致经费和测试可靠性之间需要权衡。由于考试的局限性,教师缩窄了教育内容,改变了教学方法。以前,教师在课堂上用很多时间来组织学生思考、讨论,教学内容是整体性的;而为了考试的教学是碎片化的,如教师总结了程式化的写作模式,一篇文章写几个段落、论据要写几句等,而不在乎作文观点的价值。

  美国教师将问责文化界定为审查文化,政策规定的惩罚性措施表达了政府对教师专业素养的不信任,也损害了师生之间、家校之间的信任关系。首先,它将教师对学生负责转移到对政府负责。其次,信任关系被监管所取代,教师由于感到不受信任也降低了对学生的信任,加强了对学生纪律和考试成绩的要求。问责压力导致教师职业倦怠感增强,陷入角色冲突,自我效能感下降。有研究表明,基于惩罚的问责压力让校长的工作压力更大,并导致离职。《每个学生都成功法案》增加了对学校领导的支持计划,以降低他们的工作压力水平;但学校表现不佳被关闭等问责措施仍旧存在,新政策效果如何需要时间验证。

  问责政策还影响了教育决策权的分配以及决策权分配的公平性问题。《不让一个孩子掉队法案》削弱了学区和州的自主权,引起教育联邦主义的争议,2015 年颁布的《每个学生都成功法案》将教育政策控制权重新归还于各州政府。联邦和州的立法者之间在关于教育政策权威的争论中,利用个人自主和市场力量来改善儿童受教育机会的情况不断增多,教育券项目、特许学校、磁石学校和在家上学项目数量的增长让家长获得了更多的择校权,但这种教育决策权从政府到家庭的让渡主要发生在相对富裕的家庭群体。研究显示,如果家附近的学校表现不佳或未能取得明显进步,白人、高收入和积极投票的家长更有可能选择转校,黑人、西班牙裔、贫困和不热衷于投票的家长,不仅不会发声,而且很少会为孩子另择学校,当学校关闭时也是等待政府给分配学校。

  讨论与启示

  评价改革对社会问题解决的能力是有限的。美国社会认识到了学校教育的复杂性、外部因素影响学生表现的关键性,仅靠学校改进无法克服导致教育结果不平等的社会不平等和经济不平等。因此,美国社会没有让学校评价问责体系承担过多社会责任,政府也没有忽视批评意见并不断尝试改进。新罕布什尔州是 2015 年新法案实施后联邦特批的创新评价试点州,用教师制定的评价任务取代了传统的学年末州统测,几个学区的教师经过培训后联合命题,如要求学生准备一份建造一个能容纳 45 000立方英尺 + 2 000立方英尺水的水塔的提案,包括封面、模型或比例图纸、计算策略,该提案最终可能提交给城市规划委员会。新罕布什尔州教育部和评价中心审查学区评价方案,所有参与试点的地区进行同行评议,以检查评价的质量。这个措施促进了教学和评价的结合,将考什么教什么转变为教什么考什么;但是,这种模式也面临小学区缺少教师命题,而大学区缺少教师判卷子的问题。此外,肯塔基州教学成果信息系统尝试使用作品集也是努力使评估工具与教学保持一致,并以真实的方式评估学生的一种创新策略。

  教育评价改革在任何一个国家都不是一件容易的事情,需要不断地尝试并调整策略,而科学的、可操作性的实施办法是将改革理念变为现实的必要途径。当然,可操作性的要求是随着政策层级的降低逐步提高的,基层评价方案需要具有让人按图索骥、照章办事的可操作性。美国的经验和教训对我国落实评价改革任务的提示有:首先,要强化政策的可操作性及操作办法的科学性。这种强化要从丰富评价问责体系的构成开始,在注重指标内容之外,还要关注评价目标的设定、评价对象的细化、评价办法的有效性、评价结果的使用,给学校划分等级之后要有更丰富、清晰的跟进措施,让评价问责起到激励和改进作用。其次,继续丰富评价改革的配套文件,尤其应对《总体方案》的宏观政策目标、术语进行补充定义。“四个评价”作为核心概念,没有定义和说明导致有些地方背离改革意图,出现以学生平均分作为教师增值分正负分界线,过度强调过程数据在结果评价中的比重导致过程评价的性质变异等问题。最后,加强科研支持。在没有考试的情况下,如何计算和比较学生增值,对学生和对学校的过程性评价以及过程评价工作开展情况的评价,评价的伦理问题等都是落实评价改革急需研究解决的问题。

  来源 | 《中国考试》2023年第2期

  作者 | 任春荣(中国教科院教育评价与督导研究所研究员),辛涛(北京师范大学中国基础教育质量监测协同创新中心教授、博士生导师)