关于改进新高考选考科目赋分方案的若干思考
摘要:新高考改革的重要内容之一是将学业水平考试选考科目实行等级赋分,并计入高考总成绩。结合新一轮高考改革的相关政策文件和相关研究结果,以及试点省份的实践反馈等,通过梳理现有选考科目等级赋分的优点和可能存在的缺陷,并对其原因进行探讨,从兼顾科学性、公平性和可操作性出发,提出改进选考科目赋分的方案,为进一步深化考试改革提供参考建议。
关键词:新高考;选考科目;等级分;等级划定
一、研究背景
恢复高考制度以来,尽管考试科目多次变化组合,但基本规则都是全体考生被分成若干子群体,每个群体考规定的若干科目,以总分作为排序和录取的依据。从社会视角看,这种录取办法具有高度程序公平、极高操作效率、现阶段最为公众普遍认可的特点。
2014年9月颁布的《国务院关于深化考试招生制度改革的实施意见》提出,“改革招生录取机制,探索基于统一高考和高中学业水平考试、参考综合素质评价的多元录取机制。”同年12月颁布的《教育部关于普通高中学业水平考试的实施意见》要求,“计入高校招生录取总成绩的学业水平考试3个科目成绩以等级呈现。”3门统考科目和3门选考科目(即学业水平考试,下同)分数相加形成总分是新高考(即高考综合改革试点,下同)的一个重大特征。这种包含选考科目的总分,不同于以往基于相同考试科目的总分,对考试技术提出了严峻的挑战,从国际上也很难找出成熟的先例可以借鉴。
不同选考科目的原始分显然不能直接相加。新高考实施前各科目原始分之所以可以直接相加,是由于对于同一共同竞争群体(如某省参加高考的全体文科生)而言,其考试科目是完全一样的,各科目试卷无论难易,对这一群体的所有考生来说具有相同影响,原始分数直接相加不影响竞争公平性。而新高考中,各共同竞争群体中考生的选考科目会有不同,在各科试卷难度也不同的情况下,若将选考科目原始分直接相加,再以总分进行排序,很明显是不公平的。这同时会给命题带来极大的压力和风险。
浙沪设计了一套“等级分”方案,基本思路是“将卷面分按事先公布的比例确定等级(浙江设21级、上海设11级),再转换为百分制分数计入总分,相邻等级的分差均为3分”。
从实施效果看,等级分简单直观、计算简便,各等级比例事先公之于众,容易被公众接受和认可。2017年的录取平稳落地,取得了新高考试点的阶段性成功。但试点中也出现了一些新情况和新问题,其中一个比较突出的现象是各选考科目的考生结构发生了不平衡的变化,产生了潜在的问题。
从管理视角看,解决选考结构不合理及学科失衡的现象需要综合施策,如高校应对选考科目提出更加明确具体的要求,对国家发展战略需要的学科可适当提高较高等级的比例。但是,通过对等级分的技术分析,正视等级分可能存在的区分能力低、可能产生价值扭曲情况,某种程度上甚至加重投机性选考、学科失衡等不符合教育规律和人才培养导向的技术缺陷,提出改进办法,无疑有助于帮助试点省份和后续省份修改完善方案,让高考改革在不断发现问题、解决问题的过程中取得更大的成就。
二、主要问题及原因分析
综合有关文献、实践反馈和我们进行的大量数据模拟来看,以下3个问题值得特别关注。
1. 可能诱导考生及家长在选科时的博弈心理,造成学科失衡现象。朱邦芬院士指出分数(等级分)高低依赖于一起参考的考生的水准,这种设计非常不利于国民科学精神和科学素质的提高。他的观点和浙江传统理科组合(全部在物理、化学、生物、技术4科中选择)的选考比例仅为18.7%的实际数据吻合。陈爱文和胡银泉指出,等级赋分采用看似公平的相对分,但实际上是“伪相对分”。从考生功利的角度出发,每一位考生都要争取自己分数的最大化,能否得到高赋分不但要考虑自身水平,更要看跟谁比较,所以在科目选择上不可避免地产生驱赶效应和磁吸效应。柯政也指出“田忌赛马”现象是等级赋分制度激励的结果。王小虎等指出,由于等级赋分重在相对位次,“目前成绩”不好的学生会主动追求相对较为容易的学科参与竞争,这种行为事实上扭曲了不同科目的分数价值。另外,科目的冷热不均特别是物理学科作为科学素养的重要代表学科,在高中生中遭受冷遇,很可能意味着大批考生的科学素养在相当程度上会呈现减弱之势,对高校人才选拔和培养工作造成明显压力。部分理工科专业对人才的特质性要求高(如化工专业要求学生同时具备物理和化学的优秀素质),而新方案招收的学生可能在知识结构上有所欠缺,不利于国家人才的培养。杨君提出不同科目之间在分数转换过程中会出现分数倒置现象,即不同的原始成绩经等级转化后,出现有的科目原始分高转化分低,有的科目原始分低转化分高,这种倒置现象会引发公众对考试公平性的质疑。
理论上,如果考生群体充分大且随机分配,按固定比例划分等级是合理可行的。但从实践来看,在高校对选考科目不同需求的牵引和考生获得高分的利益牵引的共同作用下,难以避免造成不同科目的考生基数不均衡和能力分布不均衡,这时如果仍按照不区分科目的固定比例来划分等级和呈现等级分,就会降低不同科目之间赋分的可比性。如物理本身难度较大,在高校需求牵引下优秀学生报考比例也较大,这就会造成部分中下水平考生不敢选考,且这种现象可能会形成恶性循环。
2. 赋分过程中可能产生分数差距扭曲,不利于提高考试的信度。试点两地在选考科目成绩的呈现方式上都是循着“原始分-百分比例-等级-等级分”的路径,由于最终呈现的等级分没有保留考生达到某一等级程度的信息或者说考生原始分数差距的信息,对于落到同一等级内的学生以及落到不同等级的学生都会带来不同程度的分数差距扭曲:对于相同等级的考生,不管他们的原始分数相差多大全部对应到同一个等级分值;而落到相邻等级的考生即使他们的原始分差只有1分转换后等级分也要相差3分。
文东茅等模拟研究显示,等级赋分造成“苦乐不均”,会影响学科特别拔尖者的相对优势。他们发现,在物理科目中,每个等级之间的原始分差大约为5~7分;而在化学学科中,则为2~3分。在原始分分布标准差较大的情况下,等级赋分有可能缩小原始分的差距(如物理),原始分分布标准差较小的情况下,等级赋分则会扩大原始分的差距(如化学)。在极端情况下,甚至有可能原始分2分之差转换为等级分后相差6分之多。
3. 造成选考科目分数的区分度和权重降低,不能合理体现选考科目的价值和重要性。王小虎等指出,等级赋分必然使高考总分的区分度进一步下降。它一方面减小了分数全距,另一方面会导致高分学生的大量同分现象。文东茅等通过模拟考试的真实数据,显示选考科目会有过多的人获得三科满分、同分甚至是满分现象将导致语数外三门课程的重要性进一步提升。朱邦芬院士以物理为例,指出物理学得好而语文、外语成绩一般的同学,很难被录取,因为物理成绩对高考总成绩的贡献被边缘化了。秦春华也表示,由于语数外在总分中的权重较大,中学势必会选择将其作为应试训练的主要科目,物理等基础性理科教育将受到极大削弱。类似现象曾在前些年个别省的高考改革中出现过,曾迫使部分顶尖大学不得不大幅削减在该省的高考招生指标。
选考科目3分一个等级,在考生规模较小的省份对录取的影响还不明显,但对于考生大省来说问题会更加严重。3分一个等级的设计,初衷是为了减轻学生负担,避免“分分计较”,但从实际反馈看,为提升选考科目在总成绩中的竞争力,在“3分一台阶”设计下,学生和老师反而更加“计较”。陶百强指出现行3分一个等级的做法使分数区分作用降低与高考的选拔性要求分数差异大以区分考生的客观需求两者之间是矛盾的。他认为测验的计分方式应服务于测验目的和功能,不宜为了反“分分计较”迂回计分方式。
三、改进方案与建议
已经出现了一些关于如何改进选考科目赋分方案的操作性建议。
杨志明提出应该采用标准设定与测验等值相结合的解决方法:各选考科目首次考试成绩要进行等级标准设定,以后每年要精心选择一个测验等值样本,通过测试和测验等值推算每个科目每次考试的水平等级线。这是理论上最为完美的解决方案,是最与世界接轨的思路与做法,也是国外很多著名考试项目的常规做法。但我国的考情和欧美一些发达国家大不一样,他们很多成熟有效的做法在我国未必可行。如每次考试都要组织动机相似的考生样本组进行保密的额外测试和数据分析等值等工作,不仅在我国由于操作可行性原因难以实施,从理论上看,我国高考和西方以选择题等客观性题目为主的考试形式不同,大量内容是难以定量分析的主观性试题,更有满分达60分之多的作文等特有的大型主观题,也会提出更多的技术挑战。
也有专家提出重新试验使用标准分,在标准分的理论框架下,原始分的作用仅限于对考生排序,将每一个原始分分值对应的百分累积频率对应作为标准正态分布下的左端面积值对原始分分布进行强制正态化,再按照设定的均值和标准差进行一个线性变换后得到在特定分数全域内的标准分数值。与等级分相比,标准分既可以大幅度提高分数区分度和选考科目的权重,又可以在一定程度上减少因为人为划分成绩带来的不同等级分数差距加大、相同等级分数差距抹去的扭曲现象,可能在一定程度上改进对等级分存在的问题。但标准分自身也存在很多缺陷,在对原始分数(特别是偏态分布情况下)进行强制正态化过程中,很可能在低分和高分端人为扩大或缩小分数差距,产生了新的扭曲。如在试题难度较低、区分度不明显、考生分数相对集中的科目上,标准分会将原本微小的分差放大。反之,在试题难度较大、区分度较强的科目上,经过正态转换后的标准分就会将高分端考分之间的距离缩小、将低分端考分之间的距离扩大。另外,它无法解决选考博弈带来的学科失衡问题。同时,标准分的前提条件是建立在相同考生群体之上,在选考造成考生群体不同的背景下,由于起决定作用的仍然是排序,学科博弈现象将仍然存在,且由于科目间人数不均衡,考生群体存在明显差异,违背了各学科标准分可比的理论假设和大前提。温忠麟和罗冠中也明确指出,在选考科目上直接使用标准分是错误的,必须根据该科目考生群体在必考科目上的整体表现来校准选考科目的标准分。
陈爱文和胡银泉提出设定“熔断机制”,即当某一门学科在选考人数达不到一定要求时,如果考生采用赋分制的得分低于实际的卷面得分,取学生的卷面得分作为实际高考得分。他认为在这种相对分与绝对分相结合的给分机制中,只要考生的真实水平高,考出实际高分,即使赋分低,最终可以取卷面得分作为反映真实水平的实际高考得分,从而减弱高水平学生找低水平学生垫底的需求。但考生的卷面得分(即原始分)不仅与考生水平有关,还与当次考试的试卷难度有关。如果试题容易,将出现较多考生相对分低于实际原始分的情况,而试题较难,则会出现较多考生相对分高于原始分的情况。而在我国由于没有试测等环节,试卷的难易较难控制,这种“熔断机制”很可能会产生新的不公平问题。
借鉴以上改进建议,从考试的公平性、理论的科学性、操作的可行性3个原则出发,笔者认为选考科目赋分优化主要面临3个问题:①等级划定原则要改进,对于共同竞争群体(如同一省份按照高考总分排序录取原则录取的考生),不同选考科目的等级划定在评价考生的升学竞争力意义上必须是公平的,简单以考生比例划分等级的做法不可取;②同一等级内的赋分原则要改进,同一等级内考生原始分数间的差别是他们能力差别的体现,可以根据考试招生的需要给予不同程度的显现;③等级分量表范围要做适当调整,从而提升选考科目对人才选拔的贡献。比较而言,第三个问题是简单的数学问题,解决起来最为容易。第二个问题经过总结试点的经验和教训,比较容易取得共识,关键是如何在实际工作上形成各方都能接受的解决方案。至于第一个问题,无论在政策上还是技术上都面临很多挑战,需要以创新的精神和科学的研究来解决。
本研究提议,保留浙沪试点等级分的主要逻辑框架但针对上面提到的3个问题加以技术改进,形成改进的新等级分。下面按照从易到难的顺序分别讨论以上3个问题。
1. 适当扩大分数全距。在语数外满分各为150的前提下,将每个选考科目的分数全距扩大至80分到100分(如采用[20,100]或[0,100]的分数量表),从而提升选考科目在高考总分中的权重。
通过“等比例原则”,可以将原始分反映出的能力差别等距地映射到等级分上,既避免了分差扭曲,又有效增加了等级分的区分度。
3. 等级划定。本研究基于“不同选考科目的等级分在评价考生的升学竞争力上是公平的”原则提出两种划分等级的方法:一种是根据客观标准,通过专业决策程序划分等级以保证公平;另一种是为各个选考科目寻找或建立一个共同的参照系,借助参照系来划分或调整等级。
第一,学业质量水平参照划等法。由专业考试机构综合国家课程标准、本省教学要求、当次试卷难度、原始分数分布等因素,通过科学程序,在每个选考科目的原始分量表上确定“及格”和“优秀”两个等级点,再对应至等级分量表上各科目一致的“及格”和“优秀”的等级分,之后通过同一等级内分数转换的“等比例原则”,最终形成各选考科目原始分与等级分的对应转换表。不同科目由于学业质量标准不同,试卷难度也不同,两个等级点很可能是不同的,但不同科目的“及格”或“优秀”所对应的学业质量水平(即升学竞争力)是相同的,因此有理由转换为相同的高考分数。确定等级点的具体方法可以参考教育测量理论中的安哥夫方法、书签法等。
基于学业质量水平参照划等法的新等级分,充分尊重和利用了教育测量与评价的基本理论,既借鉴了西方考试理论对定标、等值等基于统计学方法的研究成果和国外考试机构在很多著名考试项目中的成熟做法,也充分照顾了我国国情,简化了定标过程,避免了测验等值等较复杂的理论和计算过程,因而特别值得推荐。它科学地反映了学业水平考试的设计初衷。从教育测量理论视角看,高考是常模参照性考试,是按照比例来录取的,而学业水平考试是标准参照性考试,应依据事先设定的标准来计分。新等级分将浙沪试点方案中按照考生比例的相对标准,改变为按照学业质量水平的绝对标准,体现了学业水平考试相对于高考的不同定位和功能。有利于等级考和高考今后进一步明确不同的功能和定位,各自健康发展。
该方案的优点是:不改变成绩分布,保证公平;理论清晰,没有过多假设前提;有利于避免选科博弈。缺点是事前各等级比例无法明确,考后才能确定各科目各个等级点及相应比例。考试机构每年要组织专家划定等级,较浙沪试点的等级分操作和解读难度更大。
第二,考生群体能力参照划等法。现行新高考试点方案规定特定的等级对应特定的考生比例,赋予了等级以明确的含义,如果各个选考科目的考生组是总体的随机样本,这一做法无可厚非。但是,由于选考不同科目的考生群体显然会存在能力差异,是总体的有偏样本,不加区分地将不同选考科目的相同比例考生群体设定为相同等级分的做法就不够合理了。如果通过统计方法能将各科目选考群体的能力水平分布差别定量化,计算和调整各选考科目各个等级的比例,使相同的等级代表相同的能力水平(即升学竞争力),就又回归合理了。这种通过统计方法将差异定量化的前提是为全体考生寻找或建立一个共同的参照系。
由于全体考生都参加语数外3个科目的考试,最简单直观的思路是以能够反映学业能力水平的语数外3个共同科目来建立这个能力参照系。当然,也可以尝试建立别的参照系。以语数外总分作为考生群体能力参照系为例:如果设定A级的比例为全体考生的5%,首先按照这个比例在共同竞争群体(如全省考生)的语数外总分中找到对应的最低分值。对于任何一个选考科目的考生群体,此时可以计算出其中语数外总分在这个最低分值之上的考生数占本群体的比例。需要指出的是,这个比例不一定再是5%,如在科目甲中可能是4%,而科目乙中可能是7%。这个差异就传递出了不同选考科目群体考生能力差别的信息。为保证公平性,科目甲应该把获得等级分A级的考生比例调整为4%,而科目乙应该把获得等级分A级的考生比例调整为7%,均不再是原等级分算法中同样的5%。各选考科目B级、C级等的比例也可以此类推。
一旦确定了两个以上的等级点,就可以采用学业质量参照划等法中所述的相同逻辑,将原始分中的等级点对应到等级分量表上相应的等级分,并按“等比例原则”处理相同等级内的原始分数,最终形成各选考科目原始分与等级分的对应转换表。
“考生群体能力参照划等法”将选考科目的等级划定自动化,避免人工划等中可能出现的主观色彩,不仅大幅度减少工作量,更有利于取信于民。
以语数外总分作为参照系来划定选考科目等级的做法,最理想的适用情形是语数外及选考科目在相同时间段考试。而在浙沪试点中,这一条件并不满足,此时可以尝试建立别的能力水平参照系,也可以选择在选考科目考试结束后先公布考试的原始分,留待高考结束后再一并公布语数外的分数和选考科目的等级分。后续扩大试点省份有的拟将选考科目的考试安排在高三下学期末和高考统考一同进行,就不存在操作障碍了。
总的来看,本次高考改革被视为恢复高考以来最全面、最系统的一次综合改革,但基于总分录取的招生规则并没有改变。在依据总分录取且“分分计较”事实上难以避免的情况下,必须要保证不同学生选考不同科目之后,其总分在竞争同一升学机会时是可横向比较的,这是整个“高考+学考选考”的双层架构设计中必须满足的一个前提条件。以上两种改进方案都基本满足选考科目成绩记入高考总分并用于公平录取的需求。这两种方案基本上不改变原始分的分布形态;并最大限度地保留原始分数的距离信息,从而很好地解决了现行赋分可能出现的分数扭曲问题、区分度低问题,也能极大地缓解选科博弈带来的科目失衡现象。前文所提到的选考科目权重低这一问题,也值得在完善方案过程中通过适当调整分数量表的最低分和最高分来实现,通过调整分数全距来调整各科目的权重。
四、建议
目前,北京等后续扩大试点省份的改革方案已经陆续制定发布,坚持改革方向、坚持稳中求进、坚持综合施策成为各省份制定和修改完善方案的基本原则。高考综合改革包含教学模式、考试评价、招生录取等多个环节,考试环节的技术改进必须服从高考综合改革的总体目标。除了本研究重点探讨的赋分方案的改进之外,以下建议可供相关决策和实施者参考。
1. 建议加强实证研究,探索符合试点省份实际情况的可行方案。本研究所提出的方案只是提供了一个理论框架,其是否可行,以及在实施当中会遇到哪些问题,需要做出什么改进,需要后期大量的跟踪实证研究。我国经济社会及教育发展还存在较大的区域不平衡,试点省份需因地制宜,结合本省特点,组合或改良使用,提出有针对性的方案。由于方案的设计和改进涉及大量的具体技术问题,建议试点省份教育行政部门牵头,联合各方力量,成立实验研究组,利用高考和学考选考实证数据开展模拟研究和实证研究,在不断探索和论证的过程中,不断改进完善,最终形成行之有效的、符合省情的、科学公平的赋分方案。
2. 建议尽快组织研制学业水平考试标准,推进“学业质量”的落地。日前,普通高中课程方案和课程标准(2017年版)已经正式颁布。课程标准修订的重要特征之一是明确提出了“学科核心素养”和“学业质量”的概念,并在学科核心素养的基础上制定了“学业质量水平”。与以往相比是一个重要的突破。内容标准一般规定教学的知识内容范围和要求,学业质量及水平则是从学生学习成果具体表现的角度规定了不同水平应达到的程度,更有利于在考试中落实课标。但是,新修订的课程标准学业质量及水平多用一些类似于“了解”“能”“理解”“掌握”等词语进行描述,虽然进行了水平划分,但没有基于大量的考试数据的验证,这对于科学性、规范性、实践性要求很高的学业水平考试的实施是不够的,在实践中也较难用于指导学业水平考试命题和分数解释,从而不利于发挥学业质量水平的作用。因此,需要在 “学业质量”“学业质量水平”的基础上,研制更具科学性、可操作性、可评价的“学业水平考试标准”,这是建立健全学业水平考试制度、提升学业水平考试质量的重要基础和保障。
《教育部关于做好高中学业水平考试的实施意见》明确了学业水平考试“国家标准,省级实施”的管理模式。只有制定国家统一、科学规范、操作性强的各学科的学业水平考试标准,并指导各省按照考试标准开展考试命题工作,依据表现标准进行分数报告和解释,才能保证学业水平考试的顺利实施,使学业水平考试真正发挥检验学生学业水平、促进高校选拔人才、助推课程标准实施的积极作用。
考试标准是考试命题实施和试题评价的规范性文件,是科学命题的依据。考试标准不仅规定考试考查必备知识、关键能力、学科素养和核心价值等内容标准,还要规定考试的试卷结构、题型题量、难易程度、样题样卷等形式标准,更要研究制定用于分数解释和评价学生学业水平的表现标准。其中,学业水平表现标准的研制,需要在遵循课程标准学业质量水平的基础上,借助教育测量学相关技术和量化手段,通过对考试大数据的统计分析,将特定能力等级的考生能答对的典型试题所反映出来的认知反应水平,通过学科语言提炼,概括为学生在学科核心素养上的表现和达成度。这样,学生的学业表现水平就能够与考试命题、分数解释很好地关联;命题才有可靠的依据,才能实施基于学业质量的考试,考试分数才能被科学地阐释和一致地使用。
3. 建议加紧提升学业水平考试特别是选考科目考试的专业化水平。我国经济社会和教育发展区域不平衡、不充分的现象长期客观存在,各地教学和考试水平不一,即使在前几年分省命题的大环境下,也有近一半省份使用国家统一命制的试题。全面实施新高考后,这些从未自行组织过高考命题的省份是否能够完成学业水平考试尤其是选考科目的命题任务令人担忧。建议国家加强对学业水平考试的指导、评估和监督,加强国家题库的建设,从命题、考试实施、阅卷、成绩报告等多个环节,全面提升学业水平考试特别是选考科目考试的权威性和公平性。
改革不易,道阻且长。回顾一省一市高考综合改革试点的成效,让人既看到成绩的来之不易,在不忘改革初心的同时,也增强了推进全面深化改革的信心和力量,进一步坚定了将改革进行到底的决心。
于涵,教育部考试中心副主任、研究员,北京 100084;韩宁,教育部考试中心评价处处长,北京 100084;关丹丹,教育部考试中心评价处副处长,北京 100084;章建石,教育部考试中心评价处助理研究员,北京 100084;焦丽亚,教育部考试中心评价处助理研究员,北京 100084
原文刊载于《中国高教研究》2018年第6期第44-49页