湘潭大学谢佳 等:神经网络认知测量在工程教学课程评价中的应用
在工程教学课程评价中,由于存在不可观测的混杂因子,使教师在进行课程目标达成情况评价时无法得到真正可靠的数据,故而影响后续的教学持续改进工作。针对此问题,湘潭大学自动化与电子信息学院的谢佳、段斌、高婷、钟伦亮,在2023年第2期《电气技术》上撰文,提出一种结合神经网络认知测量学和因果推断科学的去混杂方法。
首先,根据学生平时的练习数据构建神经网络认知诊断模型,得到学生对知识点的掌握程度并作为学生能力的衡量指标;然后将学生的能力评估结果作为该案例因果推断模型中的中介变量数据;最后通过前门调整法得到去混杂后的实际课程教学对课程目标达成情况评价的因果效应。
本文以湘潭大学某学年电子信息类专业本科生专业课“电源技术”为案例,对该学年的课程目标达成情况评价结果进行修正,得到该学年实际的平均课程目标达成情况评价结果为88.92%。结果表明,该方法可以有效屏蔽混杂数据,帮助教师在实际教学中进行更加可靠、公平的课程目标达成情况评价。
2022年3月16日,教育部、中国工程院举行会商会议,研究加强和改进工程教育。怀进鹏部长强调,要深入贯彻中央人才工作会议精神,推动从工程教育大国向工程教育强国迈进,培养壮大战略科技力量,深化对工程教育、职业教育自身规律性认识。
课程教学是高等院校教育教学活动中最基本、最关键的环节,课程教学的质量是反映一个学校教育质量的重要方面。教学目标是教学活动的出发点和归宿,在教学过程中制约着教学方案设计和教学评价设计,起着提纲挈领、纲举目张的作用。
课程目标达成情况评价,是教师根据教学大纲和教学内容所设计的教学目标在教学实施过程中所能实现的程度。基于工程教育专业认证,课程目标达成情况分析与评价即为:课程负责人及其教学团队,通过一定的评估手段和方法,评估课程目标的达成程度,即收集数据,包括日常作业、测验、实验和期末考试等,在对所有评估数据进行分析、比较和综合后,得出每个课程目标的达成情况评价结果。
目前,已有的课程目标达成情况评价方法大致可以分为两类:第一类是直接根据该课程的课程考核总成绩的平均值来计算课程目标达成情况;第二类是根据考核环节和课程目标双层赋权来计算课程目标达成情况或者是根据课程目标对考核环节的贡献力度来计算课程目标达成情况。
这些方法仅针对具体教学进行课程目标达成情况改进计算研究。但实际上,在教学过程中总是存在大量的混杂数据,比如学生在做题过程中由于身体状态原因无法发挥其正常水平等。这些数据无法真正衡量在教学过程中实际课程教学对课程目标达成情况评价的因果效应。
鉴于此,本文提出结合人工智能前沿科学-因果推断科学和认知心理测量学及神经网络科学对工程教育教学评价中存在的不可观测的混杂因子进行去混杂研究,从根本的数据入手,得到更加可靠、公平的课程目标达成情况评价结果。
1.1 认知测量方法学发展现状
认知测量学是一个很大的心理学范畴。其理论发展的丰富化、应用的多样化、信度和效度的准确化,以及方法、技术的现代化,使它被广泛应用在教育、医学临床、人才选拔、智能发育的早期诊断等领域。由于本文主要研究的是学生对知识点的认知能力,因此这里的认知测量主要针对学生在某一科学领域的能力。
在教育学领域,认知测量通常被称作认知诊断。目前,认知诊断方法有60种左右,根据学生的能力向量是连续的还是离散的,可将比较常用的模型大致分为两类,一类是以项目反应理论(item response theory, IRT)为代表的连续型认知诊断模型,一类是以DINA(deterministic inputs, noisy “and” gate)为代表的离散型认知诊断模型。
随着大数据时代的到来,神经网络逐渐应用于认知诊断领域。2020年,陈恩红、刘淇团队提出一种通用的神经网络认知诊断框架,该框架可以利用神经网络来学习复杂的练习交互,以获得准确且可解释的诊断结果。2022年,Yang Haowen等提出一种新的基于量化关系的可解释认知诊断模型(quantita- tive relationship-based explainable cognitive diagnosis model, QRCDM),通过设计的神经网络计算习题和知识概念的两个贡献矩阵,预测学习者的概念熟练度和答案的得分。
同年,Su Yu等提出一种基于图的认知诊断模型(graph-based cognitive diagnosis model, GCDM),通过异构认知图直接发现学生、技能和问题之间的交互,设计了两个图的层:性能相关传播器和注意力知识聚合器。前者用于不同类型的图边传播学生的认知状态,后者可以选择性地从相邻的图节点收集消息。
总地来说,目前将神经网络用于认知诊断领域的文献还比较少。
1.2 因果推断方法学发展现状
自相关系数的概念被提出以来,涉及因果推断的问题就缠住了统计学的脚后跟。经济学研究强调的是变量间因果关系的识别而非统计学上相关关系的判断,然而由于传统的统计推断方法在识别因果关系时存在某些弊端和不足,于是可以更加有效识别变量间因果关系的新兴研究范式“因果推断”开始兴起。
因果推断的哲学基础最初由英国实证主义哲学家与经济学家穆勒于1851年在其所著的《逻辑体系》一书中提出。在研究方法与数据来源不断更新迭代的当下,对新兴路径与范式的探索业已成为教育政策研究者亟须开展的工作。蓬勃发展的“数据密集型科学发现”被界定为科学方法革命的“第四范式”,表征出科学探究的基本范式在当前“大数据时代”前所未有的变化。
2007年,杨向东表示对因果关系的推断是教育评价中的核心问题之一,他结合西方有关领域,分析了教育评价中存在的各种类型的因果关系及因果关系推断中的基本问题。2014年,乔天宇等提出使用工具变量回归的方法,解决最小二乘回归在估计寄宿的影响时可能存在的内生性偏误问题,实证估计了寄宿对农村学生学习成绩的效应,从而考察寄宿对农村中小学教育的影响。2019年,杨真等学者使用中国家庭追踪调查数据和倾向得分匹配方法,考虑子女教育对家庭消费的挤入效应和挤出效应,研究了父辈教育期望对家庭消费的影响。
总地来说,因果推断科学目前主要应用在教育领域和经济学领域。
1.3 本文创新点
认知测量学和因果推断科学目前都有与教育相结合的例子,例如应用认知测量方法学估计学生的能力从而提供个性化教学,利用因果推断方法学推断出实际教学效果,帮助教师进行持续改进。但目前还未有学者尝试将认知测量方法学和因果推断方法学相结合。
本文主要从修正教学数据出发,构建基于神经网络认知测量的自动化测评工具,作为因果推断模型中的中介变量,应用前门调整法对教学数据进行调整,从而去除教学质量评价中的混杂数据,得到真正的因果效应。
神经网络认知测量自动化测评工具主要通过学生的做题数据和实验数据来训练模型,从而得到学生能力评估结果。这里研究的是特定的电源设计教学领域。自动化测评框架如图1所示。
图1 自动化测评框架
2.1 数据的获取及分类
数据的获取主要指两部分,一部分是学生的课后习题做题数据,另一部分是学生的实验设计数据。本文针对教学大纲中的某一课程“Buck开关型调整器”及对应的实验“Buck开关型纹波设计”展开研究。
其中,Buck开关型调整器主要考察以下知识点:①Buck调整器的基本概念;②Buck调整器的基本符号和波形;③Buck调整器的基本工作方式; ④Buck调整器的主要电流波形;⑤Buck调整器的效率;⑥Buck经典电路设计。
本文共编制10道题对这6个知识点进行测验。当学生做题的正确数量小于6道题目时,该学生得到的成绩为不合格,编码为“0”;当学生做题的正确数量大于或等于6且小于9道题目时,该学生得到的成绩为合格,编码为“1”;当学生做题的正确数量大于9时,该学生得到的成绩为优秀,编码为“2”。这里共获取400个同学的做题数据。Buck开关型纹波设计实验主要包含以下几个复杂工程问题。
1)电感的选择问题
图2 不同电感对波形的影响
式(1)-(3)
2)输出滤波电容的选择问题
图3 不同输出电容对波形的影响
式(4)-(5)
3)输入滤波电容的选择问题
图4 不同输入电容对波形的影响
式(6)-(7)
该实验收集了400组数据,当输出电压纹波大于直流平均电压值的2%且输入电流纹波大于直流平均电流值的20%时,该学生得到的成绩为不C合格,编码为“0”;当输出电压纹波小于直流平均电压值的2%或输入电流纹波小于直流平均电流值的20%时,该学生得到的成绩为合格,编码为“1”;当输出电压纹波小于直流平均电压值的2%且输入电流纹波小于直流平均电流值的20%时,该学生得到的成绩为优秀,编码为“2”。具体的评价分类见表1,其中P为学生的做题能力,E为学生的实验设计能力。
当学生的做题能力评价为不及格且学生的实验设计能力评价为不及格时,该学生得到的评价编码为“0”,表示评价结果为不及格;当学生的做题能力评价为优秀且学生的实验设计能力评价为优秀时,该学生得到的评价编码为“2”,表示评价结果为优秀;其余情况的评价编码为“1”,表示评价结果为及格。
表1 评价分类
2.2 数据预处理
数据获取来源如图5所示,包括两个部分:一个是学生的做题数据,做题数据以字典的方式储存在学生的做题日志中;另一个来源于学生的实验数据,从WEBENCH中得到。得到这些数据后对其进行快速傅里叶变换(fast Fourier transform, FFT),放大特征,从而提高网络模型的准确率。
图5 数据获取来源
2.3 神经网络模型
神经网络输入层定义为
式(8)-(11)
损失函数loss是输出y和真实标签r的交叉熵,公式定义为
式(12)
2.4 结果分析
图6为模型的可视化训练过程,其中图6(a)为模型在迭代过程中的准确率变化情况,图6(b)为损失函数在迭代过程中的变化情况。图中橙色曲线代表训练集的迭代曲线,蓝色曲线代表验证集的迭代曲线。可以看出,训练集的准确率约为95%,验证集的准确率约为98%。通过计算,测试集的平均准确率约为96.7%。
图6 可视化训练过程
本文以湘潭大学某学年电子信息专业课“电源技术”为例,共包含115人的成绩。成绩包括平时成绩X、自动化测评成绩M。其中,X=0、1、2分别表示学生的该课程目标平时成绩不合格、合格和优秀,M=0、1、2分别表示学生的自动化测评成绩不合格、合格和优秀。
Y为个人的课程目标达成情况评价,是学生该课程目标自动化测评成绩和考试成绩的加权平均值,Y=0、1、2分别表示学生个人的课程目标达成情况评价为不合格、合格和优秀。
成绩按本文要求分类整理,表2为各平时成绩下参与自动化测评的人数分布,表3为平时成绩和自动化测评各成绩级别下的课程目标达成情况的人数分布。本文从建模、识别、估计、数据分析四个过程对该案例进行分析。
表2 各平时成绩下参与自动化测评的人数分布
表3 平时成绩和自动化测评各成绩级别下的课程目标达成情况人数分布
3.1 建模
图7为案例因果关系建模。其中X为课程教学,这里主要代表学生的平时成绩,Y为课程目标达成情况评价,C为教学过程中存在的混杂因素,如学生在平时作业中抄袭答案等,这里的C没有特指某一个混杂因素,代表是的C1、C2等混杂因素的充分集。
图7 因果关系建模
3.2 识别
因果推断去混杂中包含前门调整法、后门调整法及工具变量法三类方法。其中,当混杂因子的充分集可收集时可使用后门调整法。显然,在教学过程中存在的混杂因素很难收集,因此这里不考虑后门调整法。工具变量法虽然可以在无法控制混杂因子或收集数据的情况下估计因果效应,但对工具变量的正确选择具有特殊性,不适合对教学过程中的数据去混杂。
因此,本文采用前门调整法去混杂,如图8所示,加入一个中介变量M,即第2节所构建的自动化测评工具,为了防止C到M中存在混杂,这一过程采取智能监控环境。前门调整公式为
式(13)
图8 前门调整法去混杂
3.3 估计
估计是指基于可获得的数据量,使用统计方法估计目标量,这里指计算课程教学对课程目标达成情况评价的因果效应。前门调整法估计主要有以下三个步骤。
1)估计课程教学对自动化测评的因果效应
由于课程教学-混杂-课程目标达成情况评价-自动化测评这条路径被课程目标达成情况评价所阻断,因此课程教学对自动化测评的因果效应为
式(14)
课程教学对自动化测评的因果效应计算结果见表4。
表4 课程教学对自动化测评的因果效应
2)估计自动化测评对课程目标达成情况评价的因果效应
由于课程教学阻断了后门路径自动化测评-课程教学-混杂-课程目标达成情况评价,因此可以使用后门调整得到自动化测评对课程目标达成情况评价的因果效应。后门调整公式为
式(15)
自动化测评对课程目标达成情况评价的因果效应计算结果见表5。
表5 自动化测评对课程目标达成情况评价的因果效应
3)估计课程教学对课程目标达成情况评价的因果效应
课程教学对课程目标达成情况评价的因果效应可以表示为
式(16)
课程教学对课程目标达成情况评价的因果效应计算结果见表6。
表6 课程教学对课程目标达成情况评价的因果效应
3.4 数据分析
对X=0, X=1, X=2所得到的因果效应估计进行分析可以发现:在平时成绩为不及格时,课程目标达成情况评价合格的概率为88.04%;在平时成绩为合格时,课程目标达成情况评价合格的概率为89.58%;在平时成绩为优秀时,课程目标达成情况评价合格的概率为88.65%;对每一层学生的加权平均课程目标达成情况评价合格的概率为88.92%,修正了11.08%的混杂数据,可以得到该课程实际的平均课程目标达成情况评价为88.92%。
本文结合神经网络认知测量学和因果推断科学对教学评价方法进行改进,主要解决了现有教学评价中的两个问题:
首先,构建教学过程的因果模型,通过前门调整法对教学数据进行修正,解决了由于教学过程中存在不可观测的混杂数据导致计算得到的课程目标达成情况评价信度低的问题;其次,搭建自动化测评工具作为教学评价过程中的中介变量,不仅可以在教学评价中为数据修正提供桥梁,而且可以帮助学生和教师及时进行反馈和调整,解决了由于缺少过程性评价导致教师无法进行后续改进工作的问题。
由于采用本文方法导致成绩评价的技术性要求提升,因此本文为教师在进行成绩评定时提供了一个更加容易理解和易于操作的简化算法:第一步(建模),建立课程教学因果理论模型,将问题的描述转化成一个因果图;第二步(识别),对因果图的路径进行分析,根据实际情况找到合适的中介变量;第三步(估计),根据实际调整方式计算出实际的平均因果效应。
本文编自2023年第2期《电气技术》,论文标题为“神经网络认知测量在工程教学课程评价中的应用”,作者为谢佳、段斌 等。本工作得到湖南省学位与研究生教育教改研究重大项目、湖南省新工科研究与实践项目的支持。
举报/反馈