教育大数据的特征和五层架构

  技术变革教育的时代已经来临,以信息化带动教育现代化已上升为国家战略。当前,我国教育发展面临诸多难题(减负、公平、质量提升、均衡发展等),而云计算、大数据、学习分析、物联网、移动通信等信息技术的快速发展为解决教育难题、促进教育领域综合改革与发展,提供了重要机遇和巨大可能性。

  

  其中,大数据技术无疑是推进教育创新发展的科学力量。近年来,大数据不断对社会各个领域产生深刻影响,正在是新建人类工作、生活与思维的变革。同样,其“威力”也强烈地冲击着整个教育系统,正在成为推动教育系统创新与变革的颠覆性力量。

  教育大数据的特征和结构  教育大数据是大数据的一个子集,特指教育领域的大数据,是整个教育活动过程中所产生的以及根据教育需要采集到的,一切用于教育发展并可创造巨大潜在价值的数据集合。教育大数据之“大”并非只指数量之大,而是更加强调“价值”之大,即能从繁杂的教育数据中发现相关关系、诊断现存问题、预测发展趋势,发挥教育大数据在提升教育质量、促进教育公平、实现个性化学习、优化教育资源配置、辅助教育科学决策等方面的重要作用。

  与传统教育数据相比,教育大数据的采集具有更强的实时性、连贯性、全面性和自然性,分析处理更加复杂和多样,应用更加多元、深入。传统教育数据的采集往往是阶段性的,多在用户知情的情况下(非自然状态)进行,分析的手段多采用简单的汇总统计和比较分析,关注的重点是受教育者的群体特征以及国家、区域、学校不同层面教育发展的整体状况。

  在大数据时代,移动通信、云计算、传感器、普适计算等新技术将逐步融入教育的全过程,可以在不影响师生教学活动的情况下实时、持续地采集更多微观的教与学的过程性数据,比如学生的学习轨迹、在每道作业题上逗留的时间、教师课堂提问与微笑的次数等。教育大数据的数据结构更加混杂,常规的结构化数据(如成绩、学籍、就业率、出勤记录等)依旧重要,但非结构化数据(如图片、视频、教案、教学软件、学习游戏等)将越来越占据主导地位。

  教育数据每时每刻都在产生,然而教育领域究竟包含哪些数据?需要采集哪些数据?借鉴人力资源领域的人才素质“冰山模型”,可以构建教育大数据的“冰山模型”(如下图所示)。

  

  该模型将教育数据分为两大部分,分别是显露于冰面之上的数据和深藏于冰面之下的数据。多年来,国家采集的教育数据主要以管理类、结构化、结果性的数据为主,这些数据位于“冰面”以上,具有易测量、显性化等特点,重点关注宏观层面教育发展整体状况,在一定历史时期对我国制定教育政策、推动教育发展起到了积极的作用。

  然而,随着大数据时代的到来,国际社会对教育大数据战略资产的地位越来越认可和重视,教育数据的全面化采集与深度挖掘分析就变得越来越重要。教育数据采集的重心将向非结构化的、过程性的数据转变,此类数据主要位于“冰面”以下,具有难测量、隐性化等特点。这些数据无论从数量上、增长速度上、还是潜在的价值上,都将远远超越传统的教育数据。

  教育大数据的五层架构

  教育数据是客观的,其价值的发挥取决于操控和应用数据的人。因此,无论是冰面之上的数据还是冰面之下的数据都属于教育大数据的重要组成部分。只是从当前教育数据的采集与应用上来看,应当着重加强冰面之下部分教育数据的采集与深度挖掘,同时加强教育大数据与其他领域大数据(医疗、交通、经济、社保等)的融通和关联分析,进一步增强教育决策的科学性。为了更加清晰地认识教育大数据的概貌,这里根据教育数据的来源与范围,将其分成五层架构(如下图所示),从下向上汇聚各种教育数据。

  

  个体层教育数据: 包括国家规定采集的教职工与学生的基础信息、用户各种行为数据(如学生随时随地的学习行为记录、管理人员的各种操作行为记录、教师的教学行为记录等)以及用户状态描述数据(如学习兴趣、动机、健康状况等)。

  课程层教育数据: 是围绕课程教学而产生的相关教育数据,包括课程基本信息、课程成员、课程资源、课程作业、师生交互行为、课程考核等数据,其中课程成员数据来自个体层,用于描述与学生课程学习相关的个人信息。

  学校层教育数据: 主要包括国家标准规定的各种学校管理数据(概况、学生管理、办公管理、科研管理、财务管理等)、课堂教学数据、教务数据、校园安全数据、设备使用与维护数据、教室实验室等使用数据、学校能耗数据以及校园生活数据。

  区域层教育数据: 主要来自各学校以及社会培训与在线教育机构,主要包括国家标准规定的教育行政管理数据、区域教育云平台产生的各种行为与结果数据、区域教研训学等所需的各种教育资源、各种区域层面开展的教学教研与学生竞赛活动数据以及各种社会培训与在线教育活动数据。

  国家层教育数据: 主要汇聚来自各区域产生的各种教育数据。图3展示了各层教育数据包含的细分数据类型。