首页 -> 2007年第7期
数据挖掘技术及其在职业教育中的应用探讨
作者:段向红 张飞舟
关键词:数据挖掘;职业教育;教育信息化
目前,计算机技术已经渗透到社会生活的各个方面,对职业教育的教学也产生了重要影响。随着教育信息化进程的推进,产生了大量的、复杂的数据,面对如此巨大的数据资源,如何更充分、更有效地加以利用呢?将数据挖掘(Data Mining,DM)技术应用于职业教育中,可从大量的教育数据中发现隐藏的、有用的知识来指导教育、发展教育,改善职业教育中的教学效果,从而有效提高职校学生的职业与文化素质。
数据挖掘技术
随着信息技术的飞速发展及数据库技术的广泛应用,人们积累的数据越来越多,但是数据资源中蕴含的知识却未能得到充分的挖掘和利用,“数据丰富而知识贫乏”的问题十分严重。人们迫切需要一种新的技术将这些海量的数据资源转换为有用的知识,从而帮助人们科学地进行各种决策。面对这一挑战,数据挖掘技术应运而生,并逐渐显示出其强大的生命力。
(一)数据挖掘的概念
数据挖掘是一个集统计学、人工智能、模式识别、并行计算、机器学习、数据库等技术于一体的交叉性学科研究领域。数据挖掘是一个从数据中发现知识的过程。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、有用的信息和知识的过程。通过数据挖掘可以帮助决策者寻找规律,发现被忽略的要素,预测趋势,进行决策。数据挖掘是对数据内在和本质的高度抽象与概括,是对数据从感性认识到理性认识的升华。它涉及对数据库中的大量数据进行抽取、转换、分析以及模型化处理,从中提取辅助决策的关键性数据,因此数据挖掘就是深层次的数据信息分析方法。
(二)数据挖掘的分类与主要功能
数据挖掘的分类方式很多,根据数据挖掘的任务可分为:分类或预测模型数据挖掘、数据总结、数据聚类分析、关联规则分析、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。根据数据挖掘的对象可分为:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产数据库以及Web数据源等。数据挖掘具有预测趋势和行为、关联分析、聚类、概念描述以及偏差检测等主要功能。
预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以通过数据挖掘迅速直接地由数据本身得出结论。
关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。
聚类数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。
概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。
偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例等。
总之,数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳出有用的结构,作为决策者进行决策的依据。
(三)数据挖掘的基本过程
数据挖掘的基本过程包括:数据收集、数据整理、数据挖掘、结果评估、分析决策等,其基本与步骤如图1所示。从图1不难看出,数据挖掘的各过程不是一次就能完成的,其中某些步骤或者全过程可能需要多次的循环反复,才有可能达到预期的效果。

数据收集大量全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从谈起。因此,数据收集是数据挖掘的首要步骤。在开始数据挖掘之前,首先要消除噪声或不一致数据,广泛收集用户的各种信息,建立数据库与数据表,为数据挖掘做准备。数据可以来自于现有事务处理系统,也可以从数据仓库中得到。
数据整理数据整理是数据挖掘的必要环节。由数据收集阶段得到的数据可能有一定的“污染”,表现在数据可能存在自身的不一致性,或者有缺失数据的存在等,从数据库中检索与分析任务相关的数据,确保数据能够真实反映待挖掘的对象,因此数据的整理是必需的。数据挖掘通过汇总或聚集操作将数据变换或统一成适合挖掘的形式,可单独利用也可综合利用各种数据挖掘方法对数据进行分析,挖掘用户所需要的各种规则、趋势、类别、模型等。
结果评估数据挖掘的结果有些是有实际意义的,而有些是没有实际意义的,这就需要进行评估。这样对发现的规则、趋势、类别、模型进行评估,可以保证发现的模式的正确性。
分析决策数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等,并将挖掘结果以可视化的形式展现在用户面前。
(四)数据挖掘的模型
数据挖掘模型在本质上可分为预测型模型与描述型模型两类,其模型结构框图如图2所示。从图2中可以看出,每类模型下都包含一些需要用到该类模型的最常用的数据挖掘任务。预测型模型对数据的值进行预测,能够完成的数据挖掘任务包括分类、回归、时间序列分析和预测。描述型模型对数据中的模式或关系进行辨识。与预测型模型不同,描述型模型提供了一种探索被分析数据的性质的方法,而不是预测新的性质。聚类、汇总、关联规则和序列发现在本质上都通常被视为描述型模型。

数据挖掘技术的应用
(一)教学管理方面
职校学生的知识结构和学习风格是学校学生的基本特征。知识结构说明了学生对正在或将要学习知识的掌握情况,主要包括学生初始技能、当前技能和目标技能。学习风格包括学生的生理特征、心理特征和社会特征三个方面。利用数据挖掘功能分析学生特征,掌握学习者的状态,目的在于帮助学习者修正自己的学习行为。通过对学生特征分析结果和事先制定的行为目标标准进行比较,教师能够帮助学习者修正学习行为,提高学习能力,完善人格,因材施教,有利于学生各方面素质和谐发展。随着计算机在教学管理方面的广泛应用,学生和教师的学习、工作、奖励、处罚等信息被存储在教学管理数据库中。例如,学生入学后,在校学生管理数据库中存放有大量的学生档案,包括的内容有家庭情况、身体状况、入校前后的学习成绩、特长爱好、奖惩等信息。利用数据挖掘的关联分析和演变分析等功能,在学生管理数据库中挖掘有价值的数据,分析学生的日常行为,可得知各种行为活动之间的内在联系。
(二)教学评价方面
教学评价是世界教育科学研究三大研究领域之一。教学评价的技术水平是衡量一个国家教育发展水平的重要尺度。教学评价就是根据教学目标和教学原则的要求,系统地收集信息,对教学过程中的教学活动以及教学成果给予价值判断的过程。其内容主要包括对学生“学”的评价和对教师“教”的评价。
目前,职业教育评价指标主要包括学生综合测评指标和课堂教学评价指标,这些评价指标多数是参考国内外相关评价指标体系并结合实际操作中的经验和调查问卷等制定的,对于各项指标之间的关系、重要程度以及指标存在的合理性等方面很难作出判断,将关联规则和粗糙集理论应用于各评价系统,可以对指标进行排序、约简等,在一定程度上对评价指标进行优化,可以找到比较合理且简单易行的评价指标体系。另一方面,学习评价是教育工作者的重要职责之一。评定学生的学习行为,既可对学生起到信息反馈和激发学习动机的作用,又是检查课程计划、教学程序以至教学目的的手段,也是考查学生个别差异,便于因材施教的途径。评价要遵循“评价内容要全面、评价方式要多元化、多次化、注重自评与互评的有机结合”的原则。在教学科研网络普遍建立的今天,利用数据挖掘工具对学生的学习成绩数据库、行为记录数据库、奖励处罚数据库等进行分析处理,可以及时得到学生的评价结果,对学生出现的不良学习行为进行及时指正。同时,还能够克服教师主观评价的不公正、不客观的弱点,减轻教师的工作量。
[2]