教育大数据的应用瓶颈在哪里? — 专访美国 Boise State University 洪瑞隆教授

人工智能 (AI) 已经被应用在生活中非常多领域中,只是我们有时并未察觉,例如:购物网站根据使用者浏览行为与历史纪录,动态调整推荐商品;零售商店根据气候、季节、日期与地理位置等,计算各商品最佳定价;还有,人脸或图片辨识、手写输入辨识、语音辨识、自动过滤垃圾邮件、自动侦测信用卡盗刷、人工智能客服等。

不过,去年因为 AlphaGo 战胜棋王,最近又有其进阶版 Master 在网上横扫千军、攻无不克,这些消息让一般读者比较知道这些技术了。人们只知道电脑 (AI) 可以完成这些不可思议的事,却不知道背後能成就这些事情的,其实是来自大量的 Data 及超强的运算能力 — 也就是机器学习 (Machine Learning) 技术、与最近带来诸多突破的深度学习 (Deep Learning,是机器学习的一支)。

机器学习技术与运算效能已经成为一般工程师都可以取得的 API 服务,重点在於我们要拿它们来做什麽? 如何解决问题? 有了 Data, 各领域都逐渐向个性化的服务思维转化,我们可以如何利用这些科技来解决教育的问题、或让人类站在人工智慧的肩上高效学习?

洪瑞隆教授是资料科学技术专家,是美国 Boise State University 教授,也曾为不同领域的大数据专案提供顾问谘询,继我们探讨”当教育遇上人工智慧“,这次专访想请洪教授分享资料科学相关技术发展、与在教育上应用的现况、限制与展望。

Jessie: 可否请您分享您过去与目前进行的工作概况?

洪教授:

我过去在美国曾接受州政府或学校委託为 Idaho、Michigan、California 与 Florida 等地的线上公、私立学校以学习数据进行预测分析,例如提早预警可能会失败 (At-risk) 的学生,让学校可以及早介入协助那些学生,这样的计画在美国已经进行好几年了。我们自己 Boise State University 也做了好几年了。

从学习系统 (例如 Moodle) 撷取数据来建立预测模型,从时间序列去分析行为的模式,对学生可进行分群 (Clustering),模型经过实验优化过,準确度很高,现在已标準化了。反而像市面上的商用学习系统,例如 BlackBoard,虽然也有这种预警功能,但是相当不準。

另外,我在台湾与中国为金融业做大数据分析,教育系统可以收到的资料量级跟金融业差太多了。金融业可以根据消费行为对客户建模,建立信用、风险与偏好的预测,为客户做产品推荐与管理,以一个银行机构为例,目前约叁分之一的分行执行此专案,约有七百万客户,大於一万个栏位,此专案一年的投资报酬已经有 33 亿台币。

Jessie: 据您观察,最近机器学习与人工智慧的主要突破为何? 限制又是甚麽?

洪教授:

机器学习的準确度随训练资料 (Training Data) 量上升而进步,专案初期数据量少,我们有方法可以补强。

主要问题是: 资料格式的不统一、资料品质的不一致、种类不一致,有的学校资料较完整、有的缺口较大,非结构化资料处理困难,这些都是很常见的问题,80 % 时间都在做资料清整,对同一个目标问题每个案例都要重建、训练模型,这让解决方案无法 generalize。

幸好现在机器学习 (Machine Learning, ML) 之中的深度学习 (Deep Learning,DL) 是一个明显突破,像 Microsoft、Google 都有提供 DL API,有助於解决此问题,DL 模仿人脑神经元网络 (Neural Network) 运作方式,可以不需要我们事先告诉它数据里有那些特徵 (Feature Specification),也不需要告诉它预测时各变量的权重应该如何分配 (Optimization),这样解决方案就可以 Generalize。我们正在朝此方向进行。

对不同的目标问题,需重新建立模型,例如,那些学生以後会被当掉,与那些学生位於考上第一志愿的边缘,值得特别关注加强,两个问题会是不同模型。有了 DL 技术的突破,问出好问题 (如何应用 DL 来解决问题) 还是很重要。

Image is from 李宏毅 / 一天搞懂深度學習 / Deep Learning Tutorial

Jessie: 如果要将机器学习技术运用来解决教育的问题、或改善现况,瓶颈在哪里?

洪教授:

学习分析的小场域研究计画相当多,很多显示非常成功。但是 这些成功例子的分析与模型牵涉到很多在地的情境 因子,因此在大规模的实践上缺乏强而有力的證据, 證明其有效性。

普渡大学 (Purdue University) 的 Course Signal 是最有名的大场域实践计画,该计画套用在几百门课与数万名学生,有效增加 21% 学生的在学率 (Arnold & Pistilli, 2012)。

技术不是问题,缺乏资源是最大的问题,还有要整合教育系统的环节解决信息孤岛 (Data Silos),否则资料都是孤立的点而已,无法看到学习的面。资料目前都锁在各种校内、校外使用的系统 — 校务、学务、邮件系统、学习工具与其他系统,还有混合(Hybrid) 学习模式包含数位与非数位学习,如何收到後者资料。或许与校务行政系统供应商是好的第一步,关键仍在於学校决策者必须对业者提出要求。

Jessie: 教育大数据的应用瓶颈是根本就无法取得真正的大数据,要建立一个教育大数据的交易生态,含 API 服务化 & 分析诊断, 是否可能? 挑战、机会?

洪教授:

可能,资料格式的标準化是关键。为学习分析目的,那些资料是必须的要定义出来 — 必须定义一包学习分析专用资料架构,交给厂商去遵循。我在银行也在做这件事, 总共从超过 8 万的栏位整理出 1 万个重要栏位,再精简为 2500 左右的分析栏位,这些分析栏位仅有 30% 跟原始栏位相同。

Jessie 结语:

xAPI 是学习资料的 API,除了规範的基本要求之外,所有格式定义可以根据社群需求来驱动,可以记录很细微的动作、很新颖的数位系统里的行为。如果我们能合作将这个基础建立起来,一个教育大数据的交易生态就可能形成了。这就像 API 生态,大数据变成一种资产可流动、交易、再使用、发展加值与智能服务。(参考: xAPI 中文实践社群)

预测性分析还可能为教育机构带来何种应用情境与价值,我们将在後续持续报导实际案例。

教育大数据的应用瓶颈在哪里? — 专访美国 Boise State University 洪瑞隆教授
Tagged on:         

发表评论