人工智能应用在学习的门槛在那里?

过去学者致力於从学生的学习历程记录中挖掘意义。他们利用资料采矿  (Data Mining) 或统计技术,诊断或预测资料。然而过去这些研究样本都在数十人到数百人之间,而且纪录种类侷限,商业化应用产值低。

近年发生了关键变化:

  • 欧美与中国创投热钱投资加上模仿效应,促成教育科技产品数量爆发,许多学习过程得以数字化,可收集大量的数位足迹。
  • 摩尔定律使计算速度与记忆体容量大幅提高。
  • 云计算 (Cloud Computing) 成熟。
  • 软件的开放接口 (API) 与开放授权普及。

大数据 (Big Data) 爆炸成长成为机器学习的养分。机器学习能获得充分的训练资料 (Training Data) 与计算效能。人工智能产业 (Artificial Intelligence,AI) 经过一甲子的起落,终於因技术条件到位,开始突飞猛进。

 

什麽是机器学习?

机器学习 (Machine Learning) 是人工智能的子领域。而常听到的深度学习 (Deep Learning) 则是机器学习中的一支。

人工智能的範畴,涵盖了所有尝试以电脑去模仿人脑处理信息的能力。例如:以电路设计或算法来模仿人脑神经元网络的运作;以程序模拟彼此互连的知识概念,如 Google 搜寻引擎的核心「知识图谱」 (Knowledge Graph);以及,让电脑能理解人类语言的自然语言处理技术 (Natural Language Processing) 等,都属於人工智能的範畴。模仿人脑思考能力的人工智能到目前为止,不算完全成功;倒是机器学习这支技术,因为前述原因,达到博闻强记,神速运算,而异军突起。

机器学习大量使用统计的方法与推论,建立预测能力,让电脑或人类可以有效地即时采取行动。机器学习的核心,在於电脑能从收到的资料中学习,持续提升达成预设目标的能力 (例如,专门推荐餐厅的应用) ,而不须仰赖开发者不断下指令。

今天机器学习技术已经被广泛应用於各产业。以下是各种可能的能力,例如:购物网站根据使用者浏览行为与历史纪录,动态调整推荐商品;零售商店根据气候、季节、日期与地理位置等,计算各商品最佳定价;还有,人脸或图片辨识、手写输入辨识、语音辨识、自动过滤垃圾邮件、自动侦测信用卡盗刷、帮医生判读资料等。机器学习早已被广泛用在我们生活中,甚至你可能曾与人工智能客服交手过而不知道。

更有名的新闻包括 AlphaGo 战胜世界围棋冠军、自动驾驶汽车上路、IBM Watson 用於开发智能语音助理等。

如果将机器学习用在学习上,又有哪些可能呢?台湾大学林轩田教授团队 2010 年赢得 KDD Cup 冠军,题目是根据 3,000 位学生回答数学题的 900 万笔纪录,预测个别学生是否能答对特定题目。这是一个容易理解的例子,也是一个非常清楚定义的问题。

人工智能成为热门话题,一般人以此用语统称,并不清楚其中各领域本质上的差异。组织主管看到别人挥着这把尚方宝剑,媒体文章说着:下个十年的绝胜点在于掌握如何善用人工智能,内心多少有焦虑,希望就像电影里一样,一朝抢到尚方宝剑,就立于不败之地。教育培训科技产业人士对人工智能的期许,情形类似。

现今人工智能已逐渐像基础建设 (例如:电力,水) 一样可以接取使用,所以许多人认为以上的期待并不遥远。没错,许多机器学习的计算能力已经透过程序接口 (API) 提供出来,例如:IBM 的 Watson,谷歌,微软,阿里云都有提供这类接口服务。

 

人工智能是尚方宝剑还是石中剑?

可惜现实世界是个复杂的系统,这不是 plug-and-play。

第一,如果你还没有明确定义的问题,人工智能对你是没用的,对这点事实人类应该感到庆幸(不会被取代),机器人只能解决我们定义好而且适当建模的问题,各种算法就像用在不同场景的各种单一功能工具,依靠人类对关注的系统建立模型后,选择适当工具用在适当的环节,并需要实际数据来训练模型,调校与优化参数,数据越多,人工智能表现越好。有时不同情境或不同使用者基础,可能需重新训练模型。

所以第二个关键,如果你没有 —(1)正确结构化(2)乾净(3)足够的 — 数据 (Data),幻想接上人工智能就会有神奇的效果,也是白忙。

不正确的数据只会带来误判,资料科学家都知道整理资料经常花掉 80% 的时间,结构化的资料是为分析而设计过的资料格式,节省清理与汇整资料之时间,也与模型对接。模型要准,需要越多资料越好,所谓“足够”的资料,端视你定义的问题范围大小。(上述 KDD Cup 的问题明显只是一整个大问题分解成小问题的其中一环,分解问题是个正确的策略)

自适应技术在美国已逐渐导入各学习系统,有些正式评量也采用,但为何也常常听到成效不彰的反面案例呢?像所有工程系统一样,这些系统设计上有许多因子与参数各自设定不同,应用时虽最好能视需求让使用者调整部分参数,但实际上并非都有这种选项,结果,不同系统效能自然相异。另外,其应用场景需将内容放进该系统,如果学习发生在该系统之外,则系统拥有的资料不够,效能当然大打折扣。

 

何谓足够的资料?

然而学习的趋势持续走向分散化,多元化,去中心化,一个系统不可能拥有完整掌握学习者的足够资料,这些发生在多元应用里的学习经验,需要像 Experience API(xAPI) 接取多重资料流,实时汇整,才能解决此问题

另一个”足够”的层面是行为采集资料的维度,例如:作练习题,只有记录答对或答错,机器学习可以推测的范围极为有限 (巧妇难为无米之炊);但是如果记录了答题花费时间,尝试次数,那么机器可以知道这题对学习者是偏难或偏易,或他是不是猜对的,可据此推送适合的下个题 (题目的难度标注或统计是另一个议题);如果题目有按需给提示,则作题者是否使用提示,揭露了不同意义;还有,如果知道答题前发生的相关学习行为,则给机器更好的建议根据;如果机器模型累积了过去大量成功学习者的路径,与当事者的过去记录,则形成绝佳建议根据;最后,如果有记录答题是在课堂上,与同学合作,在搭公车时,或在家时间发生,这些都提供更多维度资讯。(特殊工作可能需记录温度、湿度、噪音等等)

XAPI 正是这样的工具,让我们采集丰富维度的行为资料,依据分析需求来设计数据结构。只要是数字系统,都可埋入 xAPI 进行采集,并不限于学习应用。

XAPI 的创新之处在于建立了独立于应用之外的数据层,以统一语言来打通应用之间的信息壁垒,这个标准数据层不但人可读懂,机器也可读懂,所以机器将可能自行推理。基于语义网技术 (Semantic Web Technology,也称 Web 3.0) – 这是万维网之父 Tim Berners-Lee 为将来万物互联环境智能化的愿景所主张之关键技术,现在工业 4.0 也是基于这种语义技术。 未来,机器可以从群众与内容的互动历程 (也是群众智慧),自动萃取语义网连结的内容、学习路径、相关的人推荐给适合的人,xAPI 以 Key-Value 型态携带的情境、结果、环境、时间点等数据都可放进算法中。

 

XAPI 结合机器学习的应用案例

从下举几个清楚定义的案例,使用 xAPI 进行行为采集,结合机器学习的成功案例。前两个例子虽然不直接是学习的案例,但是同理完全可以用在学习训练上。

运用 xAPI 改进网页布局与行销体验

网站为提升转化率,研究使用情境受到重视,一般透过运维管理 (DevOps) 改进网站使用体验。但是,网站浏览者使用情境多元,增添变数,为不同装置而设计的单页式与响应式设计流行,增加分析情境的复杂度。原来透过 Google Analytics 分析使用者体验,但无法有效分析。

藉由 xAPI 跨装置的特性搜集行为,能够掌握使用者的隐性及显性行为,藉由自适化的语意网页架构,让内容与佈局分开储存,後台分析结果进行自动化调整 (网页长度、设计、文案),最短时间呈现吸引访客的内容。结果 bounce rate 与 exit rate 明显下降了约 40%,新页面推播点击率由 8% 提升至 34%,来电成交率由 33% 提升至 53% 。

运用 xAPI 建立具情境感知能力的智能健康护理移动应用

脊椎损伤病患使用移动应用来辅助复健运动与日常护理,但为减少这些行动不便病人需要操作应用的次数,建立能感知情境的智能引擎,持续收集病人的历程资料以及相关情境资料 (例如:时间,地点,装置,同侪…),并结合护理师所设计的处方,适时推荐刚好适合病人当下的活动或提醒,更好的协助病患。

根据分析模型对资料进行结构化,xAPI 可以收集任何数字资料,包括生理数据,与传感器数据,越多资料推荐引擎智能越高。xAPI 的跨装置特性,提升结构化资料汇流的效率。这个推荐介面降低病人需要手动操作应用的次数,实时自动推荐最适的活动给病人。

运用 xAPI 收集跨平台的社群学习行为实时反馈

这个由澳洲的 Dr Kitto 教授主持的计画,动机是:虽然学校提供 Blackboard 学习管理系统,但是教授学生都不喜欢该系统,即使它有论坛讨论功能,但学生都使用流行的社群媒体与各种协作分享工具来沟通小组合作项目,为分析项目协作过程,运用 xAPI 采集跨平台的行为历程,并接轨学习分析 (Learning Analytics) 界在过去多年累积的成果 (例如:Social Network Analytics),使用机器学习技术进行高阶认知行为的分析,可视化,除了给教师参考,也第一时间反馈给学生。

群组协作与社群学习是现代学习非常重要的方法,但是,学生是否在协作专案中有善尽自己角色责任?教师如何监看过程,仅在需要时协助?论坛参与是仅止于社交性聊天,或者有认知性的探索发生?每个人思考层次的高低?对协同探索过程的贡献各是如何?知识如何创造与传递?这个专案回答了所有这些问题,结合 xAPI 与人工智能的机器学习技术,透视社群学习行为的过程。

执行面上,又采用 Human-in-the loop 的创新作法,它具有教学设计的目的,学习者并非完全被动只接受机器学习的判断,随时可从系统反馈去反思自己行为,主动持续改进。

Human-in-the-loop Machine Learning Modeling (image credit: Dr Kirsty Kitto)
Human-in-the-loop Machine Learning Modeling (image credit: Dr Kirsty Kitto)

 

信息孤岛(Data Silos)是人工智能发挥的最大阻碍

数据 (Data) 是现代的石油,所谓数据寡头就是那些拥有大量数据而掌握知识经济的力量。在教育或培训,信息孤岛 (Data Silos) 才是人工智能发挥其力量的最大阻碍,你在其它领域看到的人工智能应用,尚未实践在学习上,或使用成效不彰,是因为没有足够的数据。单一功能的人工智能,例如像广泛应用在客服与行销的聊天机器人,载入学科知识,当然可以用在教育上,但仅止于知识问答 (例如:乔治亚理工学院利用 IBM Watson 建立虚拟助教,回答事先建立好的 Q&A);单一学科的自适应学习,尤以数学最成熟,仍需控制学习完全发生在该应用内才有意义。

真正了解学习者的智能助理,那是完全另一个层次!学习场景多元化的今天,个人学习过程分散,机器要掌握足够数据才能建立智慧 (较佳模型与推荐),整合打通多维度的行为数据,才可能建立无缝的智能化学习环境。没有数据策略,你还离人工智能很遥远。现在就从可行的范围做起。

 

 

人工智能应用在学习的门槛在那里?
Tagged on:             

发表评论