机器学习时代代的人类学习

作 者:

作者简介:
余明锋,男,同济大学人文学院哲学系副教授,博士(上海 200092)。

原文出处:
北京大学教育评论

内容提要:

ChatGPT在自然语言处理上的突破开启了人工智能通用化的大门。当下取得突破的,不是基于规则的早期人工智能,而是基于机器学习的新型人工智能。机器学习乃是算力、数据和算法三者的聚合,机器学习时代的文明界面由此从人类才能识别的文字转变成了机器能够识别的数据。目前有关ChatGPT和教育人工智能的讨论,多着眼于机器学习的短期效应,我们有必要以机器学习时代的眼光理解ChatGPT的挑战,以此为契机审视人类学习的重组。机器学习在带来种种挑战的同时,或许能让教育机构解脱于生存机构的纠缠,回归“学以成人”的文明理念。


期刊代号:G1
分类名称:教育学
复印期号:2023 年 10 期

字号:

       所谓教育哲学,首要的任务是反思何谓教育、何谓学习。这种反思不是一蹴而就的,因为教育和学习的具体含义有其时代性,必定随时而变。当朱熹注解《论语》时,“学而时习之”的现实意涵已然大大不同于孔子的时代,因为朱熹的时代已经有了印刷术和科举制度,这时候主要学习的不再是礼仪的操练,而是经典的记诵和注解。①进入21世纪,其意涵更是大不相同,学习的主要任务不是深入四书五经,而是融入现代知识体系,成为现代国家的公民。教育哲学的反思因此必定包含了一个历史哲学的维度,必定要在时代剧变中重新定义教育和学习,而首要的任务是对时代本身的重新界定。②

       “随时而变”在这个意义上并非随波逐流,而恰恰是要在加速流转、躁动不安的时代洪流中寻求清晰的定位。历史哲学的眼光和方位感可以让我们一方面敏感于AlphaGo、ChatGPT这样的新事物,另一方面又不至陷入媒体的夸大其词所营造的恐慌情绪。这个意义上的思想者在积极介入的同时处变不惊,着眼于时代深处远为沉静的涌动来理解河面上的激流。

       一、机器学习的概念

       ChatGPT就是2023年的这样一股激流。人工智能在自然语言处理上的突破意义重大,约略来说,在教育问题的讨论中,有两点值得着重指出。

       首先,自然语言处理(natural language processing,简称NLP)虽然仍是一个专用人工智能领域,可自然语言是人类文明的基本媒介,不但承载着人类的知识和思想,而且是人与世界、人与人相交往的主要通道,自然语言处理的突破意味着人工智能的“通用化”大门已经打开。这种通用化一方面指的是GPT-4已经呈现出某种通用人工智能的特征。微软研究院发表了一篇长达154页的重磅论文,题为《通用人工智能的火花:GPT-4早期试验》(Sparks of Artificial General Intelligence:Early Experiments with GPT-4),得出结论说:“鉴于GPT-4能力的广度和深度,我们相信它应该被合理视作一个通用人工智能系统的早期(但仍不完整)版本。”所谓通用人工智能(artificial general intelligence,简称 AGI),就是不局限于下棋、驾驶、绘画等专项领域,而是“能够像人类那样胜任各种任务”,“具有跨领域的问题处理能力”。[1]微软是OpenAI的主要资金来源,所以微软研究院并非中立的第三方,这篇长文的惊人结论必定会遭遇同行的质疑和挑战;可单从表现来看,在聊天、绘画、编程等等领域均表现不俗的GPT-4确实可谓“通用人工智能的星星之火”。有关于此,对通用人工智能和强人工智能的概念做一番区分,或许就能化解争论。强人工智能具有“真实心智”,而通用人工智能未必如此,只是它的表现会给人留下具备“真实心智”的印象。③就此而言,我们要警惕自己高估ChatGPT这样的大语言模型(large language model,简称LLM)。它并不是真的在“聊天”,因为背后并没有一个“真实心智”,它并不理解自己输出的句子,而只是在做准确度惊人的词频统计。因此,撇开有关通用人工智能的争论不说,在此所谓“通用化”,在另一方面,指的主要是自然语言处理的突破进一步扫除了人机交流的障碍,而这意味着人工智能向生活世界的全面渗透。人工智能的时代真的到来了。就此而言,ChatGPT确实可谓人工智能发展史上的一座里程碑,意义不容低估。

       其次,这个正在到来的人工智能时代,准确来说,是一个机器学习(machine learning)的时代。因为当下取得突破的人工智能,不是基于规则的早期人工智能,而是基于机器学习的新型人工智能。所谓基于规则的早期人工智能,是“让计算机执行某项任务的传统方式”,即“写下算法”或“一系列向计算机发送的指令”,以此直接规定计算机应如何执行任务。[2]而机器学习“涉及大量数据输入以预测全新的结果,而绝非直接命令得到的直接输出”。[3]换言之,“每个算法都有输入和输出:数据输入计算机,算法对其进行处理,然后输出结果。机器学习将这种情况颠倒过来:输入数据和期望的结果,而输出的是将前者转化为后者的算法”[4]。机器学习所用的算法是“生成其他算法的算法”,是自动化本身的自动化。

       机器学习的方法分为三种,分别是监督学习、无监督学习和强化学习。所谓监督学习,用斯图亚特·罗素(Stuart J.Russell)和彼得·诺维格(Peter Norvig)的定义来说,就是通过“观察一些输入和输出的例子之后,获得了从输入映射到输出的函数”[5]。因此监督学习处理的是被标记过的数据,而无监督学习是在没有标记的数据中、没有明确反馈的前提下,从海量的输入中识别出模式。强化学习是让机器“从一系列的强化,即从奖励和惩罚中学习”。

       机器学习在近十年的高速发展尤其要归功于基于“人工神经网络”的“深度学习”(deep learning)。所谓“深度”,就是在输入层和输出层之间设置了隐藏的中间层。如论者所言:“隐藏层是人工神经网络能力的关键,但也带来了一个问题。很难弄清楚人工神经网络是如何找到解决方案的。”[6]这也就是在有关ChatGPT和GPT-4的讨论中备受关注、备受争议的“涌现”和“可解释性”问题。无论是否称之为“涌现”,机器着实在学习。机器的学习严格来说不同于人类的学习,只要强人工智能尚未产生,我们就只能从隐喻的意义上谈论“机器学习”,可机器经过层层训练之后,确实从海量数据中生成了一套相当可靠的算法,这个过程是不妨称之为“学习”的,虽然其学习路径还呈现出一种黑箱性质。

       二、机器学习的时代

       我们无须在此深入相关的技术细节,而是满足于技术轮廓的勾勒,并从这种勾勒中体察当下时代的若干基本特征,说明我们为何主张以“机器学习”来为时代命名。

       首先,机器学习的广泛应用可谓19世纪中叶以来技术时代的一次重大变形。④当下流行“AI时代”“智能时代”“数据时代”“算法时代”等等提法,可如果想要更准确地标识这一次发展,那就应该称之为“机器学习的时代”。因为机器学习是人工智能的当下形态,也是数据之所以变得如此重要,而算法之所以能够深入生活世界的关键所在。算力、数据和算法三者缺一不可,仅仅强调三者之一,事实上都不能抓住机器学习成功的要害:“AI之所以能在过去十年中重获新生并呈指数级增长,都得益于机器学习领域取得的重要进展(就像我们已经注意到的一样,这都基于更快的计算机处理器,海量可利用的大数据以及新的计算方法)。”⑤机器学习可谓算力、数据和算法的聚合。如技术史家所言,判断科技发展的方向,要看的不是单方面的突破,而是“一个浪潮的聚集势头”。[7]机器学习正是当下信息技术的聚集势头。

相关文章: