从ChatGPT谈大语言模型及其应用

收藏 |打印|下载word |下载pdf

作者：

刘挺

作者简介：

刘挺，男，哈尔滨工业大学计算学部社会计算与信息检索研究中心长聘教授，主要研究方向为人工智能、自然语言处理、大语言模型和社会计算，电子邮箱：tliu@ir.hit.edu.cn（黑龙江哈尔滨 150001）。

原文出处：

语言战略研究

内容提要：

期刊代号：H1

分类名称：语言文字学

复印期号：2023 年 12 期

关键词：

字号：大中小

互联网、物联网、大数据的迅猛发展使信息空间得以与物质空间、精神空间并列，构成三元空间。人工智能技术在信息空间里对海量数据进行加工处理，其结果反过来作用于物质空间和精神空间。大语言模型（以下简称“大模型”）出现后，机器可以自动生成数据，这些数据真真假假，既丰富了信息空间，也污染了信息空间，其对三元世界所构成的影响难以估量。

二、大模型技术

人工智能经历了4次高潮。第三次高潮是2010年前后由深度学习推动的。2022年11月，OpenAI发布由大模型支持的ChatGPT-3.5，标志着人工智能第四次高潮的到来。

大模型所属的学术方向是人工智能下的自然语言处理，GPT（生成式预训练转换器）在GPT-3及以前都是自然语言处理业内关注的技术，而以GPT-3.5为基础的ChatGPT则因为惊人的人机对话能力而出圈，受到世界范围内各个行业的追捧。

GPT是语言的生成模型，简单地说就是根据上文预测下一个“词”，如此往复不断地生成下一个词，就连词成句，连句成篇，超预期地回答出用户的问题。

为什么GPT能够产生这样的突破性进展呢？关键的奥秘在于：通过挖词构造带有标准答案的填空题，毫无成本地产生无限量的训练数据，让机器在努力学习解答填空题的过程中获得通用的语言智能。这种机器学习方式既有别于有监督学习——因为不需要人工标注数据，又有别于无监督学习——因为有标准答案，兼具有标准答案和无人工成本的优点，被称为自监督学习。

此外，用低维、连续、稠密的向量而不是符号表达语义也是大模型取得突破的重要原因。传统上我们把词视为符号，但符号与符号是孤立的，需要额外建立知识库去定义符号之间的关系，而词向量则是根据“观其伴知其义”的原则自动从海量文本数据中计算得来，根据词向量可以判断“桌子”和“板凳”的语义距离，比“桌子”和“西红柿”的语义距离更近，据此叠加推演，可以计算句子语义、篇章语义。

当然，大数据和高算力也是重要原因。ChatGPT内部有1750亿参数，其量级比人类大脑神经元的数量还高出一个数量级。量变产生质变，“涌现”现象出现了。此外，指令精调、人类反馈强化学习等也都是助推ChatGPT取得革命性突破的原因。

大模型能够很好地回答用户的问题，有些答案比人回答的更好。从问答的角度，可以把大模型与数据库、搜索引擎进行对比。数据库以结构化的方式（比如二维表）存储信息，用标准的查询语言（比如SQL）进行访问，用户访问数据库的方式是不自然的。搜索引擎以非结构化的方式存储数据（比如网页、视频等），用户可以比较自由地用关键词表达自己的搜索请求，但表达仍然是不充分不自然的，检索结果是未经加工的原始信息。大模型将其收集到的全部信息以参数化的方式存储，允许用户用人们最熟悉的自然语言语句自由充分地表达其对信息的需求，大模型理解用户的意图并基于模型内部复杂的参数系统全新地生成段落、篇章作为答案。由于答案是机器针对用户的特定提问自动编写出来的，而不是找出来的，因此是能够充分满足用户特定信息需求的，但同时也存在出现“幻觉”的风险。

总的来说，ChatGPT本质上是一个由1750亿个浮点数参数表示的深度神经网络大模型，是一个对话式AI系统，它首次实现了语言智能的智慧涌现，在海量信息的全量在线记忆、任意任务的对话式理解、复杂逻辑的思维链推理、多角色多风格长文本生成和即时新知学习与进化等5个方面取得了重大突破。

三、大模型的影响

从解决语言问题的不同层面，可以把自然语言处理的发展分为4个阶段：形式、语义、推理和语用。传统的搜索引擎解决了形式匹配的问题，但是，要用不同形式表达相同的含义，就需要语义分析了，比如在电信客服场景下，“请查一下我的话费余额”（标准问法）和“我还剩多少钱了”（口语问法）就是一个含义，这是形式匹配所无法解决的。语言中的深层含义是字面上无法获知的，比如用户评论“这家五星级宾馆，没有游泳池”，其情感倾向是负面的，这需要基于“五星级宾馆一般有游泳池”这条知识进行推理才能得出结论。自然语言处理的最高境界是理解文字背后的弦外之音，比如“他可了不起了”，是不是真心夸赞，需要充分了解上下文背景才能确定。

笔者编了一句话，问ChatGPT：“‘想来想去，只有一种职业不会受到ChatGPT的威胁——无业游民。’这句话什么含义？”ChatGPT回答：“这句话有些讽刺意味，暗示了人工智能的发展可能导致一些人失去工作，而无业游民却不受其影响。”ChatGPT已经能够理解讽刺，说明在大模型的推动下，自然语言处理处于从“推理”向“语用”迈进的阶段。

从自然语言处理的研究范式来看，1950-1990年占主导地位的是小规模专家知识，1990-2010年是浅层机器学习，2010-2017是深度学习，2019-2022是预训练语言模型，2023年开始进入大模型时代。进入深度学习阶段，不再需要人工的特征工程了；进入预训练模型时期，大规模的数据不需要人工标注了；进入大模型时代，各种语言处理任务均统一为生成任务。

大模型时代，自然语言处理诸多任务（问答、翻译、文本生成、信息抽取等）的边界被打破了，一个大模型能够胜任诸多任务，还能较好地处理未曾见过的新任务。原来“丛林式”的自然语言处理研究格局，瞬间演变为“大树式”的模式，树根是“大模型”，树干很矮，包含多项特定任务，枝叶茂密，深入到千行百业，是大模型的应用。

ChatGPT不但打破了自然语言处理研究的格局，而且将对社会产生深刻影响。2023年3月，《人类简史》作者尤瓦尔·赫拉利接受《三联生活周刊》采访，他说：“人类文化基于语言。而因为人工智能已经破解了语言，它现在可以开始创造文化。……人类将开始适应由非人类实体创造的文化。而且，由于文化是人类的‘操作系统’，这意味着人工智能将能够改变人类思考、感受和行为的方式。”埃隆·马斯克认为，ChatGPT好得吓人，我们离危险的强人工智能不远了。美国作家、Robust.AI公司创始人加里·马库斯也说，生成式人工智能将对社会结构产生切实的、迫在眉睫的威胁。

关联理论角度中的转喻认知机制

覃胜勇

语言文...2010年第12期
离合词与核心重音

崔四行

语言文...2009年第01期
二语习得中的动词形态多选现象研究

于善志

语言文...2009年第01期
汉英翻译中动词与句式再匹配现象研究

刘华文

语言文...2009年第01期
汉语思维与话题对英汉互译过程中主位推进的...

杨明

语言文...2009年第01期

从ChatGPT谈大语言模型及其应用

相关文章：