GPT-4要来了！一文看尽大型语言模型的过去、现在、未来

作者 | ZeR0

编辑 | 漠影

学术大佬指路AI大模型：五级进阶、三大路线、四项关键技术。

智东西3月13日报道，昨日，由中国人民大学高瓴人工智能学院主办的AIGC论坛在北京举行，本次会议以“AIGC：从不存在到存在”为议题，探讨对话生成模型、多媒体内容生成等人工智能（AI）前沿技术的发展趋势。在对话与语言生成模型专场，哈尔滨工业大学计算机学院教授车万翔、中国科学院自动化研究所研究员张家俊、中国人民大学高瓴人工智能学院长聘副教授严睿、新浪微博资深算法专家张俊林分别作报告。这场学术盛会干货满满，不仅系统性地回顾了自然语言处理（NLP）的五个发展阶段，对大型语言模型研究的三个主要技术路径进行解读，并拆解了ChatGPT的四项关键技术，还就大型语言模型研究重心的变迁与未来趋势进行探讨。

01.NLP五级进阶路：从基于规则到遵循人的价值观

新浪微博资深算法专家张俊林认为，要想探寻大型语言模型未来怎么走，需要先回顾此前是怎么一路变迁的。他将自然语言处理发展到大型语言模型的历程分为五个阶段：规则、统计机器学习、深度学习、预训练、大型语言模型。机器翻译是NLP中难度最高、综合性最强的任务。因此张俊林以机器翻译任务为例来对比不同阶段的特点以及技术栈、数据的变化，以此展示NLP如何一步步演进。规则阶段大致从1956年到1992年，基于规则的机器翻译系统是在内部把各种功能的模块串到一起，由人先从数据中获取知识，归纳出规则，写出来教给机器，然后机器来执行这套规则，从而完成特定任务。统计机器学习阶段大致从1993年到2012年，机器翻译系统可拆成语言模型和翻译模型，这里的语言模型与现在的GPT-3/3.5的技术手段一模一样。该阶段相比上一阶段突变性较高，由人转述知识变成机器自动从数据中学习知识，主流技术包括SVM、HMM、MaxEnt、CRF、LM等，当时人工标注数据量在百万级左右。

深度学习阶段大致从2013-2018年，相对上一阶段突变性较低，从离散匹配发展到embedding连续匹配，模型变得更大。该阶段典型技术栈包括Encoder-Decoder、LSTM、Attention、Embedding等，标注数据量提升到千万级。

预训练阶段是从2018年到2022年，相比之前的最大变化是加入自监督学习，张俊林认为这是NLP领域最杰出的贡献，将可利用数据从标注数据拓展到了非标注数据。该阶段系统可分为预训练和微调两个阶段，将预训练数据量扩大3到5倍，典型技术栈包括Encoder-Decoder、Transformer、Attention等。

大型语言模型阶段从2023年起，目的是让机器能听懂人的命令、遵循人的价值观。其特性是在第一个阶段把过去的两个阶段缩成一个预训练阶段，第二阶段转换成与人的价值观对齐，而不是向领域迁移。这个阶段的突变性是很高的，已经从专用任务转向通用任务，或是以自然语言人机接口的方式呈现。

随后他介绍了一个研究工作的结论：在高资源语言上，ChatGPT机器翻译效果与商用MT系统效果接近；在低资源语言上，目前ChatGPT机器翻译效果与商用MT系统相比差得比较远。从这些阶段中数据、算法、人机关系的变化，可以观察到NLP的发展趋势。

数据方面，从少量标注数据、大量标注数据、海量非标注数据+少量标注数据到海量非标注数据，越来越多数据被利用起来，人的介入越来越少，未来会有更多文本数据、更多其它形态的数据被用起来，更远的未来是任何我们能见到的电子数据，都应该让机器自己从中学到知识或能力。

算法方面，表达能力越来越强，规模越来越大，自主学习能力越来越强，从专用向通用，沿着这个趋势往后，未来Transformer预计够用，同时也需要替代Transformer的新型模型，逐步迈向通用人工智能。

人机关系方面，人的角色逐渐从教导者转向监督者，未来可能会从人机协作、机器向人学习，发展成人向机器学习，最后由机器拓展人类。

02.大型语言模型的三大技术路线：Bert、GPT、混合模式

张俊林分享道，近5年来，大型语言模型研究的发展有三条技术路线：Bert模式、GPT模式、混合模式。其中国内大多采用混合模式，多数主流大型语言模型走的是GPT技术路线，直到2022年底在GPT-3.5的基础上产生了ChatGPT。

可以看到，到2019年后，Bert路线基本上就没有什么标志性的新模型出现了，而GPT技术路线趋于繁荣。从Bert往GPT走，模型越来越大，做的事越来越通用。大型语言模型按照从数据到知识来划分，数据可分为通用数据和领域数据，知识分为语言知识和世界知识；从任务类型来划分，可以分为单一任务和多任务、理解类和生成类。Bert模式有两阶段（双向语言模型预训练+任务Fine-tuning），适用于理解类、做理解类、某个场景的具体任务，专而轻。

GPT模式是由两阶段到一阶段（单向语言模型预训练+zero shot prompt/Instruct），比较适合生成类任务、多任务，重而通。

T5模式将两者的方法结合，有两阶段（单向语言模型预训练+Fine-tuning）。张俊林称这种模式“形似GPT，神似Bert”，生成和理解都行，从效果上看较适合理解类任务，国内很多大型语言模型采用这种模式。

目前的研究结论是，如果模型规模不是特别大，面向单一领域的理解类任务，适合用T5模式。做生成类任务时，用GPT模式效果最好。如果单独考虑zero-shot，GPT模式效果最好；如果在预训练后引入多任务fine-tuning，则T5模式效果好。不过张俊林认为这个结论存疑，因为目前的实验Encoder-Decoder都是Decoder-only参数量的两倍。

综合来看，当前几乎所有参数规模超过千亿的大型语言模型都采取GPT模式。

张俊林分析可能的原因有三点：

1、Encoder-Decoder里的双向attention，损害zero shot能力；

2、Encoder-Decoder结构在生成Token时，只能对Encoder高层做attention，Decoder-only结构在生成Token时可以逐层Attention，信息更细粒度；

3、Encoder-Decoder训练“中间填空”，生成最后单词Next Token，存在不一致性，Decoder-only结构训练和生成方式一致。

03.用提示学习方法，触发大模型通用能力

从GPT的成长路径来看，哈尔滨工业大学计算机学院教授车万翔谈道，2018年第一代GPT真正开启NLP预训练模型时代，但没有引起特别大的关注，其风头被Bert盖住。2019年GPT-2模型的参数变得更多，但仍未引起很大轰动。2020年GPT-3模型发布，2022年3月InstructGPT模型问世，当时重点是用1%参数达到1750亿参数的GPT-3的效果，也没有特别令人兴奋，直到ChatGPT诞生，直接推向市场和面向终端用户，并凭借惊艳的效果在社会上引起广泛关注。

为什么GPT-3问世两年了，还没有受到足够广泛的关注？车万翔认为，这是因为它只解决了知识存储问题，尚未很好解决“知识怎么调用”的问题，而ChatGPT相当于解决了这一部分。两块打通后，就产生了非常好的应用效果。中国科学院自动化研究所研究员张家俊介绍了ChatGPT的通用能力基座。OpenAI在2020年用45T文本数据，通过自监督训练获得基础大模型GPT-3，实现了流畅性、知识性；2021年在GPT-3基础上利用179G代码数据，通过自监督训练获得逻辑编程模型Codex；2022年利用更多更新文本数据和代码数据的混合学习，得到了更强的基础大模型GPT-3.5，这成为ChatGPT的基础模型，实现了流畅性、知识性和逻辑性。

据他分享，大模型的通用能力由基础模型决定，GPT-3用提示学习方法触发通用能力。

参数微调通过任务相关的监督数据修改模型参数，能够最大限度激发预训练大模型完成特定任务的能力，但面临数据稀、灾难遗忘、资源浪费、通用性差等难题。

提示学习通过设计提示信息修改输入模式，能够触发预训练大模型完成特定任务，但是单一的外部提示信号难以最大限度地激发预训练大模型的能力，从而高质量完成具体任务。将两者结合，通过若干任务相关的经过提示增强的监督数据修改模型参数，有助于激发模型的通用能力。

OpenAI聘请数据标注团队，根据各垂直领域问题指令撰写人工答案，并从开放的GPT-3、InstructGPT等API接口收集全球用户的问题指令，对其按照问答、摘要等领域进行分类；同时借助指令学习，在GPT-3.5的基础上利用各领域人工撰写的指令与答案对模型进行微调。当模型参数规模达到百亿以上时，几十个任务联合指令学习可以解决没有见过的任务。张家俊强调说，任何大模型都有其能力边界，几乎不可能实现面向无限任务的通用能力，但可以通过让大模型学会与其他模型、工具和环境进行交互，实现大模型通用能力的拓展。

紫东太初多模态大模型便尝试模型交互实现通用多模态对话。这是一个拥有千亿参数规模的图文音三模态大模型，通过学会API的使用，让较小的语言大模型拥有通用的多模态对话能力。3月24日，张家俊将在「GTIC 2023中国AIGC创新峰会」上发表演讲，分享紫东太初大模型的更多进展。

04.解读ChatGPT四大关键技术

下图是车万翔分享的从GPT-3到ChatGPT的技术演化路径。

总体而言，ChatGPT有四个关键技术：

1、大规模预训练模型：只有模型规模足够大，才可能具备推理能力。中国人民大学高瓴人工智能学院长聘副教授严睿谈道，智能涌现不是故意设计出来的，而是大模型规模大到一定程度后，天然具备这样的特性。

2、在代码上进行预训练：可能代码把解决一个大的问题分解成若干个小的问题，这种分布解决问题的方式有助于自然语言推理。和自然语言模型相比，代码语言模型需要更长的上下文的依赖。

3、Prompt/Instruction Tuning：GPT-3模型太大，已经没办法去精调了，只能用prompt，但是如果不精调，模型相当于还是一个语言模型，没办法适应人，只能由人去适应模型。让人适应模型只能用指令的方式，再进行精调，这相比预训练代价要小的多。所以指令上精调就可以把一些不太多的数据，把语言模型的任务掰到适应人类的回答问题。

4、基于人类反馈的强化学习（RLHF）：这对于结果好坏的影响不是特别大，甚至会限制语言模型生成的能力，但这种方式可能更好地和人类在安全性、无毒无害等等方面的价值观对齐。当模型上线后，它可以收集到更多用户的反馈。严睿认为Human-in-the-Loop可能是大型语言模型成功的一个重要因素，通过RLHF不断获得人类反馈，将人的指令与机器的理解逐渐对齐，实现智能的不断演化。展望未来，ChatGPT能发展多久？车万翔发现了一个有意思的规律。如图所示，每个箭头长短代表技术发展的时间长度，可以看到，新技术的发展时间大约是旧技术的一半，以此推演，预训练模型可能发展五年到2023年，再往后可能到2025年左右会有新技术产生。

05.大模型的未来：多模态、具身智能、社会交际

车万翔认为，ChatGPT可以说是继数据库和搜索引擎后的全新一代知识表示和检索的方法。

从知识表示和运用角度来看，知识在计算机内如何表示是人工智能最核心的问题之一。早期是通过关系型数据库的方式，精度较高，因为数据库中每行每列的语义都非常明确，问题是调用的自然度极低，必须由人去学习机器的语言，早期这些存储方式产生了Oracle、微软等科技巨头。后来互联网上存储了人类全部的知识，这种知识表达方式不如数据库精确，但存储量大、信息多，调取这些知识需要借助搜索引擎、通过关键词的方式，关键词和SQL语句比起来就更为广大用户所接受，表达自然度更好，但仍然不及自然语言，产生谷歌、百度等科技巨头。

到大模型时代，可以认为大模型也是一种知识存储的方式，不是以人能看懂的方式来存储，而是以参数的方式来存储，可读性、精度相对较低，但调用方式非常自然，通过自然语言就能调出大模型中的知识。车万翔相信和前两次革命一样，大模型时代会出现新的科技巨头，现在看来OpenAI非常具有这样的潜力，领先优势明显。谈到大型语言模型研究的重心，车万翔和张俊林都认为除了语言外，还需要更多知识。关于NLP的过去、现在、未来，科学家们在2020年提出了一个world scope概念，将NLP的发展进程分为语料库、互联网、多模态、具身智能、社会交际这五个world scope。

早期NLP基于文本，再往后发展要走向多模态、具身认知、社会交际。ChatGPT已经似乎有与人类社会互动的意思，相当于是跳过了中间两步，但车万翔认为，要真正实现通用人工智能，中间这两步是不能跳的，不然就像盲人在学语言。据传GPT-4会是一个多模态大模型，如果解决了多模态这一步，那就只剩下具身了。多模态大型语言模型的目标是增强更多的现实环境感知能力，包括视觉输入（图片、视频）、听觉输入（音频）、触觉输入（压力）等等。

张俊林认为，目前阻碍多模态大模型发展的一个障碍是其很大程度上依赖于人工整理的大数据集，图像处理的自监督技术路线尚未走通，如果走通可能会是又一大技术突破，一些图像理解类任务大概率会被融入大型语言模型，不再单独存在。多模态大模型是具身智能的基础，相当于大脑，它还需要身体，才能与物理世界的交互。

因此下一步就是将大脑与身体（如机器人等）结合的具身智能，利用强化学习，从真实世界获得真实反馈、学习新的知识。另一个值得探讨的话题是大型语言模型的规模，做大还是做小？张俊林谈道，一方面，Scaling Law说明了模型规模越大，数据越多，训练越充分，大型语言模型的效果越好；

另一方面，训练成本太高了，Chinchilla证明了如果在数据充足的前提下，目前大型语言模型的规模比应有的合理大小更大些，似乎存在参数空间浪费。因此应该是：先把模型做小，充分利用模型参数后，再将模型做大。除此之外，张俊林认为大型语言模型的复杂推理能力未来将进一步提升。大型语言模型如何与专用工具结合也是非常有前景的方向，但技术尚不成熟，他判断OpenAI应该不会走这条路。

大型语言模型还有很多问题有待克服，包括构建中文评测数据集、优化新知识的获取、优化旧知识的修正、探索私域领域知识的融入、优化更好理解命令的能力、降低训练推理成本等等。

06.结语：大模型与生成式AI驶入快车道

自然语言处理被誉为人工智能皇冠上的明珠，而其最新代表之作ChatGPT凭借卓越的多轮对话和内容生成能力，正掀起新一轮人工智能研究、商用及创业热潮。ChatGPT仍有很多问题，比如事实检索性和复杂计算性效果差，无法实现一些实时性、动态变化性的任务等。但优化这些问题以及提升大模型能力的研究正在飞速推进。如果上周微软德国公司CTO兼AI部门主管Andreas Braun透露的信息为真，那么本周OpenAI将发布更强大的GPT-4多模态大模型，打通认知与感知的连接。百度基于文心大模型研发的生成式对话产品“文心一言”也将于本周四3月16日正式发布。微软将在周五举行主题为“与AI一起工作的未来”的在线活动。大模型与生成式AI领域正变得愈发热闹。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ATMEGA128A-AUR	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 64TQFP	ECAD模型下载ECAD模型	$7.69	查看
STM32F207ZGT6	1	STMicroelectronics	High-performance Arm Cortex-M3 MCU with 1 Mbyte of Flash memory, 120 MHz CPU, ART Accelerator, Ethernet	ECAD模型下载ECAD模型	$13.88	查看
MK66FN2M0VLQ18	1	NXP Semiconductors	FLASH, 180MHz, RISC MICROCONTROLLER, PQFP144	ECAD模型下载ECAD模型	$48.66	查看