当你与 ChatGPT 或任何其他大语言模型对话时,体验如此流畅,以至于几乎不可能不将某种智能归结于它。它能回答问题、写诗、解释复杂概念,甚至似乎还能进行推理。但在其内部,机制比表象所暗示的要简单得多:生成式人工智能,就其最根本的核心而言,是一个极其精密的自动补全系统。它不思考,不理解,没有意识。它只是预测下一个词。
要理解这一点,必须从 token 开始。语言模型处理的不是完整的单词,而是被称为 token 的更小片段。一个 token 可以是一整个词,如「猫」,一个音节,如「ma」,或者甚至是一个单独的字符——平均而言,一个 token 大约相当于四分之三个词。模型接收一个 token 序列,即你截至目前输入的上下文,然后计算下一个 token 应该是什么。
这一计算之所以成为可能,得益于 Transformer——一种由 Ashish Vaswani 领导的 Google 研究团队于 2017 年提出的神经网络架构。这篇题为《Attention Is All You Need》的论文引入了一种名为注意力(attention)的机制,使模型能够在决定下一个 token 时,对之前每个 token 的重要性进行加权。当模型处理句子「猫坐在了——」,注意力机制会学到「猫」和「坐」对于预测下一个词比「了」或「在」更为相关。这种回溯并判断什么重要的能力,正是 Transformer 区别于此前架构的关键所在。
一旦 Transformer 处理完整个上下文,它会在其词汇表中所有可能的 token 上生成一个概率分布。部分 token 获得高概率,其他的则几乎为零。如果上下文是「猫坐在了——」,最高的概率将对应于「地板」、「沙发」、「椅子」或「地上」等词。模型并非总是选择概率最高的选项:它可以在该分布中进行采样,从而在回答中引入变异性。相同的上下文每次可以产生不同的文本。
这一过程——接收 token,通过注意力进行处理,预测概率分布,采样下一个 token,将其添加到上下文中并重复——被称为自回归生成(autoregressive generation)。每一个新生成的 token 都会成为下一步上下文的一部分。模型逐个 token 地推进,增量式地构建回答,与你手机键盘上的自动补全如出一辙,只不过上下文规模大得多,计算能力也强大得多。
那么,模型是如何学会做出这些预测的呢?答案是大规模训练。在训练阶段,模型被喂入从互联网上提取的数万亿个 token:网页、书籍、科学论文、论坛、社交网络、源代码。对于每一个文本片段,模型会隐藏最后一个 token,并被要求根据前面的 token 来预测它。模型预测与实际 token 之间的差异构成一个误差,该误差通过一种称为反向传播(backpropagation)的过程被用于调整内部参数——即所谓的神经权重。在如此海量的数据上重复数百万次,这个预测-调整的循环便产生了能够生成连贯、语法正确且出人意料地细腻的文本的模型。
但这里有一个关键点:连贯性并不意味着理解。模型没有一个关于世界的内部模型。它不知道猫是什么,不知道坐意味着什么,也不知道沙发是什么。它只是在训练数据中看到这些词一起出现过太多次,以至于学会了它们之间的统计相关性。当它正确回答一个问题时,并不是因为它理解了问题,而是因为它在训练中见过类似的问答模式。它的知识是借来的:反映的是人类在互联网上书写的内容,而非对世界的直接体验。用研究者 Emily Bender 及其同事的话来说,模型是一只”随机鹦鹉”(stochastic parrot):它复述自己记忆的模式,并以看似新颖的方式重新组合它们。
理解这一机制,会从根本上改变我们评估和使用这些工具的方式。如果我们知道模型只是在预测下一个词,我们就不会再把它视为一个不会犯错的神谕,而会开始以它本来的面貌对待它:一台统计机器,可以用同样流畅的语言输出有据可查的真相,也可以输出彻头彻尾的胡言乱语。幻觉(hallucinations)——那些语气笃定但完全错误的回答——不再神秘难解:它们不过是模型根据自身训练预测出概率上合理的 token,却没有能力与现实进行对照。它所反映的偏见和歧视并非恶意,而是在一个充满人类矛盾的互联网上学习的副产品。
这并不意味着生成式 AI 没有用处。它有用,而且用处极大。但它的用途取决于我们是否理解它的局限性。它不思考,不推理,不理解。它只预测下一个词。而这种预测,当以数千亿参数在整个人类书写的文本上训练后大规模运行时,会产生宛如魔法的效果。但它不是魔法,是统计学,是自动补全,是以最简单机制在最大规模上运行的结果。
主要来源:Attention Is All You Need — Vaswani 等人,NIPS 2017。