神经网络如何学习：从初始混沌到模式识别

想象一位音乐家，刚刚拿到一件从未演奏过的乐器。他最初的尝试会很难听，几乎是随机的。但随着每一个音符，他调整手指的力度、手的位置、吹气的力量。渐渐地，声音接近了期望的旋律。神经网络就是这样学习的——不是靠魔法，也不是靠显式指令，而是通过一个反复的试错与调整过程。一开始，它的预测就像瞎猜一样糟糕。但通过学习循环——即训练周期——网络将一堆随机数字转变为一个能够识别人脸、翻译语言或诊断疾病的系统。

要理解这种转变如何发生，必须深入这个黑匣子的内部。神经网络不过是一系列相互连接的人工神经元层。每条连接都有一个权重，一个决定该信号重要程度的数字。当网络接收到输入数据——比如一张图像的像素——这些值一层层地传递到输出端。每个神经元将其加权输入求和，并施加一个激活函数，决定是否”触发”。这就是前向传播（forward pass）：网络产生预测的那一刻。

但在最初，这个预测几乎总是错误的。如何衡量误差？这就要用到损失函数（loss function）。如果网络试图预测一个数字（比如房价），则使用均方误差（MSE），它简单地计算预测值与真实值之间差值的平方的平均值。如果是在对图像进行分类（是猫还是狗？），则使用交叉熵（cross-entropy），它对高置信度的错误预测施加更大的惩罚。损失越大，网络的表现越差。

有一个衡量误差的方法是好事，但这还不够。网络需要知道向哪个方向调整它的数千乃至数百万个权重才能减小误差。而这里，我们来到了训练的核心：反向传播（backpropagation）。

反向传播由 Rumelhart、Hinton 和 Williams 在他们1986年的开创性论文中推广，是一个优雅高效的算法，用来计算每个权重对最终误差的贡献程度。它的工作原理是反向的：从输出层向输入层，应用微积分中的链式法则。这就像一场责任调查：如果最终输出错了，前一层每个神经元该承担多少责任？反向传播以数学精度回答了这个问题，避免了从头重新计算一切的代价。没有它，训练深度网络在计算上将是不可行的。

但反向传播只计算了梯度——即所需变化的方向和大小。真正的学习发生在网络使用该梯度来更新权重时，于是梯度下降（gradient descent）登场了。经典的类比是一个蒙着眼睛的人在山区行走，其中高度代表误差。为了到达谷底（最小误差），人沿着下降最快的方向迈步。这正是梯度的作用：它指向最陡上升的方向，所以网络向相反方向移动。

这些步长由一个称为学习率（learning rate）的超参数控制。如果太大，网络会大幅跳跃，来回反弹，永远无法收敛。如果太小，前进速度极慢，训练将耗费无尽的时间。找到恰好的数值，是训练网络的一门艺术。

基本的梯度下降是有效的，但有局限性。它可能在误差地形的狭窄峡谷中震荡，或在平原地带停滞不前。此时更复杂的优化器登场了。动量法（momentum）受物理学启发，积累了先前步的”惯性”：就像滚下山坡的球，如果一直沿某个方向前进，它会继续向前滚动，从而平滑震荡并加速收敛。Adam 优化器由 Kingma 和 Ba 于2014年提出，则更进一步：它将动量与自适应学习率相结合，为每个权重单独调整步长。如今，Adam 是大多数深度学习项目中默认的优化器，从语言模型到推荐系统都离不开它。

另一个关键要素是激活函数。多年来，人们使用 S 型函数（sigmoid）和双曲正切函数，但两者都将数值压缩到很小的范围内，导致了令人头疼的梯度消失问题：在深层网络中，梯度变得如此微小，以至于权重停止更新。ReLU 函数（线性整流单元，f(x) = max(0, x)）以一种惊人的简单方式解决了这个问题：对于正值，其导数为1，使得梯度能够不衰减地流动。此外，ReLU 产生稀疏表示（许多神经元输出恰好为零，这在计算上很高效），并且不需要像指数运算那样昂贵的操作。自2012年 AlexNet 使用 ReLU 赢得 ImageNet 以来，它已成为默认的激活函数。

在这一切背后，有一个沉默却不可或缺的角色：GPU。训练周期的每一步——前向传播、反向传播、权重更新——都涉及巨大的矩阵乘法。GPU 最初为并行图形渲染而设计，结果却完美适配这些运算。同样是2012年的 AlexNet 证明，使用 GPU 训练能将时间从数周缩短到数天。今天，整个 GPU 集群正在训练数千亿参数级别的模型，但其基本原理仍是相同的。

理解神经网络的训练方式至关重要，因为它几乎是所有现代人工智能应用的底层机制。每当 ChatGPT 生成回复，当自动驾驶汽车检测到行人，当 Spotify 推荐一首歌曲，背后都有一个模型经历了同样的循环：前向传播、损失计算、反向传播和梯度下降。这不是魔法，而是一个反复微调的过程，将初始的随机性转化为有用的知识。而我们对这个过程理解得越透彻，就越能更好地使用——并质疑——它所构建的工具。

主要来源：Adam: A Method for Stochastic Optimization — Kingma 和 Ba（2014），该论文引入了 Adam 优化器，综合了现代神经网络训练的基本原理。

神经网络如何学习：从初始混沌到模式识别

同分类更多文章