Cómo aprenden las redes neuronales: del caos inicial al reconocimiento de patrones

Imagina un músico que acaba de recibir un instrumento que nunca ha tocado. Sus primeros intentos sonarán mal, casi aleatorios. Pero con cada nota, ajusta la presión de sus dedos, la posición de sus manos, la fuerza del soplido. Poco a poco, el sonido se acerca a la melodía deseada. Así es como aprende una red neuronal: no con magia ni con instrucciones explícitas, sino mediante un proceso iterativo de prueba, error y ajuste. Al principio, sus predicciones son tan malas como adivinar al azar. Pero a través de un bucle de aprendizaje —el ciclo de entrenamiento— la red transforma un montón de números aleatorios en un sistema capaz de reconocer rostros, traducir idiomas o diagnosticar enfermedades.

Para entender cómo ocurre esta transformación, hay que mirar dentro de la caja negra. Una red neuronal no es más que una serie de capas de neuronas artificiales conectadas entre sí. Cada conexión tiene un peso, un número que determina qué tan importante es esa señal. Cuando la red recibe un dato de entrada —digamos, los píxeles de una imagen— esos valores viajan capa por capa hacia la salida. Cada neurona suma sus entradas ponderadas y aplica una función de activación que decide si debe «disparar» o no. Eso es el pase hacia adelante o forward pass: el momento en que la red produce una predicción.

Pero esa predicción casi siempre está equivocada al principio. ¿Cómo se mide el error? Allí entra la función de pérdida o loss function. Si la red intenta adivinar un número (como el precio de una casa), se usa el error cuadrático medio (MSE), que simplemente promedia la diferencia al cuadrado entre lo que predijo y lo que debería haber dicho. Si clasifica imágenes (¿es un gato o un perro?), se usa la entropía cruzada o cross-entropy, que penaliza más las predicciones equivocadas con alta confianza. Cuanto mayor es la pérdida, peor lo está haciendo la red.

Tener una medida del error es útil, pero no basta. La red necesita saber en qué dirección ajustar cada uno de sus miles o millones de pesos para reducir ese error. Y aquí llegamos al corazón del entrenamiento: la retropropagación o backpropagation.

La retropropagación, popularizada por Rumelhart, Hinton y Williams en su artículo seminal de 1986, es un algoritmo elegantemente eficiente que calcula cuánto contribuyó cada peso al error final. Funciona hacia atrás: desde la capa de salida hacia la entrada, aplicando la regla de la cadena del cálculo diferencial. Es como una investigación de responsabilidades: si la salida final está equivocada, ¿qué parte de la culpa recae en cada neurona de la capa anterior? La retropropagación responde esa pregunta con una precisión matemática que evita tener que recalcular todo desde cero. Sin ella, entrenar redes profundas sería computacionalmente inviable.

Pero la retropropagación solo calcula el gradiente —la dirección y magnitud del cambio necesario—. El verdadero aprendizaje ocurre cuando la red usa ese gradiente para actualizar sus pesos, y ahí entra el descenso por gradiente o gradient descent. La analogía clásica es la de una persona caminando con los ojos vendados por un terreno montañoso, donde la altura representa el error. Para llegar al valle (el error mínimo), la persona da pasos en la dirección que más desciende. Eso es exactamente lo que hace el gradiente: señala la dirección de máxima pendiente ascendente, así que la red se mueve en la dirección opuesta.

El tamaño de esos pasos se controla con un hiperparámetro llamado tasa de aprendizaje o learning rate. Si es demasiado grande, la red da saltos que la hacen rebotar y nunca converge. Si es demasiado pequeño, avanza tan lento que el entrenamiento tarda una eternidad. Encontrar el punto justo es parte del arte de entrenar redes.

El descenso por gradiente básico funciona, pero tiene limitaciones. Puede oscilar en cañones estrechos del paisaje de error o quedarse atascado en mesetas. Allí entran los optimizadores más sofisticados. El momentum, inspirado en la física, acumula «inercia» de los pasos anteriores: como una bola rodando cuesta abajo, si ha estado yendo en una dirección consistente, sigue avanzando, lo que suaviza las oscilaciones y acelera la convergencia. El optimizador Adam, propuesto por Kingma y Ba en 2014, va un paso más allá: combina momentum con tasas de aprendizaje adaptativas, ajustando el paso de forma individual para cada peso. Adam es hoy el optimizador predeterminado en la mayoría de los proyectos de deep learning, desde modelos de lenguaje hasta sistemas de recomendación.

Otro ingrediente clave son las funciones de activación. Durante años se usaron las funciones sigmoide y tangente hiperbólica, pero ambas aplastaban los valores en rangos pequeños, lo que provocaba el temido problema del gradiente evanescente: en capas profundas, el gradiente se volvía tan diminuto que los pesos dejaban de actualizarse. La función ReLU (Rectified Linear Unit, f(x) = max(0, x)) resolvió esto de forma sorprendentemente simple: para valores positivos, su derivada es 1, lo que permite que el gradiente fluya sin encogerse. Además, ReLU produce representaciones dispersas (muchas neuronas dan exactamente cero, lo que es computacionalmente eficiente) y no requiere operaciones costosas como exponenciales. Desde que AlexNet la usó en 2012 para ganar ImageNet, ReLU se convirtió en la activación por defecto.

Detrás de todo este proceso hay un actor silencioso pero indispensable: la GPU. Cada paso del ciclo de entrenamiento —forward pass, retropropagación, actualización de pesos— implica multiplicaciones de matrices enormes. Las GPUs, diseñadas originalmente para renderizar gráficos en paralelo, resultaron ser perfectas para estas operaciones. El mismo AlexNet de 2012 demostró que entrenar con GPUs reducía el tiempo de semanas a días. Hoy, clusters enteros de GPUs entrenan modelos con cientos de miles de millones de parámetros, pero el principio fundamental sigue siendo el mismo.

Entender cómo se entrenan las redes neuronales importa porque es el mecanismo que subyace a prácticamente todas las aplicaciones modernas de inteligencia artificial. Cada vez que ChatGPT genera una respuesta, cuando un auto autónomo detecta un peatón o cuando Spotify recomienda una canción, detrás hay un modelo que pasó por el mismo ciclo: pase hacia adelante, cálculo de pérdida, retropropagación y descenso por gradiente. No es magia, sino un proceso iterativo de ajuste fino que convierte la aleatoriedad inicial en conocimiento útil. Y cuanto mejor entendamos ese proceso, mejor podremos usar —y cuestionar— las herramientas que construye.

Fuente principal: Adam: A Method for Stochastic Optimization — Kingma y Ba (2014), el artículo que introdujo el optimizador Adam y que sintetiza los principios modernos del entrenamiento de redes neuronales.