No piensa, predice: el mecanismo interno de la IA generativa

Cuando conversas con ChatGPT o cualquier otro modelo de lenguaje grande, la experiencia es tan fluida que resulta casi imposible no atribuirle algún tipo de inteligencia. Responde preguntas, escribe poemas, explica conceptos complejos, incluso parece razonar. Pero por dentro el mecanismo es mucho más simple de lo que sugiere la apariencia: la inteligencia artificial generativa, en su núcleo más fundamental, es un sistema de autocompletado extraordinariamente sofisticado. No piensa. No entiende. No tiene conciencia. Simplemente predice la siguiente palabra.

Para entenderlo hay que empezar por los tokens. Los modelos de lenguaje no trabajan con palabras completas, sino con fragmentos más pequeños llamados tokens. Un token puede ser una palabra entera como «gato», una sílaba como «ga» o incluso un carácter suelto — en promedio, un token equivale a unas tres cuartas partes de una palabra. El modelo recibe una secuencia de tokens, el contexto que has escrito hasta el momento, y calcula cuál debería ser el siguiente.

Ese cálculo es posible gracias al Transformer, una arquitectura de red neuronal propuesta en 2017 por un equipo de investigadores de Google liderado por Ashish Vaswani. El artículo, titulado «Attention Is All You Need», introdujo un mecanismo llamado atención que permite al modelo ponderar la importancia de cada token previo a la hora de decidir el siguiente. Cuando el modelo procesa la frase «El gato se sentó en el —», el mecanismo de atención aprende que «gato» y «sentó» son más relevantes para predecir la siguiente palabra que «El» o «en». Esa capacidad de mirar hacia atrás y decidir qué importa es lo que diferencia al Transformer de las arquitecturas anteriores.

Una vez que el Transformer ha procesado el contexto completo, genera una distribución de probabilidad sobre todos los tokens posibles en su vocabulario. Algunos tokens reciben una probabilidad alta; otros, casi cero. Si el contexto es «El gato se sentó en el —», las probabilidades más altas corresponderán a palabras como «suelo», «sofá», «sillón» o «piso». El modelo no elige siempre la opción más probable: puede muestrear dentro de esa distribución, lo que introduce variabilidad en las respuestas. Un mismo contexto puede producir textos diferentes cada vez.

Este proceso —recibir tokens, procesarlos con atención, predecir una distribución de probabilidad, muestrear el siguiente token, añadirlo al contexto y repetir— se llama generación autoregresiva. Cada nuevo token se convierte en parte del contexto para el siguiente paso. El modelo avanza token a token, construyendo la respuesta de forma incremental, exactamente igual que el autocompletado del teclado de tu teléfono, pero con un contexto mucho más grande y una capacidad de cómputo inmensamente mayor.

¿Y cómo aprende el modelo a hacer estas predicciones? Mediante entrenamiento a escala masiva. Durante el entrenamiento, al modelo se le muestran billones de tokens extraídos de internet: páginas web, libros, artículos científicos, foros, redes sociales, código fuente. Para cada fragmento de texto se oculta el último token y se pide al modelo que lo prediga basándose en los anteriores. La diferencia entre la predicción del modelo y el token real es un error que se utiliza para ajustar los parámetros internos —los llamados pesos neuronales— mediante un proceso llamado retropropagación. Repetido millones de veces sobre cantidades ingentes de datos, este ciclo de predicción y ajuste produce modelos que generan texto coherente, gramaticalmente correcto y sorprendentemente matizado.

Pero aquí está el punto crucial: la coherencia no implica comprensión. El modelo no tiene un modelo interno del mundo. No sabe qué es un gato, ni qué significa sentarse, ni qué es un sofá. Ha visto esas palabras aparecer juntas tantas veces en sus datos de entrenamiento que ha aprendido las correlaciones estadísticas entre ellas. Cuando responde correctamente a una pregunta no es porque entienda la pregunta, sino porque ha visto patrones similares de preguntas y respuestas en su entrenamiento. Su conocimiento es prestado: refleja lo que los seres humanos han escrito en internet, no una experiencia directa del mundo. En palabras de la investigadora Emily Bender y sus colegas, el modelo es un «loro estocástico»: repite patrones que ha memorizado, recombinándolos de maneras que resultan novedosas.

Entender este mecanismo cambia radicalmente la forma en que deberíamos evaluar y utilizar estas herramientas. Si sabemos que el modelo solo predice la siguiente palabra, dejamos de verlo como un oráculo infalible y empezamos a tratarlo como lo que es: una máquina estadística que puede producir tanto verdades fundamentadas como disparates con la misma fluidez. Las alucinaciones —esas respuestas seguras pero completamente falsas— dejan de ser misteriosas: son simplemente el modelo prediciendo tokens probables según su entrenamiento, sin capacidad de contrastar con la realidad. Los sesgos y prejuicios que refleja no son malicia, sino el subproducto de haber aprendido de un internet lleno de contradicciones humanas.

Esto no significa que la IA generativa no sea útil. Lo es, y de forma extraordinaria. Pero su utilidad depende de que entendamos sus límites. No piensa. No razona. No comprende. Predice la siguiente palabra. Y esa predicción, cuando se ejecuta a una escala de cientos de miles de millones de parámetros entrenados con textos de toda la humanidad, produce resultados que parecen magia. Pero no es magia. Es estadística. Es autocompletado. Es el mecanismo más simple ejecutado a la escala más grande.

Fuente principal: Attention Is All You Need — Vaswani et al., NIPS 2017.