Los 7 algoritmos esenciales del machine learning — y cuándo usar cada uno

Si alguna vez te has preguntado qué hay dentro de la «caja negra» del aprendizaje automático, la respuesta es menos misteriosa de lo que parece. El machine learning no es un hechizo único, sino un taller lleno de herramientas, cada una diseñada para un tipo distinto de problema. De hecho, el Teorema de No Free Lunch (Wolpert, 1996) demuestra matemáticamente que ningún algoritmo es superior a los demás en todos los escenarios posibles. La clave, entonces, no está en memorizar una fórmula mágica, sino en conocer el menú de opciones y entender cuál conviene usar en cada situación.

A continuación haremos un recorrido por siete algoritmos fundamentales, organizados en dos grandes categorías: aprendizaje supervisado, donde los datos llegan etiquetados, y aprendizaje no supervisado, donde el modelo debe encontrar patrones por sí solo.

Supervisados: cuando los datos ya tienen respuesta

Regresión lineal

Es el punto de partida de casi todo. La regresión lineal modela la relación entre una variable dependiente (lo que queremos predecir) y una o más variables independientes (las características) como una combinación lineal de parámetros. En términos sencillos: dibuja la recta que mejor se ajusta a los puntos, minimizando la suma de los errores al cuadrado (mínimos cuadrados ordinarios).

¿Cuándo usarla? Cuando el objetivo es un valor numérico continuo —predecir el precio de una casa, la temperatura mañana o las ventas del próximo trimestre— y la relación entre variables es aproximadamente lineal. Sus variantes con regularización (ridge, lasso) ayudan cuando hay muchas características o riesgo de sobreajuste.

Limitación: asume linealidad y es sensible a valores atípicos.

Regresión logística

A pesar de su nombre, no se usa para regresión sino para clasificación binaria. ¿Un correo es spam o no? ¿Un paciente tiene cierta enfermedad o no? La regresión logística modela la probabilidad de que un evento ocurra usando la función sigmoide, que comprime cualquier valor en un número entre 0 y 1. El límite de decisión suele fijarse en 0.5, pero puede ajustarse según el costo de los falsos positivos y falsos negativos.

¿Cuándo usarla? Cuando necesitas clasificar en dos categorías y la frontera entre ellas es aproximadamente lineal. Es rápida, interpretable y funciona bien incluso con conjuntos de datos no demasiado grandes.

Limitación: su frontera de decisión lineal no captura relaciones complejas sin ingeniería de características adicional.

Árboles de decisión

Un árbol de decisión es como un juego de «20 preguntas»: el modelo aprende una secuencia de reglas if-else a partir de los datos. Cada nodo interno pregunta sobre una característica («¿el ingreso supera los $50,000?»), cada rama es una respuesta posible, y cada hoja es una predicción.

Su gran ventaja es la interpretabilidad: puedes visualizar el árbol completo y explicar por qué se tomó cada decisión. Además, requiere poca preparación de datos y maneja tanto valores numéricos como categóricos.

¿Cuándo usarlo? Cuando la transparencia importa más que la precisión bruta —por ejemplo, en medicina o finanzas donde necesitas justificar cada predicción.

Limitación: tienden al sobreajuste. Un árbol muy profundo puede memorizar el ruido de los datos en lugar de aprender la señal. De ahí nace la siguiente herramienta.

Random Forest (Bosque aleatorio)

Si un árbol es frágil, cien árboles juntos son robustos. Random forest, propuesto por Leo Breiman en 2001, construye cientos de árboles de decisión —cada uno entrenado en una muestra ligeramente diferente de los datos (técnica llamada bagging) y considerando solo un subconjunto aleatorio de características en cada división. Luego, para clasificar, toma la moda de todos los árboles; para regresión, el promedio.

El resultado es un modelo mucho más estable que un solo árbol, con menor varianza y sin aumentar significativamente el sesgo. La ley de los grandes números garantiza que el error converge a medida que se añaden más árboles.

¿Cuándo usarlo? Es uno de los modelos más versátiles que existen. Funciona bien con datos tabulares, maneja alta dimensionalidad, tolera valores faltantes y ofrece una medida de importancia de características. Si no sabes por dónde empezar, random forest es una apuesta segura.

Limitación: sacrifica la interpretabilidad del árbol único por precisión. Con cientos de árboles, ya no puedes «ver» el modelo completo.

Máquinas de Vectores de Soporte (SVM)

SVM busca el hiperplano que mejor separa dos clases —no cualquier línea divisoria, sino la que maximiza el margen entre los puntos más cercanos de cada clase (los «vectores de soporte»). Esto la hace especialmente robusta frente a nuevos datos.

Su verdadera potencia está en el kernel trick: al transformar los datos a un espacio de mayor dimensión, SVM puede aprender fronteras de decisión no lineales sin necesidad de calcular explícitamente esa transformación. Los kernels más comunes son lineal, polinomial y RBF (función de base radial).

¿Cuándo usarla? Brilla cuando el número de características es mayor que el número de muestras —genómica, clasificación de texto, reconocimiento facial— y cuando necesitas un modelo con buena generalización.

Limitación: la elección del kernel y los parámetros de regularización requiere ajuste cuidadoso. No produce probabilidades directas (hay que recurrir a validación cruzada costosa para obtenerlas). En la última década, los árboles gradient-boosted y las redes neuronales la han superado en muchas tareas, pero sigue siendo la reina en ciertos nichos.

No supervisados: cuando los datos no tienen etiquetas

K-Means

K-Means es el algoritmo de clustering por excelencia. Su objetivo es particionar los datos en k grupos, donde cada punto pertenece al grupo cuyo centroide (promedio) está más cerca. El proceso es iterativo: se inicializan k centroides, se asigna cada punto al centroide más cercano, se recalculan los centroides como el promedio de los puntos asignados, y se repite hasta que los grupos dejan de cambiar.

¿Cuándo usarlo? Para segmentación de clientes, organización de documentos, compresión de imágenes o cualquier tarea donde sospeches que los datos forman grupos naturales.

Limitación: hay que elegir k de antemano (el método del codo y el coeficiente de silueta ayudan, pero son heurísticos). Asume que los clusters son esféricos y de tamaño similar. Además, el resultado depende de la inicialización —por eso se ejecuta varias veces con distintas semillas.

Análisis de Componentes Principales (PCA)

PCA no predice ni agrupa: reduce la dimensionalidad. Transforma un conjunto de variables posiblemente correlacionadas en un conjunto más pequeño de componentes ortogonales (no correlacionados) que retienen la mayor parte de la varianza original. Es una transformación lineal —encuentra los eigenvectores de la matriz de covarianza o usa descomposición SVD— y por tanto no captura estructuras no lineales complejas.

¿Cuándo usarlo? Antes de aplicar otro algoritmo: PCA reduce el ruido, acelera el entrenamiento, evita la maldición de la dimensionalidad y facilita la visualización de datos de alta dimensión. Es también la base de sistemas de compresión y reconocimiento facial (eigenfaces).

Limitación: al ser lineal, falla en datos con geometría curva (el clásico «Swiss roll»). Si la varianza no coincide con la información relevante, PCA puede descartar justo lo que importa. Y es sensible a la escala de las características —siempre hay que estandarizar antes de aplicarlo.

Por qué importa conocer estas herramientas

Entender este menú de algoritmos es lo que separa a quien simplemente ejecuta código de quien sabe construir soluciones sólidas. Cada herramienta tiene un perfil distinto de interpretabilidad, precisión, velocidad y supuestos. La regresión lineal te da explicaciones claras; random forest te da precisión a costa de transparencia; SVM te da márgenes limpios si sabes elegir el kernel; k-means te descubre grupos que no sabías que existían; PCA te limpia el camino antes de modelar.

El machine learning real no consiste en encontrar el algoritmo «mejor», sino en saber cuál es el adecuado para el problema que tienes delante. Como decía George Box: «todos los modelos son incorrectos, pero algunos son útiles». Conocer tu caja de herramientas es el primer paso para construir los que sí lo sean.

Fuente principal: Hastie, T., Tibshirani, R. y Friedman, J. (2009). The Elements of Statistical Learning, 2.ª ed. Springer. Disponible en https://hastie.su.domains/ElemStatLearn/. También se consultó la documentación de scikit-learn (v. 1.8.0) y los artículos originales de Breiman (2001), MacQueen (1967), Pearson (1901), Hotelling (1933) y Wolpert (1996) para la verificación de cada algoritmo.