Os 7 algoritmos essenciais do machine learning — e quando usar cada um

Se você já se perguntou o que há dentro da «caixa preta» do aprendizado de máquina, a resposta é menos misteriosa do que parece.

Se você já se perguntou o que há dentro da «caixa preta» do aprendizado de máquina, a resposta é menos misteriosa do que parece. O machine learning não é um feitiço único, mas uma oficina cheia de ferramentas, cada uma projetada para um tipo diferente de problema. De fato, o Teorema do No Free Lunch (Wolpert, 1996) demonstra matematicamente que nenhum algoritmo é superior aos demais em todos os cenários possíveis. A chave, portanto, não está em memorizar uma fórmula mágica, mas em conhecer o cardápio de opções e entender qual convém usar em cada situação.

A seguir faremos um percurso por sete algoritmos fundamentais, organizados em duas grandes categorias: aprendizado supervisionado, onde os dados chegam rotulados, e aprendizado não supervisionado, onde o modelo deve encontrar padrões por conta própria.

Supervisionados: quando os dados já têm resposta

Regressão linear

É o ponto de partida de quase tudo. A regressão linear modela a relação entre uma variável dependente (o que queremos predizer) e uma ou mais variáveis independentes (as características) como uma combinação linear de parâmetros. Em termos simples: traça a reta que melhor se ajusta aos pontos, minimizando a soma dos erros ao quadrado (mínimos quadrados ordinários).

Quando usar? Quando o objetivo é um valor numérico contínuo — predizer o preço de uma casa, a temperatura de amanhã ou as vendas do próximo trimestre — e a relação entre as variáveis é aproximadamente linear. Suas variantes com regularização (ridge, lasso) ajudam quando há muitas características ou risco de sobreajuste.

Limitação: assume linearidade e é sensível a valores atípicos.

Regressão logística

Apesar do nome, não se usa para regressão e sim para classificação binária. Um e-mail é spam ou não? Um paciente tem determinada doença ou não? A regressão logística modela a probabilidade de um evento ocorrer usando a função sigmoide, que comprime qualquer valor em um número entre 0 e 1. O limite de decisão costuma ser fixado em 0,5, mas pode ser ajustado conforme o custo dos falsos positivos e falsos negativos.

Quando usar? Quando você precisa classificar em duas categorias e a fronteira entre elas é aproximadamente linear. É rápida, interpretável e funciona bem mesmo com conjuntos de dados não muito grandes.

Limitação: sua fronteira de decisão linear não captura relações complexas sem engenharia de características adicional.

Árvores de decisão

Uma árvore de decisão é como um jogo de «20 perguntas»: o modelo aprende uma sequência de regras if-else a partir dos dados. Cada nó interno pergunta sobre uma característica («a renda supera os R$ 50.000?»), cada ramo é uma resposta possível, e cada folha é uma predição.

Sua grande vantagem é a interpretabilidade: você pode visualizar a árvore completa e explicar por que cada decisão foi tomada. Além disso, requer pouca preparação de dados e lida tanto com valores numéricos quanto categóricos.

Quando usar? Quando a transparência importa mais do que a precisão bruta — por exemplo, em medicina ou finanças onde você precisa justificar cada predição.

Limitação: tendem ao sobreajuste. Uma árvore muito profunda pode memorizar o ruído dos dados em vez de aprender o sinal. Daí nasce a próxima ferramenta.

Random Forest (Floresta aleatória)

Se uma árvore é frágil, cem árvores juntas são robustas. O random forest, proposto por Leo Breiman em 2001, constrói centenas de árvores de decisão — cada uma treinada em uma amostra ligeiramente diferente dos dados (técnica chamada bagging) e considerando apenas um subconjunto aleatório de características em cada divisão. Depois, para classificar, toma a moda de todas as árvores; para regressão, a média.

O resultado é um modelo muito mais estável do que uma única árvore, com menor variância e sem aumentar significativamente o viés. A lei dos grandes números garante que o erro converge à medida que se adicionam mais árvores.

Quando usar? É um dos modelos mais versáteis que existem. Funciona bem com dados tabulares, lida com alta dimensionalidade, tolera valores ausentes e oferece uma medida de importância de características. Se você não sabe por onde começar, random forest é uma aposta segura.

Limitação: sacrifica a interpretabilidade da árvore única em favor da precisão. Com centenas de árvores, já não se pode «ver» o modelo completo.

Máquinas de Vetores de Suporte (SVM)

A SVM busca o hiperplano que melhor separa duas classes — não qualquer linha divisória, mas a que maximiza a margem entre os pontos mais próximos de cada classe (os «vetores de suporte»). Isso a torna especialmente robusta diante de novos dados.

Sua verdadeira potência está no kernel trick: ao transformar os dados para um espaço de maior dimensão, a SVM pode aprender fronteiras de decisão não lineares sem necessidade de calcular explicitamente essa transformação. Os kernels mais comuns são linear, polinomial e RBF (função de base radial).

Quando usar? Brilha quando o número de características é maior que o número de amostras — genômica, classificação de texto, reconhecimento facial — e quando você precisa de um modelo com boa generalização.

Limitação: a escolha do kernel e dos parâmetros de regularização exige ajuste cuidadoso. Não produz probabilidades diretas (é preciso recorrer a validação cruzada custosa para obtê-las). Na última década, as árvores gradient-boosted e as redes neurais a superaram em muitas tarefas, mas ela segue sendo a rainha em certos nichos.

Não supervisionados: quando os dados não têm rótulos

K-Means

O K-Means é o algoritmo de clusterização por excelência. Seu objetivo é particionar os dados em k grupos, onde cada ponto pertence ao grupo cujo centroide (média) está mais próximo. O processo é iterativo: inicializam-se k centroides, atribui-se cada ponto ao centroide mais próximo, recalculam-se os centroides como a média dos pontos atribuídos, e repete-se até que os grupos parem de mudar.

Quando usar? Para segmentação de clientes, organização de documentos, compressão de imagens ou qualquer tarefa em que você suspeite que os dados formam grupos naturais.

Limitação: é preciso escolher k de antemão (o método do cotovelo e o coeficiente de silhueta ajudam, mas são heurísticos). Assume que os clusters são esféricos e de tamanho similar. Além disso, o resultado depende da inicialização — por isso executa-se várias vezes com sementes diferentes.

Análise de Componentes Principais (PCA)

O PCA não prediz nem agrupa: reduz a dimensionalidade. Transforma um conjunto de variáveis possivelmente correlacionadas em um conjunto menor de componentes ortogonais (não correlacionados) que retêm a maior parte da variância original. É uma transformação linear — encontra os autovetores da matriz de covariância ou usa decomposição SVD — e portanto não captura estruturas não lineares complexas.

Quando usar? Antes de aplicar outro algoritmo: o PCA reduz o ruído, acelera o treinamento, evita a maldição da dimensionalidade e facilita a visualização de dados de alta dimensão. É também a base de sistemas de compressão e reconhecimento facial (eigenfaces).

Limitação: por ser linear, falha em dados com geometria curva (o clássico «Swiss roll»). Se a variância não coincide com a informação relevante, o PCA pode descartar justamente o que importa. E é sensível à escala das características — sempre é preciso padronizar antes de aplicá-lo.

Por que importa conhecer essas ferramentas

Entender esse cardápio de algoritmos é o que separa quem simplesmente executa código de quem sabe construir soluções sólidas. Cada ferramenta tem um perfil distinto de interpretabilidade, precisão, velocidade e pressupostos. A regressão linear oferece explicações claras; o random forest oferece precisão em troca de transparência; a SVM oferece margens limpas se você souber escolher o kernel; o k-means descobre grupos que você não sabia que existiam; o PCA limpa o caminho antes de modelar.

O machine learning real não consiste em encontrar o algoritmo «melhor», mas em saber qual é o adequado para o problema que você tem diante de si. Como dizia George Box: «todos os modelos são incorretos, mas alguns são úteis». Conhecer sua caixa de ferramentas é o primeiro passo para construir aqueles que realmente o sejam.

Fonte principal: Hastie, T., Tibshirani, R. e Friedman, J. (2009). The Elements of Statistical Learning, 2.ª ed. Springer. Disponível em https://hastie.su.domains/ElemStatLearn/. Também foram consultadas a documentação do scikit-learn (v. 1.8.0) e os artigos originais de Breiman (2001), MacQueen (1967), Pearson (1901), Hotelling (1933) e Wolpert (1996) para a verificação de cada algoritmo.