Regressão Linear: Teoria e Aplicação Prática
Introdução
A regressão linear é uma das técnicas mais fundamentais em estatística e machine learning. Seu objetivo é modelar a relação entre uma variável dependente (y) e uma ou mais variáveis independentes (X).
Fórmula Geral
y = β₀ + β₁X₁ + β₂X₂ + ... + βₙXₙ + εOnde:
- β₀: Intercepto
- β₁...βₙ: Coeficientes
- ε: Erro aleatório
Conceitos Chave
Mínimos Quadrados
Método para encontrar os coeficientes que minimizam a soma dos quadrados dos resíduos:
min Σ(yᵢ - ŷᵢ)²
Coeficiente de Determinação (R²)
Mede a proporção da variância na variável dependente que é previsível a partir das variáveis independentes:
R² = 1 - (SS_res / SS_tot)
Implementação em Python
# Exemplo com Scikit-learn
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
# Criar modelo
model = LinearRegression()
# Treinar modelo
model.fit(X_train, y_train)
# Previsões
predictions = model.predict(X_test)
# Avaliação
print(f'R² Score: {r2_score(y_test, predictions):.2f}')
Interpretação dos Resultados
Coeficientes
Indicam o peso e direção da relação entre cada variável independente e a variável dependente
P-valores
Determinam a significância estatística de cada variável
Intervalos de Confiança
Fornecem uma estimativa da precisão dos coeficientes