Este projeto tem como objetivo prever quais usuários de uma plataforma de streaming têm maior probabilidade de cancelar a assinatura (churn), utilizando algoritmos de classificação supervisionada. É um exemplo prático de como a ciência de dados pode apoiar estratégias de retenção de clientes.
- 🎯 Objetivo
- 🧪 Etapas do Projeto
- 🛠️ Tecnologias e Bibliotecas Utilizadas
- 📈 Resultados
- 💡 Aprendizados
- 🔗 Acesse
Identificar o perfil de usuários com maior risco de churn e treinar modelos de classificação para antever cancelamentos com base em dados históricos da plataforma.
-
Análise Exploratória de Dados (EDA)
- Leitura do dataset
- Verificação de valores nulos, tipos de dados e estatísticas descritivas
- Visualizações com
seaborn(baseadas no Python Graph Gallery)
-
Limpeza e Pré-processamento
- Remoção/substituição de nulos
- Codificação com
get_dummieseLabelEncoder - Normalização com
MinMaxScaler
-
Modelagem
- Aplicação da Regressão Logística como baseline
- Avaliação com
ConfusionMatrixDisplayeclassification_report
-
Tuning
- Implementação de RandomForestClassifier
- Estrutura clara com
fit,predict,assign
- Python (Jupyter Notebook)
- pandas, numpy
- seaborn, matplotlib
- scikit-learn
A combinação entre as variáveis selecionadas e os modelos aplicados permitiu identificar padrões claros de comportamento dos usuários. O modelo Random Forest apresentou melhor desempenho em relação à regressão logística.
- Estruturação de um pipeline de machine learning supervisionado.
- Comparação entre modelos de classificação.
- Aplicação prática de estratégias de retenção orientadas a dados.
