Projeto acadêmico desenvolvido no curso de Ciência de Dados e Machine Learning (CEUB).
Construir um modelo de classificação supervisionada capaz de prever a espécie de uma flor Iris (Setosa, Versicolor ou Virginica) com base em quatro medidas morfológicas: comprimento e largura de pétala e sépala.
O dataset Iris é o “Hello World” do aprendizado de máquina — pequeno, balanceado, didático — e por isso ideal para demonstrar o fluxo completo de um pipeline supervisionado.
02-classificacao-iris-ml/
├── README.md
├── requirements.txt
└── classificacao.py # Pipeline completo
pip install -r requirements.txt
python classificacao.py
O script irá:
| Modelo | Acurácia esperada |
|---|---|
| KNN (k=5) | ~95–97% |
| Regressão Logística | ~95–97% |
| Random Forest | ~95–100% |
Todos os modelos têm boa performance neste dataset, pois ele é linearmente quase separável. A diferença prática vem da estabilidade e da interpretabilidade.
| Ferramenta | Versão | Função |
|---|---|---|
| Python | 3.10+ | Linguagem base |
| scikit-learn | 1.3+ | Modelos de ML e métricas |
| NumPy | 1.x | Operações numéricas |
| Pandas | 2.x | Manipulação de resultados |
| Matplotlib | 3.x | Visualização |
| Seaborn | 0.13+ | Heatmaps |
Este projeto demonstra o fluxo padrão de um problema supervisionado:
Dados → Split → Preprocessamento → Modelo → Avaliação → Comparação
Compreender este pipeline é fundamental antes de avançar para datasets reais (sujos, desbalanceados, com features categóricas) e modelos mais complexos (redes neurais, ensembles avançados).