Relatório Final: Projeto de Análise e Modelagem Preditiva sobre Expectativa de Vida.
Dados utilizados da OMS, (Organização Mundial da Saúde) dados REAIS dos anos 2000 a 2015, dataset com 2838 registros em 22 e dataframes, esse projeto foi realizado para fins de estudo e compreensão dos algoritimos preditivos e aprimoramentos das técnicas estatisticas e de análise.
Objetivo do Projeto:
O objetivo principal deste projeto foi analisar os fatores que afetam a expectativa de vida em diferentes países, com foco especial em países de menor desenvolvimento. O projeto foi dividido em duas partes:
- Análise Exploratória para entender as variáveis que influenciam a expectativa de vida.
- Modelagem Preditiva para prever a expectativa de vida com base em fatores como educação, PIB per capita, saúde e outros indicadores sociais e econômicos.
Desafios Enfrentados:
Ao longo do projeto, enfrentamos alguns desafios importantes:
- Dados com Valores Nulos: Muitas variáveis tinham valores ausentes, o que exigiu o preenchimento adequado com base na mediana para garantir a consistência dos dados.
- Identificação e Tratamento de Outliers: Algumas variáveis apresentaram valores extremos (outliers) que poderiam distorcer os resultados. Embora não tenhamos tratado todos os outliers de imediato, foi necessário manter o foco em variáveis críticas para não perder informações relevantes.
- Análise de Clusters: Uma parte importante do projeto foi a análise de clusters, que agrupou os países com características semelhantes. Isso nos permitiu estudar o comportamento de diferentes grupos, como países de menor e maior desenvolvimento.
Insights Mais Importantes:
- Clusterização dos Países:
- Os países foram divididos em três clusters principais com base em suas características econômicas e sociais:
- Cluster 0: Países de menor desenvolvimento, com expectativa de vida mais baixa (média de 59 anos) e baixos investimentos em saúde e educação.
- Cluster 1: Países em desenvolvimento, com expectativa de vida média de 74 anos e níveis moderados de educação e gastos com saúde.
- Cluster 2: Países mais desenvolvidos, com expectativa de vida média de 81 anos e altos níveis de investimento em educação e saúde.
- Os países foram divididos em três clusters principais com base em suas características econômicas e sociais:
- Importância da Educação e da Saúde:
- A educação e os gastos com saúde mostraram-se fortemente correlacionados com a expectativa de vida. Países com maior nível de escolaridade e maiores investimentos em saúde tendem a ter uma expectativa de vida significativamente maior.
- A simulação mostrou que, para o Cluster 0, um aumento de 10%, 20%, ou 30% nos investimentos em educação e saúde pode aumentar a expectativa de vida entre 1 a 3 anos.
- Impacto do PIB per Capita:
- O PIB per capita também teve um impacto positivo na expectativa de vida. Simulamos aumentos realistas de 5%, 8%, e 14% no PIB per capita, o que resultou em melhorias consistentes na expectativa de vida, especialmente para os países do Cluster 0.
- Isso sugere que, em países de menor desenvolvimento, políticas voltadas para o crescimento econômico podem contribuir para aumentar a longevidade da população.
- Outras Variáveis Relevantes:
- A análise identificou outras variáveis importantes, como a mortalidade infantil e a mortalidade adulta, que afetam diretamente a expectativa de vida. Nos países de menor desenvolvimento, a mortalidade infantil e adulta é alta, e políticas focadas na redução dessas taxas podem ter um impacto significativo.
- A prevalência de HIV/AIDS também foi um fator crítico em muitos países. A redução da prevalência de doenças infecciosas pode ter um impacto direto na longevidade.
Divisão em Duas Partes:
- Parte 1 – Análise Exploratória:
- Nesta etapa, realizamos a exploração dos dados, verificamos a distribuição das variáveis, e entendemos a relação entre educação, gastos com saúde, PIB, e outros fatores em relação à expectativa de vida.
- A análise de correlações revelou que as variáveis de saúde e educação têm um impacto significativo sobre a expectativa de vida. A partir disso, iniciamos a segmentação dos países em clusters.
- Parte 2 – Modelagem Preditiva e Simulações:
- Após identificar as variáveis mais importantes, utilizamos o XGBoost para realizar uma modelagem preditiva da expectativa de vida.
- A acurácia do modelo foi excelente, com um R² de 0.92 e RMSE de 2.71, indicando que o modelo conseguiu prever com precisão a expectativa de vida dos países com base nas variáveis selecionadas.
- Além disso, realizamos simulações de aumento em educação, saúde e PIB, o que nos forneceu insights valiosos sobre os efeitos de políticas públicas nesses países.
Conclusão:
Este projeto foi concluído com sucesso, oferecendo uma visão abrangente de como educação, saúde e PIB impactam a expectativa de vida em diferentes países, com especial atenção aos países de menor desenvolvimento. As simulações mostraram que melhorias graduais nesses fatores podem aumentar significativamente a longevidade da população.
O uso de técnicas como a análise de clusters, modelagem preditiva e simulações ajudou a identificar políticas prioritárias para melhorar a expectativa de vida, fornecendo insights úteis para tomadores de decisão interessados em promover o desenvolvimento social e econômico.
Se houver interesse em expandir essa análise ou realizar novos estudos focados em variáveis adicionais, como mortalidade infantil ou prevalência de doenças, esse projeto pode servir como base sólida para novas investigações.
Em breve irei disponibilizar os insights tirados desse projeto de data science usando esse dataset, é incrivel como podemos extrair muitas mas muitas informações de um dataset usando as técnicas corretas e aplicando os algoritmos de machine learning de forma correta.
obrigado pela leitura e aguardo você no próximo artigo.
- Apache Iceberg e AWS Glue: Qual Escolher? - 25 de dezembro de 2024
- Algoritmos de Machine Learning – K-Means Clustering - 23 de dezembro de 2024
- AWS CLI e SageMaker para Desenvolvedores e Cientistas de Dados - 19 de dezembro de 2024