Projeto de Classificação de Risco de Crédito para Pequenas Empresas
No cenário atual, onde o crédito ao consumidor é uma prática comum e importante para a expansão dos negócios, uma análise de risco de crédito eficaz é crucial para mitigar inadimplências e melhorar a rentabilidade. Este projeto foi desenvolvido com o objetivo de classificar as operações de crédito realizadas pelos clientes, fornecendo uma análise precisa do risco envolvido em cada operação. Com uma pontuação que reflete a probabilidade de pagamento dos clientes, a empresa pode tomar decisões mais seguras e embasadas. Neste artigo, vamos explorar as etapas do projeto, os desafios enfrentados e as lições aprendidas, além de destacar as possibilidades de adaptação deste modelo a diversas plataformas.
1. Objetivo do Projeto
O projeto foi criado para avaliar o risco de crédito de clientes em operações a prazo, classificando cada cliente com uma pontuação que indica a probabilidade de pagamento, variando de 0 a 100. Essa pontuação, junto com um feedback descritivo, permite que a empresa entenda melhor o perfil de risco de cada cliente, reduzindo as chances de inadimplência e aprimorando a eficiência nas operações de crédito.
2. Tecnologias e Ferramentas Utilizadas
Para desenvolver o modelo e torná-lo acessível para os operadores de crédito, utilizamos uma série de ferramentas e bibliotecas de ciência de dados e aprendizado de máquina. Entre elas:
- Pandas e Numpy: para manipulação e análise de dados, realizando transformações e cálculos necessários.
- Scikit-Learn: para o pré-processamento, criação de pipelines e avaliação do desempenho do modelo.
- XGBoost: um dos algoritmos de aprendizado de máquina mais avançados e populares, conhecido por seu alto desempenho em classificações complexas.
- Streamlit: para a criação de uma interface interativa que permite consultas e facilita o acesso aos resultados.
- Plotly: para visualizações gráficas, incluindo o gráfico de gauge, que torna a pontuação de risco mais intuitiva.
3. Etapas do Projeto
A seguir, detalhamos as principais etapas do projeto, desde a coleta e preparação dos dados até a criação da interface interativa e o deploy para simulação de uso.
a) Coleta e Pré-Processamento de Dados
Utilizamos uma base de dados extraída de um arquivo .csv importado de um ERP (Enterprise Resource Planning) da empresa com nome anonimado. Essa base de dados continha informações essenciais sobre o perfil dos clientes e o histórico de crédito, incluindo variáveis como:
- CPF do cliente
- Nome, profissão e idade
- Histórico de pagamento e status atual das compras
- Pontuação de crédito, renda mensal e percentual de comprometimento de renda
- Dados da operação de crédito, como valor financiado, número de parcelas, taxa de juros e percentual de entrada
Os dados foram cuidadosamente processados e transformados para garantir a compatibilidade com o modelo de Machine Learning. Realizamos etapas de limpeza, tratamento de valores nulos e normalização, além de converter variáveis categóricas para um formato que pudesse ser interpretado pelo modelo.
b) Treinamento e Avaliação do Modelo
Para a classificação do risco de crédito, escolhemos o algoritmo XGBoost, que é amplamente utilizado em problemas de classificação e oferece alta precisão e rapidez no processamento. Dividimos os dados em conjuntos de treino e teste e aplicamos o modelo para prever o risco de crédito. A avaliação do desempenho do modelo foi realizada com métricas como o MSE (Mean Squared Error), o F1-score e o MAE (Mean Absolute Error).
O ajuste fino dos hiperparâmetros foi feito por meio do GridSearchCV
, maximizando a acurácia e garantindo que o modelo estivesse preparado para interpretar corretamente o perfil de risco dos clientes. Como resultado, nosso algoritmo alcançou uma precisão de 91% nas previsões, mostrando-se capaz de generalizar bem tanto os dados de treino quanto novos dados. Com o modelo ajustado e treinado, ele pode ser continuamente re-treinado com novos dados, melhorando e adaptando suas previsões ao longo do tempo.
c) Interface Interativa com Streamlit
Para este projeto, criamos uma interface com Streamlit como um exemplo de deploy. Essa interface permite a consulta de risco de crédito de maneira prática, com o usuário digitando o CPF do cliente e recebendo uma pontuação de risco junto com um feedback descritivo sobre o perfil de crédito. Além disso, a interface inclui um gráfico de gauge colorido que ajuda a interpretar a pontuação de forma visual.
A Seguir outro exemplo do resultado:
Vale ressaltar que, embora tenhamos usado Streamlit para fins de demonstração, este sistema pode ser facilmente implementado em outras plataformas, como ERPs, CRMs ou qualquer sistema de gestão já utilizado pelo cliente. Esse tipo de integração amplia o potencial do projeto e permite que a análise de risco seja acessada diretamente nas plataformas que o cliente já utiliza para o dia a dia dos negócios.
d) Histórico de Consultas
Adicionamos uma seção de histórico de consultas, onde cada CPF consultado, sua pontuação de risco e o feedback correspondente são armazenados. Esse histórico permite que a equipe de crédito visualize rapidamente o comportamento e perfil de cada cliente, auxiliando na tomada de decisões e permitindo acompanhar as mudanças no perfil de risco ao longo do tempo.
4. Desafios Enfrentados
O desenvolvimento deste projeto trouxe desafios que exigiram soluções específicas:
- Inconsistências e Limpeza de Dados: A base de dados original extraída do ERP continha inconsistências que precisaram ser resolvidas antes do treinamento do modelo. Foi necessário limpar e transformar os dados para que todos estivessem no formato necessário.
- Definição de Critérios para Feedback de Risco: Outro desafio foi definir critérios claros para categorizar o risco e fornecer um feedback preciso. Ajustamos esses critérios para garantir que o feedback estivesse em sintonia com a pontuação de risco calculada.
- Desenvolvimento do Gráfico de Gauge: A criação de uma representação gráfica que facilitasse a interpretação da pontuação de risco exigiu ajustes na configuração do gráfico de gauge, para que cores como verde, amarelo e vermelho representassem, respectivamente, baixo, moderado e alto risco de forma intuitiva.
5. Lições Aprendidas
Este projeto demonstrou como a análise de risco de crédito pode ser adaptada para diferentes plataformas e como a ciência de dados pode transformar a tomada de decisões. Com o modelo de Machine Learning desenvolvido, fica claro que este projeto pode ser implementado em diversos sistemas e ERPs, sendo uma poderosa ferramenta para auxiliar na gestão de crédito e aumentar a segurança das operações financeiras.
Ademais, este projeto é apenas uma amostra do potencial da inteligência artificial na área de negócios. Ele mostra como técnicas de Machine Learning podem ser aplicadas para ajudar os gestores a entenderem melhor o perfil de seus clientes e tomarem decisões mais embasadas.
6. Considerações Finais
Para qualquer empresa que trabalhe com vendas a crédito, seja de produtos ou serviços, a análise de risco de crédito baseada em Machine Learning é uma ferramenta poderosa que pode reduzir os riscos de inadimplência. Ela oferece uma visão detalhada do perfil dos clientes, ajudando a tomar decisões financeiras mais seguras e eficientes.
Embora o cientista de dados seja responsável por desenvolver e treinar o modelo, a função de colocar o modelo em produção geralmente cabe ao Engenheiro de Machine Learning ou Engenheiro de Software, que possuem o conhecimento necessário para garantir a segurança e eficiência do sistema em ambiente de produção. Neste projeto, como cientista de dados, fui além das responsabilidades tradicionais, desenvolvendo uma interface interativa para demonstração do potencial da aplicação. Esse esforço adicional mostra como o cientista de dados pode agregar valor para o cliente, oferecendo uma solução completa e adaptável.
Este projeto exemplifica como a ciência de dados e a inteligência artificial podem transformar áreas de crédito e finanças, trazendo segurança e agilidade ao processo de tomada de decisão. Com o apoio das tecnologias certas, é possível criar uma estratégia de crédito mais sólida e preparada para os desafios do mercado.
- Apache Iceberg e AWS Glue: Qual Escolher? - 25 de dezembro de 2024
- Algoritmos de Machine Learning – K-Means Clustering - 23 de dezembro de 2024
- AWS CLI e SageMaker para Desenvolvedores e Cientistas de Dados - 19 de dezembro de 2024