Olá, seja muito bem vindo(a) ao
meu portfólio de projetos de
Ciência de Dados

Conheça minhas habilidades e meus projetos

Nessa página eu demonstro minhas habilidades de resolver problemas de negócio utilizando conceitos e ferramentas
da Ciência de Dados, através de projetos com dados públicos.
Você vai encontrar também, minhas experiências profissionais, habilidades, ferramentas e conceitos envolvendo a Ciência de Dados.
Sinta-se a vontade para entrar em contato através dos links no final da página.

Sobre mim

Meu nome é Pedro Cortez

Formado em Engenharia Civil, descobri nos dados uma nova forma de resolver problemas complexos. Nos últimos três anos, venho aplicando métodos analíticos e modelos preditivos para transformar informações em decisões estratégicas — de previsões de vendas a segmentação de clientes.

Hoje, meu foco é ajudar empresas a aproveitarem o poder dos dados para otimizar resultados e gerar crescimento sustentável.

Criação de dashboards no Power BI, incluindo tratamento e limpeza de dados;
Desenvolvimento de aplicações interativas com Streamlit e Python para visualização de insights;
Treinamento de algoritmos de Machine Learning para previsões de vendas (séries temporais), segmentação de clientes e modelagem preditiva de comportamento de compra;
Investi em formações que me proporcionaram uma base sólida e uma abordagem clara, organizada e analítica para trabalhar com dados.

Atualmente, busco uma oportunidade profissional como Cientista de Dados, com o objetivo de contribuir para a melhoria da tomada de decisão nas empresas por meio de soluções baseadas em dados.

Habilidades

Linguagens de Programação e Banco de Dados

Python para Análise de Dados (pandas, numpy);
Web scraping (BeautifulSoup, Selenium e requests)
SQL (MySQL, PostgreSQL, SQLite);
Manipulação de Dados (Excel Avançado, Google Sheets)

Estatística e Machine Learning

Estatística descritiva (tendencia, dispersão, assimetria, kurtosis, densidade);
Algoritmos de Regressão, Classificação e Clusterização;
Balanceamento dos dados, seleção de atributos e redução de dimensionalidade;
Métricas de performance dos algoritmos (RMSE, MAE, MAPE, Confusion Matrix, Precisão, Recall, Curva ROC, Curva Lift);
Pacotes e Frameworks: scikit-learn, TensorFlow, Keras, PyTorch, XGBoost, LightGBM.

Visualização e Storytelling de Dados

Bibliotecas de visualização em Python: matplotlib, seaborn, plotly, bokeh;
Ferramentas BI: Power BI, Tableau, Google Data Studio;
Plataformas para storytelling: Tableau Story Points, Power BI storytelling features, Streamlit para apps interativos;
Microsoft PowerPoint, Google Slides, Canva (para criar relatórios visuais).

Engenharia de Software e Deploy

Controle de versão: Git, GitHub, GitLab;
Ambientes virtuais: virtualenv, conda, Docker (containerização);
Desenvolvimento de APIs: Flask, FastAPI, Django REST Framework;
Deploy em nuvem: Heroku, AWS (EC2, S3, Lambda), Google Cloud Platform, Azure;
Automação e CI/CD: Jenkins, GitHub Actions, GitLab CI/CD.

Projetos de Ciência de dados

Dashboard KPI's - Power BI

Criação de um relatório de métricas completo em Power BI

Desenvolvi um dashboard interativo em Power BI com foco em análise de performance e crescimento de e-commerces, aplicando técnicas de modelagem de dados, métricas DAX e storytelling visual.

O objetivo principal foi transformar dados brutos de vendas, marketing e clientes em insights estratégicos e acionáveis, facilitando a tomada de decisão e o diagnóstico de oportunidades de melhoria

As ferramentas utilizadas foram:

Power BI (Power Query, DAX, Modelagem Relacional);
Python (Pandas e Jupyter Notebook para preparação de dados)
Git e GitHub para versionamento e portfólio público;
Publicação no Power BI Service com link compartilhável.

Construção de um algoritmo para previsão de vendas de uma rede de farmácia.

Desenvolvi uma solução robusta utilizando Python, Estatística e técnicas supervisionadas de Machine Learning (XGBoost) para prever as vendas mensais de cada unidade da franquia. O objetivo principal foi fornecer ao CEO projeções precisas para apoiar decisões estratégicas sobre o capital a ser investido em reformas e melhorias nas lojas.

O modelo alcançou um RMSE de 1100, garantindo previsões confiáveis, e entreguei análises de cenários — melhor e pior caso — para que a liderança pudesse avaliar riscos e oportunidades de investimento de forma embasada e segura.

As ferramentas utilizadas foram:

Git e Github;
Python, Pandas, Matplotlib e Seaborn;
Jupyter Notebook, Machine Learning;
Deploy on Heroku Cloud;
Flask API

Desenvolvimento de Dashboard interativo para monitoramento de métricas de Marketplace

Projetei e implementei um dashboard online em Streamlit que consolidou as principais métricas operacionais de um marketplace de comida, organizadas em três painéis distintos para oferecer visões específicas de diferentes áreas do negócio.

Essa ferramenta interativa facilitou o acompanhamento em tempo real dos indicadores-chave, apoiando a equipe de gestão na tomada de decisões estratégicas mais rápidas e assertivas, baseadas em dados concretos e cenários atualizados.

As ferramentas utilizadas foram:

Git e Github;
Python, Pandas, Numpy e Plotly;
Anaconda e Jupyter Notebook;
Mapas interativos com Plotly e Folium;
Streamlit Python framework web.

Algoritmo de Ranqueamento de Clientes para Otimização de Vendas

Desenvolvi um modelo preditivo com foco em ranquear os clientes com maior probabilidade de adquirir um novo produto de uma seguradora. O objetivo foi reduzir o esforço da equipe comercial, permitindo que entrassem em contato apenas com os clientes mais propensos à conversão.

Utilizando o algoritmo LightGBM, o modelo alcançou 82,4% de Recall, identificando 92% dos clientes interessados ao ligar para apenas 40% da base, otimizando significativamente o tempo e os recursos da equipe de vendas.

Implementei a solução diretamente no Google Sheets, com uma interface simples onde, ao clicar em um botão, a equipe tinha acesso à lista ranqueada dos clientes com maior propensão de compra.

As ferramentas utilizadas foram:

Git, Gitlab e Github;
Python, Pandas, Matplotlib e Seaborn;
Jupyter Notebook, Machine Learning;
Deploy on Heroku Cloud e Google Sheets;
Curva ROC, Curva Lift e Recall

Algoritmo de Classificação para Diagnóstico de Doenças Cardiovasculares.

Desenvolvi um modelo de classificação utilizando o algoritmo LightGBM para detectar doenças cardiovasculares com alta precisão. O problema de negócio envolvia diagnósticos manuais com acurácia limitada a 65%, impactando diretamente a confiança clínica e a receita da empresa.

Com o novo modelo, alcancei 75% de acurácia, superando o processo anterior e resultando em um ganho financeiro direto: cada 5% de acurácia acima de 50% representa R$500 adicionais por diagnóstico. Isso gerou um retorno potencial de até R$2.500 por diagnóstico.

Considerando que a clínica já havia realizado mais de 70 mil diagnósticos, a aplicação desse algoritmo representou um salto significativo em eficiência médica e receita acumulada.

As ferramentas utilizadas foram:

Git, Gitlab e Github;
Python, Pandas, Numpy e Seaborn;
Anaconda, PyCharm e Jupyter Notebook;
Estatística e Machine Learning;
Curva ROC, Precision e Accuracy;

Segmentação de Clientes para Identificação do Grupo Insiders

Desenvolvi uma solução de clusterização de clientes para um e-commerce, com o objetivo de identificar o perfil do cliente ideal — denominado Grupo Insiders — e permitir ações de marketing direcionadas.

Utilizei algoritmos de aprendizado não supervisionado, como KMeans e GMM, combinados com técnicas de redução de dimensionalidade (UMAP) para melhor visualização dos padrões. A avaliação da qualidade dos clusters foi feita com a métrica de Silhouette Score, o que resultou em uma segmentação robusta em 10 grupos distintos de clientes.

O projeto permitiu a empresa personalizar campanhas de marketing, identificar os clientes mais valiosos, além de aumentar a conversão e retenção de seus clientes.

As ferramentas utilizadas foram:

Git, Gitlab e Github;
Python, Pandas, Numpy e Seaborn;
Anaconda, PyCharm e Jupyter Notebook;
Estudo do espaço, UMAP, t-SNE e PCA;
Silhouette Metric;
Algoritmos não supervisionados, KMeans, GMM, DBSCAN.

Análise e Previsão Turnover de Funcionários.

Desenvolvi uma solução de Machine Learning supervisionado com o objetivo de prever quais funcionários possuem maior risco de turnover, permitindo que o time de RH atue de forma preventiva. O modelo final, utilizando Random Forest com hiperparâmetros otimizados, alcançou um Recall de 89,5%, garantindo alta capacidade de identificar casos de possível desligamento. A partir disso, foram identificados 51 colaboradores com probabilidade de saída superior a 70%.

Esses profissionais foram ranqueados com base em características estratégicas, como desempenho e tempo de casa, priorizando os mais valiosos para a empresa. A retenção desses colaboradores representa uma economia potencial de R$1.020.000,00, considerando um custo médio de R$20 mil por desligamento.

Além da modelagem, criei dois dashboards interativos para apoiar a tomada de decisão: um com visão geral da força de trabalho e outro focado em métricas de turnover e prevenção. Essas ferramentas permitem o acompanhamento em tempo real das ações de retenção e facilitam uma gestão mais eficiente dos talentos da empresa.

As ferramentas utilizadas foram:

Git, Gitlab e Github;
Python, Pandas, Numpy e Seaborn;
Ranqueamento de funcionários;
Power BI e VSCode;
Algoritmos Machine Learning.

Identificação de produtos com margem para aumentar Faturamento.

Neste projeto, desenvolvi uma análise baseada em Regressão Linear para identificar produtos com maior sensibilidade ao preço e, portanto, com maior margem para alavancar o faturamento de grandes varejistas como Walmart e Best Buy. Através do modelo OLS (Ordinary Least Squares) da biblioteca StatsModels, ajustei a melhor reta de regressão entre preço e demanda semanal para cada produto, avaliando estatisticamente sua validade com testes de R² e p-value.

O objetivo foi mapear os produtos em que uma redução estratégica de preço geraria aumento proporcional de demanda — resultando em ganho líquido de receita. Como resultado, o modelo identificou produtos como o Apple MacBook Air como altamente elásticos ao preço. Com base em uma simulação de 10% de desconto, foi possível estimar o aumento no faturamento considerando a perda momentânea e o retorno esperado com o crescimento da demanda.

As ferramentas utilizadas foram:

Git, Gitlab e Github;
Python, Pandas, Numpy e Seaborn;
Ranqueamento de funcionários;
AWS: S3, SageMaker, Streamlit e VSCode;
Algoritmos de Regressão Linear.

Dashboard de Performance para Loja Geek

Criação de um dashboard interativo no Streamlit para análise completa da performance de campanhas de marketing digital de uma loja de roupas geek. O projeto simula a jornada de análise de dados de anúncios pagos (Meta Ads) com o objetivo de fornecer insights valiosos que ajudem lojistas a entender quais campanhas e canais realmente trazem retorno sobre investimento.

Utilizando Python (Pandas, Numpy, Matplotlib) e Streamlit, desenvolvi uma aplicação online com visualização de métricas fundamentais como CTR, CPC, CPA, taxa de conversão, tempo médio até a compra, funil de vendas e segmentação de público. A interface é acessível via navegador, permitindo que o dono da loja acompanhe os dados de forma simples e prática.

A análise revelou que o canal de Email teve a maior taxa de conversão, alcançando 32,6%. Por outro lado, a campanha de Acessórios, apesar de boa taxa de cliques, não gerou vendas nem leads, indicando necessidade de reformulação. Além disso, descobrimos que o custo para atrair o público feminino é menor, o que sugere direcionar mais investimento para esse segmento.

As ferramentas utilizadas foram:

Git e Github;
Python, Pandas, Numpy e Plotly;
Anaconda e Jupyter Notebook;
Streamlit Python framework web.

Experiências

2 anos como Analista de Custos e Orçamentos de obra

Responsável por análises de desempenho e controle de custos das obras, monitorando mensalmente a produtividade dos colaboradores e comparando os gastos reais com o orçamento previsto.
Apoiei a tomada de decisões da equipe de engenharia por meio de dashboards de controle financeiro e relatórios analíticos, otimizando a alocação de recursos e a eficiência operacional.

3 anos Representante Comercial com Foco em Análise de Vendas e Produtos

Responsável pelo relacionamento com clientes, negociação e fechamento de vendas no setor agrícola;
Monitoramento de indicadores de vendas, identificação de padrões de consumo e sazonalidade;
Análises comparativas de produtos para entender o que tem maior aceitação no mercado e ajustar o foco da estratégia comercial;
Criação de relatórios em Excel com gráficos e métricas, apoiando decisões de estoque, precificação e abordagem de clientes.

6+ Projetos completos de Ciência de Dados

Construção de soluções de dados para problemas de negócio, próximos dos desafios reais das empresas, utilizando dados públicos de competições de Ciência de Dados, onde eu abordei o problema desde a concepção do desafio de negócio até a publicação do algoritmo treinado em produção, utilizando ferramentas de Cloud Computing.

Entre em contato

Sinta-se a vontade para entrar em contato.