Profissional será responsável por construir, na prática, a arquitetura desenhada pelo Arquiteto de Dados, atuando diretamente na implementação dos pipelines de ingestão das 33 bases de dados, na camada de qualidade e na API interna responsável por entregar o perfil consolidado por CPF.
A posição terá papel estratégico na fase de construção da plataforma de dados, considerada a etapa de maior risco e criticidade do produto.
- Desenvolver e manter pipelines ETL/ELT para ingestão, transformação e disponibilização de dados;
- ETL (Extract, Transform, Load): transformação antes do armazenamento;
- ELT (Extract, Load, Transform): transformação após armazenamento, mais comum em arquiteturas lakehouse;
- Implementar processos de validação e qualidade das bases de dados;
- Desenvolver e manter API interna responsável pela entrega do perfil consolidado por CPF;
- Liderar a frente de qualidade de dados, garantindo:
- Relatórios automáticos por base;
- Métricas de completude (percentual de campos preenchidos);
- Consistência de dados (ex.: validação de CPF e regras de negócio);
- Identificação de duplicidades;
- Controle de delta entre versões/cargas;
- Alertas automáticos por threshold (limites mínimos aceitáveis);
- Construir e manter mocks fiéis e dados simulados que reproduzam o comportamento real das bases;
- Permitir desenvolvimento antes da integração com bases reais;
- Garantir substituição transparente entre ambiente mock e real, sem impacto na API;
- Garantir que perfis parciais com flags sejam o comportamento padrão da solução, evitando quebra de fluxo em cenários de ausência de dados;
- Implementar testes automatizados voltados à completude, consistência e qualidade dos dados;
- Experiência sólida com pipelines de dados e qualidade de dados;
- Vivência com tratamento de dados não estruturados e baixa qualidade (“dados sujos” do mundo real);
- Experiência com processos de:
- Uniformização de dados;
- Deduplicação;
- Validação e saneamento de bases;
- Capacidade de estruturar testes automatizados de qualidade e consistência de dados;
- Perfil pragmático e confortável com abordagem mock-first;
- Boa capacidade analítica e foco em construção de soluções escaláveis.
Python
- Pandas (volumes menores)
- PySpark (caso necessário)
Dados & Pipelines
- Orquestração de pipelines
- Processamento e qualidade de dados
Cloud
Ferramentas e tecnologias poderão variar conforme a volumetria e arquitetura definitiva da solução.