Engenheiro de Dados Senior

mazzatech -
Remoto

Candidatura rápida

Detalhes da vaga

Há 6 dias

Qualificações

Azure
Pandas
APIs
ETL
Construção Civil
Python

Descrição completa da vaga

Atuação

Profissional será responsável por construir, na prática, a arquitetura desenhada pelo Arquiteto de Dados, atuando diretamente na implementação dos pipelines de ingestão das 33 bases de dados, na camada de qualidade e na API interna responsável por entregar o perfil consolidado por CPF.

A posição terá papel estratégico na fase de construção da plataforma de dados, considerada a etapa de maior risco e criticidade do produto.

Responsabilidades

Desenvolver e manter pipelines ETL/ELT para ingestão, transformação e disponibilização de dados;
- ETL (Extract, Transform, Load): transformação antes do armazenamento;
- ELT (Extract, Load, Transform): transformação após armazenamento, mais comum em arquiteturas lakehouse;
Implementar processos de validação e qualidade das bases de dados;
Desenvolver e manter API interna responsável pela entrega do perfil consolidado por CPF;
Liderar a frente de qualidade de dados, garantindo:
- Relatórios automáticos por base;
- Métricas de completude (percentual de campos preenchidos);
- Consistência de dados (ex.: validação de CPF e regras de negócio);
- Identificação de duplicidades;
- Controle de delta entre versões/cargas;
- Alertas automáticos por threshold (limites mínimos aceitáveis);
Construir e manter mocks fiéis e dados simulados que reproduzam o comportamento real das bases;
- Permitir desenvolvimento antes da integração com bases reais;
- Garantir substituição transparente entre ambiente mock e real, sem impacto na API;
Garantir que perfis parciais com flags sejam o comportamento padrão da solução, evitando quebra de fluxo em cenários de ausência de dados;
Implementar testes automatizados voltados à completude, consistência e qualidade dos dados;

Requisitos / Experiência

Experiência sólida com pipelines de dados e qualidade de dados;
Vivência com tratamento de dados não estruturados e baixa qualidade (“dados sujos” do mundo real);
Experiência com processos de:
- Uniformização de dados;
- Deduplicação;
- Validação e saneamento de bases;
Capacidade de estruturar testes automatizados de qualidade e consistência de dados;
Perfil pragmático e confortável com abordagem mock-first;
Boa capacidade analítica e foco em construção de soluções escaláveis.

Stack / Tecnologias (hipótese inicial)

Python

Pandas (volumes menores)
PySpark (caso necessário)

Dados & Pipelines

Orquestração de pipelines
Processamento e qualidade de dados

Cloud

Azure

Ferramentas e tecnologias poderão variar conforme a volumetria e arquitetura definitiva da solução.

Candidatura rápida

Atuação

Responsabilidades

Requisitos / Experiência

Stack / Tecnologias (hipótese inicial)

Ferramentas para candidatos

Ferramentas da empresa

Pesquisar

Mantenha o contato