Estamos em busca de um profissinal com Visão de dados de ponta a ponta — define como as 33 bases entram, são padronizadas, versionadas e expostas para o resto da plataforma.Lidera as decisões estruturantes de dados no início do projeto e produz o blueprint que o Engenheiro de Dados executa.Desenvolvimento da plataforma de monitoramento inteligente do agronegócio para acelerar projetos de crédito agricola no agronegócio
Responsabilidades
- Desenhar o modelo de dados central (perfil agregado do produtor por CPF ou Criação de chave unica para correlacionamento das bases)
- Definir a estratégia de versionamento de dados (como manter histórico e reprodutibilidade das informações ao longo do tempo)
- Decidir entre lakehouse e data warehouse (DW) conforme a volumetria se revelar
- Ser accountable por:
- Validação das bases
- Desenho dos pipelines
- Definir:
- Particionamento (como os dados são organizados fisicamente para performance, ex.: por data, região, CPF)
- Estratégias de cache (redução de latência de consulta)
- Cruzamento CPF CAR
- CPF: identificador do produtor rural (pessoa física)
- CAR (Cadastro Ambiental Rural): registro público obrigatório de imóveis rurais no Brasil, com dados geográficos e ambientais
- Cruzamento CPF CAR: associação entre o produtor (CPF) e os imóveis rurais (CAR), necessária porque:
- o crédito é concedido à pessoa (CPF)
- mas várias informações relevantes (ambientais, produtivas, risco) estão ligadas ao imóvel
- Tratamento das bases geométricas
- Dados espaciais (polígonos de imóveis)
“Casam por imóvel, não por CPF”- join é geográfico, não apenas por identificado
Experiência
- Sênior em arquitetura/engenharia de dados em escala real
- Domínio de lakehouse e processamento distribuído (Spark/Databricks), com maturidade para não sobre-dimensionar
- Capacidade de arquitetar sob incerteza (começar simples e escalar com base em medição)
- Vivência com dados governamentais/heterogêneos (diferencial — pela diversidade de formatos e qualidade)
Stack
- Azure Data Services
- Databricks / PySpark (caso a volumetria exija)
- Modelagem dimensional ou lakehouse
- A confirmar nos ADRs no início do projeto de MVP