Oportunidade Híbrida- Avenida Paulista- 2X na Semana
Buscamos um(a) Tech Lead de Dados com experiência na concepção, arquitetura e implementação da camada decisional sobre a plataforma Databricks. Esse profissional será responsável por guiar a estratégia de engenharia de dados, garantindo a excelência técnica em modelagem, ingestão multi-origem e processamento em larga escala, além de atuar como interface técnica entre os arquitetos do cliente e o time de execução.
Responsabilidades e Atribuições:
- Desenhar e implementar a arquitetura de dados na plataforma Databricks, utilizando padrões de Medallion Architecture (Bronze, Silver, Gold).
- Definir estratégias de ingestão para múltiplas origens (Teradata, DB2, SQL Server, Oracle, SAS, HIVE), garantindo a integridade via CDC e Streaming.
- Estabelecer padrões de governança de dados, observabilidade e contratos de integração via API REST.
- Liderar tecnicamente engenheiros de níveis pleno/júnior, realizando code reviews e garantindo o cumprimento das melhores práticas de engenharia.
- Realizar a interlocução técnica com arquitetos e stakeholders para alinhamento de soluções e requisitos.
- Estruturar o Context Store e definir as fontes oficiais por domínio de dados.
- Implementar e monitorar testes de qualidade automatizados (usando Great Expectations ou DLT expectations).
- Otimizar o custo e performance de workloads (dimensionamento de clusters e eficiência de processamento).
- Gerenciar a complexidade técnica de ingestão de dados provenientes de ecossistemas heterogêneos (Mainframe, On-premises e Cloud).
- Garantir a automação completa do ciclo de vida dos dados através de pipelines de CI/CD.
Requiistos:
- Sólida experiência com Databricks (Unity Catalog, DLT - Delta Live Tables, Workflows e Jobs).
- Domínio em PySpark avançado (otimização de clusters, broadcast joins, particionamento e AQE).
- Experiência avançada em SQL (Window Functions, CTEs, Query Tuning).
- Conhecimento profundo em Modelagem de Dados (Dimensional, Data Vault e Medallion).
- Experiência prática com ferramentas de CDC (Debezium, GoldenGate ou Lakeflow Connect) e Streaming (Kafka ou Azure Event Hub).
- Familiaridade com integração de APIs REST (OAuth/JWT, Idempotência).
Diferenciais:
- Certificação Databricks Certified Data Engineer Professional.
- Experiência em migração de Hive Metastore para Unity Catalog.
- Conhecimento em tuning de performance avançado (Z-Ordering, Liquid Clustering).
- Experiência prévia em projetos no setor de Seguros ou Bancário.
Tecnologias:
- Plataforma principal: Databricks (Delta Lake, Unity Catalog, DLT, Lakeflow).
- Linguagens: Python (PySpark) e SQL.
- Cloud: Azure (Event Hub, Storage).
- Bancos e Origens: Teradata, DB2, Oracle, SQL Server, SAS e Hive.
- Streaming/Mensageria: Kafka e Structured Streaming.
- Qualidade e Governança: Great Expectations e Unity Catalog.