O que procuramos?
Buscamos um Engenheiro de Dados Sênior para atuar em projetos estratégicos de dados em ambiente cloud, com foco em Google Cloud Platform e processamento distribuído com PySpark. O profissional será responsável por projetar, construir e otimizar pipelines de dados robustos e escaláveis, garantindo a qualidade e disponibilidade das informações para as áreas de negócio e times de analytics. A posição é 100% remota e exige autonomia técnica, visão arquitetural e capacidade de liderança técnica em squads multidisciplinares.
Atribuições principais:
-
Projetar e implementar pipelines de ingestão, transformação e entrega de dados utilizando GCP e PySpark
-
Definir e evoluir a arquitetura de dados (Data Lake, Data Warehouse e Data Lakehouse) no ecossistema Google Cloud
-
Garantir a qualidade, rastreabilidade e governança dos dados ao longo de todo o ciclo de vida
-
Colaborar com times de Analytics, Data Science e Engenharia de Software para entender e atender requisitos de dados
-
Otimizar jobs de processamento distribuído visando performance, custo e escalabilidade
-
Documentar soluções técnicas, padrões e boas práticas para o time de dados
-
Atuar como referência técnica no time, apoiando revisões de código e mentoria de profissionais júnior e pleno
Requisitos Obrigatórios:
-
Experiência sólida em engenharia de dados utilizando Google Cloud Platform, com atuação em serviços como BigQuery, Dataflow, Cloud Storage, Pub/Sub e Dataproc
- Domínio de PySpark e ecossistema Apache Spark para processamento distribuído de grandes volumes de dados
- Conhecimento avançado em Python aplicado à engenharia de dados, incluindo bibliotecas como pandas, pydantic e frameworks de orquestração
- Experiência avançada em SQL e modelagem de dados, incluindo Star Schema e Data Vault
- Vivência com ferramentas de orquestração de pipelines, como Apache Airflow ou Cloud Composer
- Conhecimento em arquiteturas modernas de dados, incluindo Data Lake, Data Warehouse e Lakehouse (Delta Lake e Apache Iceberg)
- Capacidade de atuar com autonomia e ownership na condução de demandas end-to-end
- Perfil analítico, com foco em resolução de problemas e melhoria contínua
- Boa comunicação para interação com times técnicos e stakeholders de negócio
- Experiência em ambientes colaborativos e times remotos, com organização e gestão eficiente de prioridades
Diferenciais:
-
Experiência com dbt (data build tool) para transformação, versionamento e documentação de dados
- Conhecimento em infraestrutura como código utilizando Terraform para provisionamento de recursos em GCP
- Familiaridade com práticas de DataOps e CI/CD aplicadas a pipelines de dados
- Experiência com streaming de dados em tempo real utilizando Kafka, Pub/Sub ou Dataflow Streaming
- Vivência em projetos de migração de ambientes on-premise para cloud
Localidade da posição: Remoto.
Por que construir sua carreira na Insi?
Oferecemos autonomia, metas claras e um ambiente dinâmico e desafiador, onde os profissionais têm oportunidade de interagir com diferentes tecnologias, participar de todos os tipos de projetos, trazer novas ideias e trabalhar de qualquer lugar do Brasil e (por que não?) do mundo. Além disso, somos uma das melhores empresas para se trabalhar no Brasil segundo o Great Place to Work e uma das 10 empresas que mais crescem no país há 3 anos consecutivos, segundo o Anuário Informática Hoje.
Quais são nossos valores?
- Somos pessoas servindo pessoas
- Pensamos e agimos como donos
- Temos gana por performance
- Crescemos e aprendemos juntos
- Buscamos excelência e a simplicidade
- Temos inovação e criatividade no nosso DNA
Todas as pessoas são bem-vindas independentemente de sua condição, deficiência, etnia, crença religiosa, orientação sexual, aparência, idade ou afins. Queremos que você cresça conosco em um ambiente acolhedor e repleto de oportunidades.
Se identificou? Então, #VemSerInsi!