O que procuramos?
Atribuições principais:
Desenvolvimento de Pipelines de Dados (ETL/ELT): Desenhar, construir e manter pipelines de dados escaláveis e de alta performance utilizando PySpark, AWS Glue, Databricks e AWS EMR para processamento de grandes volumes de dados.
Arquitetura de Data Lake e Data Warehouse: Estruturar e gerenciar o armazenamento de dados no AWS S3 (Data Lake) e construir modelos analíticos eficientes no Redshift (Data Warehouse), garantindo a integridade, segurança e governança da informação.
Orquestração de Workflows: Criar, monitorar e otimizar DAGs no Apache Airflow para garantir a execução confiável de rotinas de ingestão, transformação e carga de dados, gerenciando dependências complexas.
Processamento em Tempo Real e Orientado a Eventos: Desenvolver arquiteturas de streaming de dados e automatizar processos leves e baseados em eventos.
Migração e Replicação de Dados: Implementar rotinas de Change Data Capture (CDC) e migração de bancos de dados relacionais e não-relacionais utilizando o AWS DMS.
Disponibilização de Dados para Analytics: Otimizar e particionar dados em Delta para habilitar consultas ad-hoc rápidas e eficientes através do AWS Athena, além de suportar times de BI e Ciência de Dados.
Monitoramento e Performance: Identificar gargalos, realizar tuning de queries SQL e jobs Spark, e garantir a saúde da infraestrutura de dados.
Requisitos:
Linguagens de Programação: Domínio avançado em Python e SQL.
Big Data & Computação Distribuída: Forte experiência com PySpark e noções sólidas sobre o funcionamento de clusters e otimização de processamento distribuído (Spark UI, gestão de memória, shuffling).
Ecossistema AWS: Experiência prática consolidada na configuração e uso de S3, EMR, Glue, Athena, Lambda, Kinesis, DynamoDB e DMS.
Databricks: Familiaridade com a plataforma Databricks, uso de notebooks, clusters e integração com Data Lakes.
Google Cloud Platform (GCP): Experiência avançada em modelagem, particionamento e otimização de custos e consultas no Google BigQuery.
Orquestração: Experiência na criação e manutenção de pipelines no Airflow (Python Operators, Sensors, XComs).
Engenharia de Software: Conhecimento em versionamento de código (Git), CI/CD aplicados a dados e boas práticas de clean code.
Localidade da posição:
Esta é uma posição Anywhere Office, você irá atuar 100% remoto.
Quem é a Insi?
Somos uma consultoria especializada em evolução digital. Mas, acima de tudo, somos uma empresa de gente. Gente que ouve antes de propor. Que vai ao essencial antes de apresentar solução. Que mede sucesso pelo que mudou de verdade, não pelo que foi implementado.
Com mais de três décadas de história e presença global, acreditamos que a verdadeira transformação começa dentro: dentro das pessoas, das equipes, das organizações — e é essa convicção que orienta cada escolha que fazemos, cada projeto que entregamos, cada pessoa que desenvolvemos.
Por que construir sua carreira na Insi?
Porque aqui você pensa, decide e cria junto. Oferecemos autonomia, metas claras e um ambiente onde os Insiders têm espaço para interagir com diferentes tecnologias, participar de projetos desafiadores, trazer novas ideias e trabalhar de qualquer lugar do Brasil e (por que não?) do mundo.
Somos uma das melhores empresas para se trabalhar no Brasil segundo o Great Place to Work e estamos entre os 10 melhores empregadores do Brasil segundo a revista TIME.
Quais são nossos valores?
-
Somos pessoas servindo pessoas
-
Pensamos e agimos como donos
-
Temos gana por performance
-
Crescemos e aprendemos juntos
-
Buscamos excelência e a simplicidade
-
Atuamos com criatividade e inovação
Todas as pessoas são bem-vindas independentemente de sua condição, deficiência, etnia, crença religiosa, orientação sexual, aparência, idade ou afins. Queremos que você cresça conosco em um ambiente acolhedor e repleto de oportunidades.
Se identificou? Então, #VemSerInsi!