No Banco ABC Brasil, a gente acredita na autenticidade de cada um. Afinal, temos nosso jeito de fazer as coisas, de se relacionar, de transformar negócios e construir um futuro sustentável, de maneira inclusiva, respeitosa e acolhedora. Porque a gente se interessa genuinamente pelas pessoas e cria relações verdadeiras, com confiança e proximidade.
Se você tem paixão por desafios e busca um ambiente onde possa crescer profissionalmente, com autonomia para tocar grandes projetos e sendo protagonista da sua carreira, aqui é o seu lugar! Com a gente, você vai ter oportunidade de atuar diariamente com especialistas do mercado financeiro e ter o acompanhamento e apoio de lideranças estratégicas para construir o seu futuro e contribuir para o nosso crescimento em conjunto.
A gente acredita que cuidar dos nossos colaboradores é o segredo do sucesso. Por isso, oferecemos:
- Benefícios que fazem a diferença
- Opções de desenvolvimento
- Um ambiente que inspira
Estamos em busca de um(a) SRE altamente sênior com perfil "mão na massa" para assumir a linha de frente da confiabilidade e estabilidade dos nossos sistemas mais críticos.
Nesta posição, você será o(a) guardião(ã) e investigador(a) técnico (a) do nosso ecossistema. Você atuará na resolução de incidentes de altíssima complexidade em ambientes multi-cloud, com um protagonismo vital no troubleshooting avançado em nosso ambiente. Seu papel é dominar a operação de baixo nível, garantindo eficiência, segurança e disponibilidade pautadas na cultura SRE.
Está pronto(a) para fazer parte de um time que transforma desafios em oportunidades? Vem com a gente!
Responsabilidades e atribuições
Como SRE Sr., o seu dia a dia terá foco em resolução de problemas estruturais. Suas principais missões serão:
Gestão de Confiabilidade, Incidentes e Cultura SRE
-
Acompanhar métricas vitais (SLIs e SLOs);
-
Atuar como Nível de Escalonamento Máximo para a Gestão de Problemas na área de SRE;
-
Liderar investigações profundas de incidentes crônicos ou estruturais (Root Cause Analysis - RCA), transformando falhas repetitivas em backlog de engenharia para redução de débito técnico;
-
Atuar em incidentes em crises severas e conduzir Post-Mortems rigorosos.
Planejamento de Capacidade (Capacity Planning) e DR
-
Executar Capacity Planning preditivo para evitar gargalos em períodos de alta sazonalidade.
-
Conduzir testes complexos e cenários reais de Disaster Recovery (DR).
Administração Avançada de SO
-
Realizar troubleshooting complexo de performance em ambientes heterogêneos;
-
Linux: Atuação a nível de Kernel (tuning de sysctl, namespaces, cgroups);
-
Windows Server: Resolução de gargalos estruturais (IIS, WMI, Registry tuning), automação avançada via PowerShell e gestão de identidades (Active Directory / Entra ID);
-
Atuar em throubleshooting avançado em redes (Nuvem e Onprem)
Governança Avançada, Resiliência e Operação de Kubernetes
-
Operação e Estabilidade em Larga Escala: Liderar a operação, manutenção e evolução contínua de dezenas de clusters Kubernetes de missão crítica (EKS), garantindo a estabilidade extrema, atualização (upgrades) e saúde tanto do Control Plane quanto dos Worker Nodes.
-
Padrões de Confiabilidade (SRE no K8s): Garantindo a correta utilização de Pod Disruption Budgets (PDBs), Resource Quotas, LimitRanges e Priority Classes, além de monitorar e ajustar a alocação de QoS (Quality of Service) para mitigar OOMKills e CPU Throttling.
-
Troubleshooting e Tuning: Atuar como nível máximo de escalonamento para investigações complexas e incidentes críticos no ecossistema Kubernetes. Realizar tuning de performance do API Server e debug avançado de gargalos.
-
Troubleshooting Avançado em Kubernetes (EKS): Atuar como escalonamento para problemas complexos em EKS. Você fará a investigação profunda de gargalos e falhas de rede (VPC CNI, CoreDNS, Ingress/Egress, Service Mesh), isolamento de CrashLoops obscuros, contenção de OOMKills, análise de latência no Control Plane, problemas de scheduling, escalabilidade (Cluster Autoscaler/Karpenter) e falhas em Persistent Volumes.
-
Redução de Toil e Autorrecuperação: Eliminar o trabalho operacional manual (toil) garantindo a automação do ciclo de vida dos clusters e seus add-ons (estritamente via GitOps), além de atuar na implantação e troubleshooting de Custom Operators (CRDs) para automatizar a resposta a incidentes dentro do cluster.
Infraestrutura como Código (IaC), GitOps e FinOps
-
Arquitetar e manter módulos complexos e reutilizáveis via Terraform e/ou CloudFormation, definindo a estratégia de State Management para times distribuídos;
-
Atuar com GitOps (ArgoCD ou FluxCD), garantindo o repositório Git como única fonte da verdade (Single Source of Truth);
-
Liderar a governança financeira (FinOps): estruturar tags para Chargeback/Showback, remover recursos ociosos, aplicar rightsizing agressivo e gerir instâncias Spot e compromissos (Savings Plans/RI).
Requisitos e qualificações
Requisitos e Qualificações
Formação Acadêmica:
-
Graduação completa (Bacharelado ou Tecnólogo) em Ciência da Computação, Engenharia da Computação, Sistemas de Informação ou áreas correlatas.
Experiência Comprovada Exigida:
-
Práticas de SRE e Engenharia de Confiabilidade (SLIs, SLOs, Error Budgets, Post-Mortems);
-
Sistemas Operacionais (Linux nível Kernel e Windows avançado);
-
Computação em Nuvem AWS;
-
Computação em Nuvem Azure;
-
Computação em Nuvem GCP;
-
Containers e Orquestração (EKS, Service Mesh);
-
Infraestrutura como Código (IaC) com foco em Terraform avançado e/ou CloudFormation;
-
Observabilidade e Monitoramento (Datadog, Prometheus, Grafana, ELK Stack);
-
CI/CD e Automação de Pipelines (GitLab CI, GitHub Actions, Azure DevOps);
-
Práticas de GitOps (ArgoCD);
-
Sistemas de mensageria (SNS/SQS, Kafka);
-
Segurança Cloud / DevSecOps (IAM, Zero Trust, WAF, KMS, SAST/DAST);
-
Vivência com FinOps e otimização de custos em nuvem.
Certificações Desejáveis / Diferenciais (Recomendadas para o nível da vaga):
-
AWS: AWS Certified Solutions Architect - Professional e/ou AWS Certified DevOps Engineer - Professional;
-
GCP: Google Cloud Professional Cloud Architect e/ou Professional Cloud DevOps Engineer;
-
Azure: Microsoft Certified: Azure Solutions Architect Expert e/ou DevOps Engineer Expert;
-
Cloud Native: CKA (Certified Kubernetes Administrator), CKS (Certified Kubernetes Security Specialist).
Informações adicionais
-
Assistência Médica;
-
Assistência Odontológica Omint;
-
Seguro de Vida;
-
PLR;
-
PPR;
-
ABC com Você: um programa que cuida dos colaboradores e seus familiares, com assistência jurídica, social, psicológica e financeira;
-
Vale Refeição;
-
Vale Alimentação;
-
Licença Paternidade e Maternidade estendidas: paternidade 20 dias e maternidade 6 meses;
-
Auxílio Creche/Babá;
-
Day Off anual;
-
Auxílio Home Office;
-
Auxílio Infraestrutura para Home Office;
-
TotalPass;
Somos o ABC Brasil. O banco múltiplo com mais de 35 anos de história, especialistas em soluções financeiras e que impulsiona grandes negócios do país - combinando solidez internacional com a agilidade de uma gestão local, próxima e autônoma.
Com um portfólio completo de produtos e serviços, nosso foco está em gerar impacto real nos nossos clientes, evoluindo com o mercado e conforme as necessidades de cada um deles, sempre com responsabilidade, integridade e confiança mútua.
E esta forma de nos relacionarmos nos torna únicos. Acreditamos que conexões verdadeiras e com respeito às diferenças constrói um ambiente colaborativo, humano e inspirador. Aqui, cada pessoa pode ser quem é - e crescer com autonomia e protagonismo.
ABC Brasil. O banco de quem é singular.
#EuSouSingular #SouABCBrasil #ABCBrasil