O que é a nstech?
A nstech é a mais completa plataforma open logistics do mundo, construindo o futuro digital do transporte de cargas junto a todo o ecossistema logístico. Nosso objetivo é conectar e transformar a cadeia logística, oferecendo centenas de soluções integradas em um único lugar. Acreditamos no poder da tecnologia para melhorar o mundo, reduzindo a emissão de CO2, acidentes e roubos.
Estamos em busca de profissionais apaixonados e determinados para se juntarem a nós como Analista SRE - SR. Se você tem vontade de aprender, transformar a logística e mobilidade e fazer a diferença, essa é a sua oportunidade!
Esse profissional será responsável por coordenar tecnicamente e operacionalmente os analistas SRE, garantindo alta disponibilidade, estabilidade, performance e evolução contínua dos serviços e processos operacionais.
A posição exige forte capacidade de liderança técnica, gestão de incidentes críticos, tomada de decisão sob pressão e atuação colaborativa junto aos times de Engenharia, DevOps, Infraestrutura, Arquitetura e Negócio.
O(a) SRE Senior será peça-chave na evolução da maturidade operacional da empresa, promovendo práticas de observabilidade, automação, confiabilidade, governança operacional e cultura SRE.
Principais Responsabilidades
Liderança Técnica e Gestão do Time
- Liderar e desenvolver o time de analistas SRE/Sustentação.
- Atuar como referência técnica em troubleshooting, estabilidade e confiabilidade.
- Distribuir demandas e acompanhar prioridades operacionais.
- Apoiar o desenvolvimento técnico e comportamental da equipe.
- Conduzir rituais operacionais, alinhamentos técnicos e acompanhamento de indicadores.
- Garantir aderência aos processos operacionais e boas práticas de sustentação.
- Atuar na gestão de escalonamentos técnicos e incidentes críticos.
Gestão de Operação e Confiabilidade
- Garantir a estabilidade e disponibilidade das aplicações críticas.
- Coordenar ações de resposta a incidentes de alta severidade.
- Garantir cumprimento de SLAs, SLIs e SLOs.
- Garantir processos de:
- Incident Management
- Problem Management
- Change Management
- Coordenar análises de causa raiz (RCA) e planos de ação.
- Conduzir revisões pós-incidente e iniciativas preventivas.
- Atuar na redução de MTTR e recorrência de falhas.
Sustentação de Aplicações .NET
- Apoiar tecnicamente o time na sustentação de aplicações:
- .NET
- .NET Core
- ASP.NET
- APIs REST
- Participar de investigações complexas envolvendo:
- degradação de performance
- falhas de integração
- erros sistêmicos
- consumo excessivo de recursos
- Apoiar engenharia na análise de problemas em produção.
- Garantir evolução contínua da estabilidade das aplicações.
Observabilidade e Monitoramento
- Liderar a estratégia de observabilidade da operação.
- Evoluir monitoramento proativo e redução de alertas ruidosos.
- Garantir qualidade operacional dos indicadores de monitoração.
- Atuar na definição de indicadores de saúde das aplicações.
Automação e Eficiência Operacional
- Identificar oportunidades de automação operacional.
- Promover redução de atividades manuais e operacionais repetitivas.
- Incentivar desenvolvimento de scripts e ferramentas internas.
- Apoiar evolução de pipelines de deploy e processos operacionais.
- Contribuir para maturidade DevOps/SRE da organização.
Infraestrutura, Cloud
- Atuar em conjunto com times de Infraestrutura e DevOps em:
- ambientes cloud
- containers
- conectividade entre serviços
- capacity planning
- estabilidade operacional
- Apoiar decisões técnicas relacionadas à resiliência e escalabilidade.
- Participar de análises de impacto e gestão de risco operacional.
Governança e Melhoria Contínua
- Estruturar e evoluir documentação operacional:
- runbooks
- playbooks
- procedimentos de contingência
- fluxos operacionais
- Garantir disseminação de conhecimento no time.
- Propor melhorias contínuas nos processos operacionais.
- Atuar na evolução da cultura de confiabilidade e ownership.
Requisitos Técnicos
- Experiência sólida com sustentação de aplicações críticas e operação de ambientes produtivos.
- Forte conhecimento em:
- .NET / .NET Core
- ASP.NET
- APIs REST
- C#
- SQL Server
- Experiência avançada em troubleshooting e análise de incidentes.
- Vivência com ferramentas de observabilidade e APM:
- Grafana
- DataDog
- Elastic
- Zabbix
- Dynatrace
- New Relic
- Experiência com ambientes cloud:
- Conhecimento em:
- Docker
- Kubernetes
- CI/CD
- automação operacional
- Experiência em gestão operacional e liderança técnica.
Desejáveis
- Experiência prévia liderando times SRE, NOC ou Sustentação.
- Conhecimento em arquitetura distribuída e microsserviços.
- Vivência em ambientes de alta disponibilidade e missão crítica.
- Conhecimento em engenharia de confiabilidade (SRE practices).
- Experiência com FinOps e otimização operacional.
- Conhecimento em segurança operacional e governança.
Requisitos de Experiência
- 6+ anos de experiência em:
- sustentação de aplicações
- operações críticas
- SRE
- DevOps
- suporte avançado
- Pelo menos 2 anos em posição de liderança técnica ou coordenação.
- Experiência em ambientes complexos e de alta criticidade.
- Vivência em gestão de incidentes críticos e crises operacionais.
- Experiência trabalhando próximo a times de Engenharia e Arquitetura.
Certificações Desejáveis
- ITIL Foundation ou superiores.
- Certificações cloud:
- Azure Administrator / Architect
- AWS Solutions Architect
- Google Professional Cloud
- Certificações Kubernetes:
- Certificações DevOps/SRE.
- Certificações Microsoft (.NET / Azure).
- Certificações observabilidade/APM.
Perfil Comportamental
- Forte capacidade analítica e tomada de decisão.
- Liderança técnica colaborativa.
- Capacidade de atuar sob pressão e em cenários críticos.
- Excelente comunicação interpessoal.
- Perfil hands-on e orientado à resolução de problemas.
- Visão sistêmica e foco em melhoria contínua.
- Mentalidade de ownership e confiabilidade.
- Capacidade de desenvolver pessoas e elevar maturidade técnica do time.
- Organização e capacidade de priorização.
Indicadores de Sucesso
- Redução de MTTR.
- Redução de incidentes recorrentes.
- Aumento da disponibilidade dos sistemas.
- Evolução da maturidade operacional e observabilidade.
- Redução de alertas ruidosos.
- Aumento da automação operacional.
- Melhoria da satisfação dos times internos.
- Evolução técnica do time SRE.
- Cumprimento de SLAs/SLOs.
Diferencial Estratégico da Posição
O Senior não será apenas operacional, mas sim um agente de transformação da confiabilidade da plataforma, ajudando a empresa a evoluir de uma sustentação reativa para uma cultura moderna de engenharia de confiabilidade, automação e excelência operacional.