Estamos em busca de uma pessoa Senior SRE / Cloud Engineer para atuar na sustentação e evolução da infraestrutura que suporta soluções baseadas em Inteligência Artificial em Oracle Cloud Infrastructure (OCI). Procuramos alguém com sólida experiência em Cloud, Kubernetes e automação de infraestrutura, capaz de garantir alta disponibilidade, escalabilidade, observabilidade e eficiência operacional de ambientes críticos que suportam agentes de IA e aplicações de alta demanda.Essa pessoa terá papel fundamental na evolução da plataforma, atuando em iniciativas de infraestrutura como código, observabilidade, automação, otimização de custos e confiabilidade operacional.
Projetar, implementar e evoluir a infraestrutura em Oracle Cloud Infrastructure (OCI) para suportar aplicações e agentes de Inteligência Artificial.
Administrar clusters Kubernetes (OKE), garantindo disponibilidade, escalabilidade e alta performance.
Automatizar o provisionamento de infraestrutura utilizando Terraform e boas práticas de Infrastructure as Code (IaC).
Implementar estratégias de autoscaling, observabilidade e monitoramento para ambientes distribuídos.
Gerenciar redes, segurança e controle de acesso em ambientes OCI.
Atuar na gestão de segredos, configuração de ambientes e automação operacional.
Monitorar indicadores de disponibilidade, performance e confiabilidade, promovendo melhorias contínuas.
Contribuir para iniciativas de FinOps, buscando otimização de custos e utilização eficiente da infraestrutura.
Experiência sólida com Oracle Cloud Infrastructure (OCI).
Experiência com Kubernetes, preferencialmente Oracle Kubernetes Engine (OKE).
Conhecimento em Terraform e práticas de Infrastructure as Code (IaC).
Experiência com redes em ambientes cloud, incluindo VCN, NSG e Service Gateway.
Conhecimento em observabilidade, monitoramento e troubleshooting utilizando OCI Monitoring, Logging e APM ou ferramentas equivalentes.
Experiência com práticas de SRE, confiabilidade, disponibilidade e definição de SLIs/SLOs.
Vivência com ambientes distribuídos, automação operacional e CI/CD.
Boa capacidade analítica, resolução de problemas e atuação colaborativa.
Experiência com FinOps aplicado a ambientes de Inteligência Artificial.
Conhecimento em Service Mesh e comunicação segura entre serviços (mTLS).
Experiência com OCI Streaming ou plataformas de mensageria compatíveis com Kafka.
Vivência com runtimes para inferência em GPU, como vLLM ou NVIDIA Triton.
Experiência com ambientes de IA Generativa, Large Language Models (LLMs) ou plataformas de agentes inteligentes.