Estamos em busca de um(a) Especialista de Storage para integrar o time de Storage & Compute da PWS Cloud e liderar a construção, operação e evolução da camada de armazenamento distribuído da plataforma. Trata-se de uma posição altamente técnica, voltada para um profissional com domínio profundo em tecnologias de armazenamento — desde plataformas distribuídas open source como Ceph até soluções enterprise como PureStorage e outros appliances de alto desempenho. Não apenas como administrador, mas como engenheiro(a) capaz de projetar topologias de armazenamento, diagnosticar degradações de performance em baixo nível evoluir a plataforma desenvolvendo abstrações, serviços e componentes para suportar os produtos de Object Storage e Block Storage.
Responsabilidades e atribuições
Arquitetura e Operação do plataforma de armazenamento:
-
Projetar, implantar e evoluir clusters armazenamento em topologia multi-AZ, garantindo distribuição de dados, tolerância a falhas e isolamento entre zonas de disponibilidade;
-
Administrar todos os componentes do Ceph — MON, MGR, OSD, MDS e RGW — incluindo tuning de CRUSH maps, definição de regras de placement e balanceamento de PGs;
-
Administrar appliances de armazenamento enterprise (PureStorage e equivalentes) — incluindo provisionamento de volumes, políticas de QoS, replicação e integração com a plataforma via APIs nativas;
- Executar operações de manutenção e expansão do cluster (adição de OSDs, rebalanceamento, substituição de hardware falho) com impacto mínimo sobre os workloads em produção;
-
Diagnosticar e resolver degradações de performance nas camadas de armazenamento — Ceph (OSD, slow requests, back pressure) e appliances enterprise (latência de I/O, saturação de portas, utilização de cache);
-
Planejar e executar upgrades de versão e firmware das plataformas de armazenamento (Ceph e appliances enterprise), garantindo compatibilidade com a stack de Compute e os clientes de armazenamento.
Produtos de Armazenamento:
-
Operar e evoluir os serviços de Object Storage S3-compatible da plataforma (Ceph RGW, PureStorage FlashBlade e equivalentes) — incluindo configuração de multi-site replication, bucket policies, lifecycle management e quotas por tenant;
-
Gerenciar os recursos de Block Storage da plataforma — pools RBD no Ceph e volumes em appliances enterprise como PureStorage FlashArray — garantindo QoS, isolamento de I/O entre tenants e integração consistente com os hosts de compute;
-
Validar performance de I/O dos produtos de armazenamento em cenários de produção — benchmarks de throughput, latência e IOPS para diferentes classes de storage;
-
Implementar e manter políticas de tiering de dados (hot/warm/cold) e estratégias de compressão e deduplicação para otimização de capacidade.
Observabilidade e Operação:
-
Implementar instrumentação de observabilidade das plataformas de armazenamento — métricas de saúde, utilização, latência, throughput e alertas de capacidade para Ceph e appliances enterprise;
-
Participar das rotinas de on-call e resposta a incidentes de Storage, com capacidade de diagnosticar e recuperar falhas de OSD, degradação de PGs e split-brain de MONs;
-
Produzir documentação técnica de arquitetura, runbooks operacionais e postmortems, garantindo a memória técnica do time de Storage.
Requisitos e qualificações
Armazenamento Distribuído e Enterprise:
-
Experiência sólida com plataformas de armazenamento em produção — Ceph (clusters multi-OSD e multi-AZ) e/ou appliances enterprise como PureStorage, Dell ou equivalentes;
-
Profundo conhecimento do modelo de dados do Ceph: CRUSH algorithm, PGs, pools, placement groups e estratégias de rebalanceamento;
-
Experiência com Ceph RBD para integração com Hypervisor KVM e Ceph RGW para entrega de Object Storage S3-compatible.
Infraestrutura como Código e Automação:
-
Experiência com ferramentas de gestão declarativa de storage — ceph-ansible, Rook ou cephadm para Ceph e/ou automação via APIs REST de appliances enterprise (ex: PureStorage Purity REST API);
-
Proficiência em Terraform/OpenTofu e Ansible para automação de infraestrutura de storage;
-
Capacidade de escrever scripts em Python e Bash para automação de operações de cluster, análise de métricas e integração com APIs de plataforma.
Sistemas e Networking:
-
Conhecimento de tuning de kernel Linux para cargas de storage — I/O schedulers, filesystem (XFS/ext4), configuração de discos NVMe e HDD para Ceph OSD;
-
Familiaridade com redes de alta velocidade para backends de storage — RDMA, jumbo frames, separação de redes OSD public/cluster;
-
Compreensão dos padrões S3 — operações de API, autenticação SigV4, multipart upload e compatibilidade com clientes AWS.
Informações adicionais
Será considerado um diferencial:
-
Experiência com armazenamento em escala de petabytes em ambiente de nuvem multi-tenant (Ceph, PureStorage FlashBlade ou equivalentes);
-
Conhecimento de integração entre gateways de Object Storage e Keycloak/OIDC para autenticação de clientes S3;
-
Familiaridade com monitoramento de plataformas de armazenamento via Prometheus/Grafana, incluindo dashboards para Ceph e integração com APIs de telemetria de appliances enterprise;
-
Contribuições a projetos open source ou comunidades relacionadas a armazenamento distribuído, Object Storage ou Block Storage.
A PWS Cloud é uma empresa brasileira com 15 anos de experiência em tecnologia, com atuação em cloud, infraestrutura, cibersegurança e serviços gerenciados. Reconhecida pelo atendimento consultivo e execução ponta a ponta, apoia empresas na modernização e proteção de ambientes críticos, com foco em confiabilidade e performance.
Com uma abordagem orientada ao negócio, a PWS Cloud entende os desafios específicos de cada cliente e constrói soluções sob medida, alinhadas às necessidades operacionais e estratégicas de cada organização. Seu portfólio integra tecnologias de ponta com práticas consolidadas de governança, garantindo não apenas eficiência, mas também segurança e escalabilidade.
Nós atuamos como parceira na jornada de transformação digital, viabilizando a migração e evolução de ambientes on-premises para a nuvem, a otimização de custos operacionais e o aumento da resiliência dos sistemas. Além disso, oferece suporte contínuo e monitoramento proativo, assegurando alta disponibilidade e rápida resposta a incidentes.
Com expertise em ambientes complexos e missão crítica, a PWS Cloud se posiciona como um player estratégico para empresas que não podem parar, entregando soluções robustas que sustentam crescimento, inovação e vantagem competitiva.