Akamai Technologies

Senior II Site Reliability Engineer

Vaga remota de Site Reliability Engineer com fit claro de localização do candidato.

Publicada4 de jul. de 2026

Países elegíveis2 países aceitos

Sinal de senioridadeSenior

Modelo de trabalhoRemoto

Locais aceitos para candidatos

CanadáPolônia

Posso mesmo aplicar?Confira a lista de países

Países aceitos para candidatos estão listados (2).

Atualidade da fonte4 de jul. de 2026

Fit de localização2 países aceitos

Match de stackKubernetes, Python

Caminho de aplicaçãoSite da empresa

Resumo de fit da MiraPor que vale revisar esta vaga

Fit de localização2 países aceitosAdicione seu país

Match de stackAdicione skills ao perfil para compararKubernetes, Python

Sinal de senioridadeSeniorDefina seu nível para uma análise mais precisa.

Prontidão para aplicarSite da empresaA aplicação continua no site da empresa.

Aplicação

Aplicar no site da empresa

Aplicação externa

Aplicando paraSenior II Site Reliability EngineerAkamai Technologies

Fit de país2 países aceitos

Caminho de aplicaçãoSite da empresa

WithMiraSalve ou assine antes de sair

Aplicação da empresa

O WithMira mantém esta vaga para descoberta. A aplicação continua no site da empresa.

Resumo da vaga

Conteúdo da vaga extraído em seções para revisão mais rápida.

Owning the SRE infrastructure lifecycle from design reviews and pre-rollout readiness assessments through production sign-off and ongoing reliability management
Designing and implementing frameworks that reflect customer experience for load balancing services and driving action when error budgets are at risk
Building and maintaining observability pipelines from load-balancing components and system-level sources to dashboards that enable rapid incident triage
Leading technical incident response for complex NB/NLB failures, acting as the technical commander and driving root cause analysis and preventive follow-through
Developing and automating safe deployment workflows for phased releases, including bake-period monitoring, feature flag management, and validation across global datacenter rollouts
Reviewing design documents, product-requirement documents and producing actionable SRE input on operational risks, capacity implications, Day-2 concerns, and product strategy gaps
Building automation and tooling using Python or Go that reduces operational toil and improves team-wide operational capability

8+ years of experience in SRE, infrastructure engineering, or platform engineering, working with large-scale distributed systems
Demonstrate deep expertise with Linux networking fundamentals and diagnosing at the packet level using tcpdump, netstat, and similar tools
Have hands-on experience with L4/L7 load balancing technologies covering configuration, health checking, high availability, and failure modes at scale
Show a track record of defining SLO/SLI frameworks, building observability platforms from scratch, and running incident management processes at scale
Demonstrate expertise in Kubernetes and containerization at scale including workload scheduling, networking, resource management, and operating stateful or network-intensive workloads in a cluster environment
Build automation and tooling using Python or Go, with infrastructure-as-code experience (SaltStack, Ansible, or Terraform) and deployment safety instincts

Vagas similares