GE Vernova

SRE Platform Engineer

Vaga remota de Site Reliability Engineering com fit claro de localização do candidato.

Publicada20 de jun. de 2026

Países elegíveis9 países aceitos

Sinal de senioridadeSenior

Modelo de trabalhoRemoto

Locais aceitos para candidatos

AustráliaCanadáAlemanhaÍndiaIrlandaPaíses Baixos+3 mais

AWS Kubernetes Python

Posso mesmo aplicar?Confira a lista de países

Países aceitos para candidatos estão listados (9).

Atualidade da fonte20 de jun. de 2026

Fit de localização9 países aceitos

Match de stackAWS, Kubernetes

Caminho de aplicaçãoSite da empresa

Resumo de fit da MiraPor que vale revisar esta vaga

Fit de localização9 países aceitosAdicione seu país

Match de stackAdicione skills ao perfil para compararAWS, Kubernetes

Sinal de senioridadeSeniorDefina seu nível para uma análise mais precisa.

Prontidão para aplicarSite da empresaA aplicação continua no site da empresa.

Aplicação

Aplicar no site da empresa

Aplicação externa

Aplicando paraSRE Platform EngineerGE Vernova

Fit de país9 países aceitos

Caminho de aplicaçãoSite da empresa

WithMiraSalve ou assine antes de sair

Aplicação da empresa

O WithMira mantém esta vaga para descoberta. A aplicação continua no site da empresa.

Aplicar no site da empresa

Salvar vaga

Resumo da vaga

SRE Platform Engineer

Requisitos e responsabilidades

Conteúdo da vaga extraído em seções para revisão mais rápida.

Day 0: Provision & Infrastructure Hardening

Kubernetes Cluster Orchestration: Help design and deploy hardened EKS clusters across multiple AWS regions, ensuring consistent security baselines.
Infrastructure as Code (IaC): Build and maintain reusable Terraform and Ansible modules for automated provisioning of cloud infrastructure services including networking services, compute, storage, queue and cache, etc.
Security Architecture: Implement "Policy as Code" guardrails and secure network perimeters (ESPs) in alignment with NERC CIP and IEC 62443 standards.
Operationalize Cloud Infrastructure: Standardize run books, operating processes required to run critical infrastructure with highest reliability.

Day 1: Platform Readiness & Scaling

Resource Governance: Define and enforce Kubernetes resource quotas, limit ranges, and Pod Priority classes to ensure mission-critical services receive prioritized compute resources.
Connectivity & Ingress: Manage the ingress strategy and service mesh architecture to facilitate secure, performant connectivity between distributed micro services.
Acceptance Testing:Lead platform-level smoke, load testing and disaster recovery exercises to validate that the infrastructure can meet 99.99% uptime targets.
Sizing & Optimization: Partner with application teams to right-size containerized workloads, optimizing for both performance and cloud cost (FinOps).

Day 1: Platform Readiness & Scaling

L3 Escalation: Act as the highest technical escalation point for complex Kubernetes internals, troubleshooting issues such as failed pods, memory leaks, and network partitions.
Incident Response: Lead root cause analysis (RCA) for platform-level outages, implementing systemic fixes to prevent recurring failures.
Toil Elimination: Proactively identify and automate repetitive operational tasks—such as cluster upgrades and OS patching—to ensure the team spends at least 50% of their time on engineering improvements.
Observability Integration: Institutionalize platform monitoring using Prometheus and Grafana, creating dashboards that surface the "Golden Signals" of cluster health.

Technical Requirements

Kubernetes: 5 years of experience operating production-grade Kubernetes clusters at scale.
Orchestration & Observability Tools: Expert-level knowledge of multi-cluster management, performance tuning and experience implementing observability tools such as Prometheus/Grafana, Dynatrace, Splunk, Datadog, etc.
AWS Infrastructure: Deep hands-on experience with AWS core services (EKS, EC2, ALB, S3, RDS, MSK).
Automation Stack: Proficiency in Terraform, Ansible, and Python or Go for infrastructure automation and deployment tools like ArgoCD or Flux.
Networking & Security: Strong understanding and hands on experience of cloud networking concepts such as VPCs, routing, load balancing and security configurations such as encryption, certificate management.

Education Qualification

Bachelor's Degree in Computer Science or “STEM” Majors (Science, Technology, Engineering and Math) with advanced experience.

Experience

Professional Background: 6–8 years in SRE or Platform Engineering roles supporting mission-critical, 24/7 cloud environments.
Crisis Management:Proven track record as a structured incident responder who can handle production down/break the glass scenarios in mission critical applications.

Preferred Qualifications

Regulated Environments: Practical knowledge of NERC CIP, SOC2, ISO 27001, or IEC 62443 compliance standards in a SaaS context.
Certifications: AWS Certified DevOps Engineer – Professional, CKA (CertifiedKubernetes Administrator), or SRE Practitioner Certification.
Critical Infrastructure: Experience supporting mission-critical systems in energy, utilities, or other high-stakes industrial sectors.

Vagas similares