Confluent

Staff Software Engineer I- SRE

Vaga remota de Engineering com fit claro de localização do candidato.

Publicada27 de mai. de 2026

Países elegíveis1 país aceito

Sinal de senioridadeLead

Modelo de trabalhoRemoto

Locais aceitos para candidatos

Índia

AWS Azure CI/CD GCP Kubernetes React

Posso mesmo aplicar?Confira a lista de países

Países aceitos para candidatos estão listados (1).

Atualidade da fonte27 de mai. de 2026

Fit de localização1 país aceito

Match de stackAWS, Azure

Caminho de aplicaçãoSite da empresa

Resumo de fit da MiraPor que vale revisar esta vaga

Fit de localização1 país aceitoAdicione seu país

Match de stackAdicione skills ao perfil para compararAWS, Azure

Sinal de senioridadeLeadDefina seu nível para uma análise mais precisa.

Prontidão para aplicarSite da empresaA aplicação continua no site da empresa.

Aplicação

Aplicar no site da empresa

Aplicação externa

Aplicando paraStaff Software Engineer I- SREConfluent

Fit de país1 país aceito

Caminho de aplicaçãoSite da empresa

WithMiraSalve ou assine antes de sair

Aplicação da empresa

O WithMira mantém esta vaga para descoberta. A aplicação continua no site da empresa.

Aplicar no site da empresa

Salvar vaga

Resumo da vaga

Staff Software Engineer I- SRE

Requisitos e responsabilidades

Conteúdo da vaga extraído em seções para revisão mais rápida.

What You Will Do:

Proactive Reliability Engineering (~75% of role) · Analyze systemic failure patterns and design improvements that prevent incident recurrence · Define and maintain SLO/SLA frameworks; use error budgets to guide reliability investments · Build tooling and automation to reduce incident response toil and scale team impact · Own Rootly configuration, workflows, and integrations with PagerDuty, Jira, Confluence, and Slack · Analyze reliability data to identify systemic improvements; build dashboards that drive action · Explore AI-assisted approaches to documentation quality and incident analysis · Design scalable reliability standards that reduce reactive workload over time.
Incident Management Program (~25% of role) · Own standards, practices, and continuous improvement of incident response · Serve as an on-call Incident Commander for production incidents, including acting as escalation IC when incidents exceed a team's management chain · Develop and deliver training programs for engineering teams at all levels · Coach teams through post-mortems and on developing actionable corrective actions
Customer Root Cause Analysis (CRCA) · Edit and review customer-facing incident documents to ensure quality and clarity · Drive turnaround SLAs while maintaining technical accuracy · Ensure clear explanation of what happened, why, and how we'll prevent recurrence
Cross-Team Leadership · Partner with engineering leaders to elevate reliability practices · Be the expert who teams proactively engage for guidance

What You Will Bring:

10+ years in SRE, incident management, or reliability engineering · Cloud experience with at least one of AWS, GCP, or Azure·
Deep expertise with incident management tooling (Rootly, PagerDuty, or similar platforms)
Strong understanding of distributed systems and failure modes at scale—Kafka/event streaming expertise preferred, or demonstrated rapid mastery of complex systems
Deep experience with observability: metrics, logging, tracing—ability to diagnose complex issues · Kubernetes and container orchestration experience · Understanding of CI/CD pipelines and release processes · Systems thinking: understanding how infrastructure design choices affect failure modes and recovery · Familiarity with SLO/SLA frameworks.
Track record as a trusted advisor across engineering organizations · Experience driving org-wide process and cultural changes · Strong written communication (design docs, one-pagers, runbooks) · Post-mortem facilitation experience · Experience with async collaboration across time zones
Large company experience navigating reliability/incident programs at 500+ engineer organizations·