Tecsys Inc.

Ingénieur fiabilité des infrastructures

Vaga remota de Site Reliability Engineering com fit claro de localização do candidato.

Publicada20 de jun. de 2026

Países elegíveis1 país aceito

Sinal de senioridadeMiddle

Modelo de trabalhoRemoto

Locais aceitos para candidatos

Canadá

AWS CI/CD Kubernetes

Posso mesmo aplicar?Confira a lista de países

Países aceitos para candidatos estão listados (1).

Atualidade da fonte20 de jun. de 2026

Fit de localização1 país aceito

Match de stackAWS, CI/CD

Caminho de aplicaçãoSite da empresa

Resumo de fit da MiraPor que vale revisar esta vaga

Fit de localização1 país aceitoAdicione seu país

Match de stackAdicione skills ao perfil para compararAWS, CI/CD

Sinal de senioridadeMiddleDefina seu nível para uma análise mais precisa.

Prontidão para aplicarSite da empresaA aplicação continua no site da empresa.

Aplicação

Aplicar no site da empresa

Aplicação externa

Aplicando paraIngénieur fiabilité des infrastructuresTecsys Inc.

Fit de país1 país aceito

Caminho de aplicaçãoSite da empresa

WithMiraSalve ou assine antes de sair

Aplicação da empresa

O WithMira mantém esta vaga para descoberta. A aplicação continua no site da empresa.

Aplicar no site da empresa

Salvar vaga

Resumo da vaga

Ingénieur fiabilité des infrastructures

Requisitos e responsabilidades

Conteúdo da vaga extraído em seções para revisão mais rápida.

Vos responsabilités

Collaborer avec d’autres équipes d’ingénierie pour soutenir les services avant leur mise en service à travers des activités telles que la consultation en conception de systèmes, le développement de plateformes et de cadres logiciels, la planification des capacités et les revues de lancement.
Innover continuellement en identifiant les points faibles, en proposant des solutions créatives et en menant des initiatives qui simplifient, font évoluer et renforcent la plateforme.
Maintenir les services une fois qu’ils sont en ligne en mesurant et en surveillant la disponibilité, la latence et l’état général du système.
Assurer une observabilité optimisée : améliorer et élargir la surveillance et l’alerte à l’aide de Datadog; définir les SLO/SLI et créer des tableaux de bord exploitables qui génèrent des résultats de fiabilité.
Développer et favoriser l’automatisation : améliorer les outils internes, les cadres IaC et les pipelines (Terraform, GitLab CI/CD) afin de réduire les interventions manuelles et permettre des systèmes d’auto-réparation.
Faire évoluer les systèmes de façon durable par l’automatisation et en favorisant des changements qui améliorent la fiabilité et la rapidité.
Mettre en pratique une gestion durable des incidents et des analyses post-incident sans reproche. Diriger les examens post-incident (RCA) et identifier les correctifs à long terme qui améliorent la stabilité, la fiabilité et l’expérience des développeurs.
Mettre en œuvre la surveillance, la journalisation, l’alerte et le signalement des SLA.
Créer et maintenir une documentation technique.
Mettre en œuvre, maintenir et faire évoluer les meilleures pratiques SRE.
Agir comme commandant d’incident lors des incidents; coordonner la réponse interéquipes, gérer les communications et assurer une restauration rapide des services.