Als Senior Site Reliability Engineer übernimmst du die Verantwortung für den stabilen, sicheren und skalierbaren Betrieb unserer Kubernetes- und Cloud-Infrastruktur – hands-on, eigenständig und mit echtem Ownership. Deine Aufgaben: Betrieb und Optimierung von Kubernetes-Clustern (EKS) und AWS-Infrastruktur Debugging komplexer Probleme (Performance, Scheduling, OOM, CrashLoops) Aufbau und Betrieb von Self-Hosted Services (z. B. Istio, OpenSearch, RabbitMQ) Umsetzung von GitOps (ArgoCD/Flux) und Observability (Logging, Metrics, Tracing) Definition von SLIs/SLOs sowie Alerting-Strategien Entwicklung von Backup- und Disaster-Recovery-Konzepten (inkl. RTO/RPO) Analyse und Verbesserung von Systemarchitekturen (Skalierung, Sicherheit, SPOFs)
Stand Out From the Crowd
Upload your resume and get instant feedback on how well it matches this job.
Job Type
Full-time
Career Level
Mid Level
Education Level
No Education Listed