Ihre Aufgaben
Als Site Reliability Engineer (SRE)* werden Sie Teil eines hochmotivierten, standortübergreifenden Teams aus Informatikern und DevOps Engineers*. Sie gestalten aktiv den Aufbau eines neuen Teams mit und bringen Ihr Know-how in die Weiterentwicklung und den Betrieb unserer Data Center Plattformen, Cloud-Services sowie Application-Services ein. Dabei übernehmen Sie Verantwortung für den sicheren, stabilen und zukunftsfähigen Betrieb unserer Systeme.
* Verantwortung für komplexe Servicearchitekturen – von Design über Dokumentation bis zum gesamten Lifecycle
* Sicherstellung der IT-Sicherheit durch Einhaltung und Weiterentwicklung von Sicherheitsrichtlinien in Architektur und Betrieb
* Eigenverantwortliche Umsetzung komplexer Änderungen an Designs und Architekturen – mit Blick für technische und organisatorische Zusammenhänge
* Aufbau, Automatisierung und Betrieb von Plattformen und Services – insbesondere einer Middleware-as-a-Service mit Apache Kafka
* Beratung und Unterstützung von Nutzer*innen bei der Integration und Weiterentwicklung ihrer Anwendungen
* Automatisierung wiederkehrender Aufgaben zur Steigerung von Effizienz und Zuverlässigkeit
* Enge Zusammenarbeit mit anderen Teams, um die Systemstabilität und -verfügbarkeit kontinuierlich zu verbessern
Das zeichnet Sie aus
* Abgeschlossenes Studium der Informatik oder vergleichbares Studium mit IT-Schwerpunkt
* Fundierte Kenntnisse in der Administration von Linux-Systemen
* Erfahrung mit Automatisierungswerkzeugen wie Puppet oder Ansible
* Praxis im Betrieb von Data Center Plattformen oder Cloud Services (z. B. Proxy, DNS, VPN, IAM, Monitoring, Microsoft Services, Backup Tools)
* Idealerweise Erfahrungen im Projekt- und/oder Produktmanagement
* Idealerweise Erfahrung mit Middleware-as-a-Service, insbesondere Apache Kafka
* Kenntnisse in Monitoring-Tools (z. B. Prometheus, Grafana) und Logging-Stacks (z. B. EFK)
* Programmierkenntnisse (z. B. Python) und Erfahrung im Aufbau von CI/CD-Pipelines
* Vertraut mit Container-, Orchestrierungs- und Cloudlösungen (z. B. Docker, Kubernetes)
* Bereitschaft zur Übernahme von Verantwortung für kritische Infrastruktur
* Verhandlungssicheres Deutsch und gute Englischkenntnisse
* Medizinische Tauglichkeit, Bereitschaft zur Rufbereitschaft bzw. Wechselschichtdienst sowie Führerschein Klasse B
* Erweiterte Sicherheitsüberprüfung nach dem Sicherheitsüberprüfungsgesetz (SÜG) erforderlich
* Hands-on-Mentalität mit dem Anspruch, Probleme nicht nur zu erkennen, sondern aktiv und eigenverantwortlich zu lösen
* Proaktive Denkweise – Sie warten nicht auf Aufgaben, sondern erkennen Handlungsbedarf und treiben Lösungen selbstständig voran
* Teamgeist und Kommunikationsstärke – Sie bringen sich aktiv ein, teilen Wissen, geben Impulse und nehmen Feedback auf