Was erwartet dich? Du verantwortest den stabilen Betrieb und die Weiterentwicklung von APIs, Kubernetes-Umgebungen (K8s) sowie zugehörigen Tools Du führst Installationen, Updates und Patchings von APIs, K8s und Tools durch – inklusive Rollouts in neue Regionen Du überwachst kontinuierlich die Infrastruktur (Health Monitoring) und kümmerst Dich um Kapazitätsmanagement Du bearbeitest Service Requests und stellst den reibungslosen Betrieb der Plattform sicher Du arbeitest aktiv in Slack-Workflows und sorgst für eine strukturierte Kommunikation im Betrieb Du priorisierst, steuerst, trackst und löst Incidents entlang definierter Prozesse und unterstützt bei Troubleshooting und der schnellen Behebung von Störungen Du informierst Kund:innen proaktiv über Incidents und übernimmst Eskalationen – auch in Zusammenarbeit mit externen Vendoren Du eskalierst technische Themen gezielt an fortgeschrittene interne Support- und Entwicklungsteams und unterstützt die nachhaltige Wiederherstellung und Stabilisierung von Services Du bearbeitest und dokumentierst Problem Records (PRs) und führst Root Cause Analysen durch – bei Bedarf gemeinsam mit internen Teams oder externen Partner:innen Du erstellst und pflegst Betriebsdokumentationen, SOPs und operative Playbooks und erstellst Jira-Tickets oder Git-Issues für Entwicklungsteams, wenn Defects identifiziert werden Du arbeitest kontinuierlich an der Verbesserung von Betriebsprozessen und der Aktualisierung von Dokumentationen Was bieten wir dir? Unbefristeter Arbeitsvertrag Attraktive Vergütung Weiterbildungen Hybrid und Full Remote Modell PC Ausstattung Was solltest du mitbringen? Du bist bereit für die Sicherheitsüberprüfung Ü2 (SÜ2) und verfügst über fließende Deutsch- und Englischkenntnisse in Wort und Schrift Du hast ein abgeschlossenes Studium der Informatik, Wirtschaftsinformatik oder eine vergleichbare Ausbildung Du hast mehrjährige Erfahrung im IT-Betrieb, DevOps oder Platform Operations Umfeld und sehr gute Kenntnisse in Kubernetes (K8s) und Container-Technologien Du hast Erfahrung im Betrieb und der Wartung von APIs und verteilten Systemen sowie Kenntnisse in Cloud-Infrastrukturen (z. B. AWS, Azure, GCP oder SAP Cloud Platform) Du hast Erfahrung mit Incident-, Problem- und Service Management (z. B. ITIL) und bist sicher im Umgang mit Monitoring-Tools, Ticket-Systemen (z. B. Jira) und Versionsverwaltung (Git) Du hast Erfahrung in der Zusammenarbeit mit internen Support- und Entwicklungsteams sowie externen Vendoren und arbeitest strukturiert und lösungsorientiert Du zeigst hohe Verantwortungsbereitschaft und Belastbarkeit in Incident-Situationen und hast sehr gute Kommunikationsfähigkeiten in Deutsch und Englisch Du bist teamfähig und hast Freude an der Zusammenarbeit in interdisziplinären Teams und zeigst eine proaktive Denkweise und kontinuierlichen Verbesserungsanspruch