Deine Aufgaben
* Aufbau und Betrieb einer Model-Serving-Plattform (z. B. Triton Inference Server)
* Integration unterschiedlichster Modelltypen und Frameworks (z. B. PyTorch, TensorFlow)
* Entwicklung von Inference APIs (Batch & Streaming)
* Design robuster Input- und Output-Schemata für ML-Modelle
* Performance-Optimierung (Latenz, Durchsatz, GPU-Auslastung)
* Containerisierung und Deployment von Modellen (Docker, AWS)
Das bringst du mit
* Sehr gute Python-Kenntnisse (Backend / ML Runtime)
* Erfahrung mit ML Inference & Serving (z. B. Triton, TorchServe oder eigene Runtimes)
* Fundiertes Verständnis von:
o Model-Inputs und -Outputs
o Batching vs. Streaming
o FP32 / FP16 / Quantisierung.
* Sicherer Umgang mit Docker und produktiven Deployments.
* Starke Debugging-Fähigkeiten in verteilten ML-Systemen.
* Grundkenntnisse in CUDA / GPU-Computing.
* Sehr gute Deutsch- und Englischkenntnisse.
Das bieten wir dir
* Flexible Arbeitszeiten: Um Familie und Beruf optimal zu vereinbaren, kannst du deinen Arbeitstag nach deinen individuellen Bedürfnissen gestalten. Profitiere darüber hinaus von individuellen Modellen, Workation und Sabbaticals.
* Homeoffice: Egal, ob aus dem Büro oder von einem anderen Ort – mobiles Arbeiten gehört für uns zum Alltag.
* Mindset: Open Door, Teamspirit und flache Hierarchien sind im #teamGFT keine Buzzwords, sondern gelebte Praxis.
* 12.000 Talente weltweit: Profitiere von dem globalen Austausch mit Experten aus über 20 Ländern auf deinem Gebiet.
* Weiterbildung & Zertifizierungen: Nimm an Fortbildungen, Konferenzen und Zertifizierungen teil. Wir gehen auf deine individuellen Bedürfnisse ein.
* Standortbezogene Extras: Profitiere von weiteren Zusatzleistungen, wie Job Rad, Betrieblicher Altersvorsorge und vielem mehr.
* Neueste Technologien: Durch die Arbeit mit international führenden Konzernen und den Einsatz interdisziplinärer Teams arbeiten wir am Puls der Zeit und setzen uns ständig mit den neuesten Methoden und Technologien auseinander.