Aufgaben:
Aktuell sind wir auf der Suche nach einem AI Data Engineer im Bereich Wissensmanagement Bots für einen unserer Kunden.
Auslastung 100%, 2-3 Tage pro Quartal onsite, der Rest remote
Aufgaben:
- Entwicklung und Optimierung von skalierbaren Datenmodellen für große Datenmengen (Big Data)
- Aufbau und Pflege von Datenbanken und Data-Warehouses, insbesondere mit PostgreSQL
- Sicherstellung der Performance und Skalierbarkeit von Datenarchitekturen für mehrere tausend parallele Nutzer (inkl. Query-Optimierung, Index-Strategien, Partitionierung)
- Entwicklung und Umsetzung robuster ETL-/ELT-Pipelines mit Fokus auf:
- Skalierbarkeit und Fehlerisolierung
- Observability (Logging, Metrics, Tracing)
- Design und Implementierung moderner Data-Lake- / Data-Warehouse-Architekturen mit Schichten wie:
- Raw Layer
- Staging/Cleansing
- Curated/Business Layer
- Entwicklung und Optimierung von ETL-/ELT-Strecken mit Tools wie z. B. Airflow, dbt, Kafka, Spark oder vergleichbaren Technologien
- Sicherstellung der Datenqualität in produktiven Pipelines durch:
- Schema-Validierung, Null-/Range-Checks, Duplikat-Prüfungen
- automatisierte Tests, Data Contracts und Data Lineage
- Monitoring von Freshness, SLAs/SLOs und Alerting
- Konzeption und Umsetzung von Batch- und Near-Real-Time-Pipelines (inkl. Event-Driven-Architekturen, Streaming-Lösungen, DLQ-Handling, Replay-Fähigkeit)
- Optimierung von SQL-Abfragen auf sehr großen Tabellen (Execution Plans, Index-Design, Window Functions, Materialized Views, Voraggregation etc.)
- Entwicklung performanter Datenverarbeitungslogik in Python (z. B. Pandas, Spark, Dask, Polars) inkl. Umgang mit Speicher- und Skalierungsgrenzen
- Enge Zusammenarbeit mit anderen Entwicklern und Fachbereichen zur Umsetzung datengetriebener Lösungen und Etablierung guter Data-Engineering-Praktiken
Anforderungen:
Must:
+ Mehrjährige praktische Erfahrung in der Datenmodellierung und im Aufbau skalierbarer Datenarchitekturen für große Datenmengen
+ Sehr gute SQL-Kenntnisse und fundierte Erfahrung mit relationalen Datenbanken, insbesondere PostgreSQL (inkl.:
- Performance-Tuning, Index-Strategien, Partitionierung
- Nutzung von Window Functions
+ Mehrjährige Python-Erfahrung im Data-Engineering-Umfeld (z. B. Pandas, PySpark, Dask, Polars) inkl.:
- effizienter Umgang mit großen Datenmengen (Vektorisierung, Chunk Processing, Typenoptimierung)
- sinnvoller Aufteilung von Logik zwischen SQL und Python
+ Erfahrung in der Entwicklung robuster ETL-/ELT-Pipelines:
- Orchestrierung (z. B. Airflow oder vergleichbare Tools)
- Trennung von Raw-, Staging- und Business-Layern
- Berücksichtigung von Schema-Evolution
+ Praxis in der Sicherstellung von Datenqualität in produktiven Umgebungen:
- Einsatz von Data-Quality-Frameworks (z. B. Great Expectations, dbt Tests oder vergleichbar)
+ Erfahrung mit Observability im Data-Engineering-Kontext:
- Logging, Metriken, Tracing (z. B. Prometheus, Grafana, OpenTelemetry oder ähnliche Lösungen)
- Debugging von sporadisch fehlschlagenden Pipelines (Race Conditions, Timeouts, Speicherengpässe etc.)
+ Erfahrung im Umgang mit großen Datenmengen (Big Data) und verteilten Systemen (z. B. Spark, Kafka, Streaming-Frameworks)
+ Nachweisbare Erfahrung in der Entwicklung von Lösungen, die für hohe Nutzerzahlen und parallele Zugriffe optimiert sind
+ Kenntnisse in der Optimierung von Datenbankabfragen und Performance-Tuning, insbesondere:
- Analyse von Execution Plans (EXPLAIN/EXPLAIN ANALYZE)
- Vermeidung typischer Anti-Patterns (SELECT *, unnötige Subqueries, nicht indexierbare Filter)
+ Idealerweise Erfahrung mit Cloud-Technologien und modernen Datenplattformen (z. B. AWS, Azure, GCP, Snowflake, Databricks oder vergleichbar)
+ Verständnis typischer Data-Engineering-Anti-Patterns (z. B. zu viel Businesslogik in Skripten, fehlende Data Contracts, Monolith-ETL, fehlende Idempotenz, CSV als Dauerformat)
+ Erfahrung im Design von Near-Real-Time-Architekturen (Streaming, Event Processing, Exactly-/At-least-once-Semantik, Umgang mit Late Data) ist ein Plus
+ Teamplayer, kein Einzelkämpfer
+ Ausgeprägtes analytisches Denkvermögen und strukturierte, qualitätsorientierte Arbeitsweise
+ Teamfähigkeit und Fähigkeit, Fachbereiche sowie andere Tech-Teams in Daten- und Architekturfragen zu beraten
+ „Product Mindset“ im Umgang mit Datenprodukten (Ownership, Versionierung, Stabilität, Wartbarkeit)
Zusätzliche Informationen:
Konnten wir Ihr Interesse wecken? Dann freuen wir uns auf die Zusendung Ihres aussagekräftigen Expertenprofils unter Angabe Ihrer Stundensatzvorstellung.