- Entwicklung von Datenpipelines: Unterstützen bei der Konzeption, Entwicklung und Pflege von robusten Datenpipelines zur Erfassung, Verarbeitung und Speicherung von Daten aus verschiedenen Quellen über die gesamte Produktionslinie hinweg
- Datenintegration: Integration unterschiedlicher Datenquellen, um einen nahtlosen Datenfluss und die Konsistenz zwischen den Systemen zu gewährleisten
- Verwaltung des Datenkatalogs: Unterstützen beim Erstellen und Pflegen eines umfassenden Datenkatalogs
- Sicherstellung der Datenqualität: Implementieren und Überwachen von Datenqualitätsprüfungen, um die Genauigkeit, Vollständigkeit und Zuverlässigkeit der Daten in der gesamten Pipeline sicherzustellen
- Automatisierung: Entwickeln und Betreiben von ETL-Pipelines auf Basis von IoT- und Cloud-Technologien wie AWS IoT Core Greengrass, AWS Glue, Amazon S3, Redshift und Amazon Lambda
- Kollaboration: Zusammenarbeit mit funktionsübergreifenden Teams, einschließlich Ingenieur:innen, Datenwissenschaftler:innen, Analyst:innen und IT-Fachleuten, um Datenanforderungen zu verstehen und Lösungen zu liefern, die den Anforderungen entsprechen
- Dokumentation: Dokumentation der Datenpipeline-Architektur, Prozesse und best Practices
- Laufendes Masterstudium im Bereich Informatik oder vergleichbare Studienrichtung
- Gute Programmierkenntnisse in Python
- Erfahrung mit Datenverarbeitungs-Frameworks und -Tools (z. B. Apache Spark, Hadoop, SQL)
- Ausgezeichnete Problemlösungsfähigkeiten und Liebe zum Detail
- Ausgeprägte Kommunikations- und Teamwork-Fähigkeiten
- Vertrautheit mit AWS- und SAP-Cloud-Plattformen sowie Kenntnisse in den Bereichen Datenmodellierung, ETL-Prozesse und Best Practices für Data Governance sind von Vorteil
- Verständnis von Data-Warehousing-Konzepten und Erfahrung mit Datenbanken (z. B. SQL, NoSQL) ist wünschenswert
- Verhandlungssichere Deutsch- und Englischkenntnisse