Am Institut für Datenwissenschaften in Jena beschäftigen wir uns damit, das Datenrückgrat für alle Anwendungsbereiche des DLR (Luftfahrt, Raumfahrt, Energie, Verkehr, Sicherheit) Realität werden zu lassen. Dafür entwickeln und erforschen wir in interdisziplinärer Arbeit Methoden mit Fokus auf Anwendungen z. Bsp. für nachhaltige und kreislaufgerechte Prozesse, resiliente Lieferketten, datengetriebene Wertschöpfungsketten oder robuste Entscheidungsunterstützung. Die so entwickelten Methoden werden in Kooperation mit anderen DLR-Instituten und externen Partnern zur Anwendung gebracht, sei es im Rahmen gemeinsamer Projekte oder im Rahmen von Technologietransferaktivitäten. ## Das erwartet dich Im Projekt OpenSearch@DLR2.0 erfolgt der Aufbau einer DLR-Suchinfrastruktur aus modularen Komponenten zur Akquisition, Aufbereitung und Anreicherung von Web- und Forschungsmetadaten. Gleichzeitig soll es neue Technologien und Innovationen im Bereich der Internetsuche und des Informationsmanagements integrieren. Dies umfasst internes wie externes verteiltes Webcrawling, Anschluss an Spezialdatenbanken, zum Beispiel in der Erdbeobachtung oder im Forschung-Datenmanagement, sowie neue Methoden zur automatischen Informationserschließung in sehr großen Datenbeständen durch den Einsatz von Methoden der künstlichen Intelligenz (KI). ## Deine Aufgaben Für die Anreicherung der Metadaten von Webseiten erfolgt im Projekt die Klassifikation dieser anhand von Textinhalten. Während vortrainierte Modelle für eine Klassifikation in grobe Klassen, wie News oder Wissenschaft, bereits vorliegen, ist auch eine feingranulare Kategorisierung von Webseiten mit thematisch ähnlichen Inhalten erforderlich. Dazu wurde bereits ein Konzept zum Clustering der Webseiten erarbeitet, welches es im Rahmen des ausgeschriebenen Praktikums oder der Erstellung einer Abschlussarbeit, weiter zu entwickeln gilt. - Konzeptionierung, Implementierung und Evaluierung eines flexiblen Klassifikationsansatzes zur unüberwachten feingranularen Klassifikation von Webseiten innerhalb einer thematischen Domäne - Nutzung von Software zum fokussierten Crawling von Webseiten - Analyse der Daten bezüglich des Informationsgehalts, beispielsweise im Kontext von kritischen Infrastrukturen und Extremwetterereignissen - Dokumentation der implementierten Software und der Ergebnisse ## Das bringst du mit - Laufendes Studium der Informatik, Data Science oder Mathematik - Vorgesehenes Pflichtpraktikum oder Abschlussarbeit - Sehr gute Python Kenntnisse - Schnelle Auffassungsgabe mit zielorientierter und selbständiger Arbeitsweise Wir freuen uns darauf, dich kennenzulernen! Fragen zu dieser Position (Kennziffer 2824) beantwortet dir gerne: Jens Kersten Tel.: +49 3641 30960 122