Data Science Hub Grafik

Keine Daten? Webseiten als Datenquelle nutzbar machen!

Wie können Webseiten als Datenquelle dienen? Im Rahmen eines Webscraping-Projekts des Data Science Hubs in Kooperation mit DSSG Berlin e.V. wurde genau das getestet. Ein Erfahrungsbericht zeigt, wie mithilfe von NLP Prototypen wie eine Kartenanwendung und ein Chatbot entstanden, um die Arbeit im DRK zu erleichtern.

Innovation im DRK

Mit Daten die Zukunft gestalten

Als föderal aufgestellte Organisation hat das Deutsche Rote Kreuz (DRK) viele Stärken. Lokale Verankerung und die Nähe zu den Menschen in Not sind zentrale Werte. Doch diese Struktur bringt auch Herausforderungen mit sich, insbesondere im Wissensmanagement. Informationen über Dienste, Ansprechpartner und Bedarfslagen aktuell zu halten, ist oft zeitaufwändig und kompliziert. Hier setzt das Projekt des Data Science Hubs in Kooperation mit Data Science for Social Good Berlin e.V. (DSSG) an: Durch Webscraping sollten Webseiten der Kreisverbände als wertvolle Datenquelle erschlossen werden. 

Herausforderung Wissensmanagement

Eine neue Lösung für das DRK

Das DRK steht vor der Herausforderung, zentrale Datenbanken aktuell zu halten und schnell auf sich ändernde Bedarfslagen zu reagieren. Umfragen sind zeitaufwändig und oft ineffizient. Eine Lösung liegt im „Recycling“ von bereits vorhandenen Daten, etwa von den Webseiten der Kreisverbände. Diese enthalten wertvolle Informationen, die durch gezielte Analyse und Interpretation für das Wissensmanagement nutzbar gemacht werden können. 

Starke Partner für soziale Innovation

Der Data Science Hub und DSSG Berlin e.V.

Der Data Science Hub des DRK, gefördert durch das Bundesministerium für Familie, Senioren, Frauen und Jugend (BMFSFJ), erprobt den Mehrwert datenwissenschaftlicher Methoden für soziale Angebote. In Zusammenarbeit mit DSSG Berlin, einem Verein, der Data Scientists für gemeinnützige Projekte mobilisiert, konnte das DRK innovative Datenprojekte realisieren. Diese Partnerschaft ist für beide Seiten wertvoll: 

„Die Zusammenarbeit mit dem DRK gibt uns die Möglichkeit, aktuelle gesellschaftliche Probleme anzugehen und Lösungen zu entwickeln,“ 

sagt Benjamin Senst, ehrenamtlicher Projektleiter und Data Scientist bei DSSG Berlin. 

Ein Blick hinter die Kulissen

So funktioniert das Projekt

Im Zentrum des Projekts stand die Anwendung von Natural Language Processing (NLP) und Large Language Models (LLMs), um Webseiten der Kreisverbände als Datenquelle zu erschließen.  

Projektschritte: 

  1. Webscraping: Alle Texte der Webseiten wurden von einem Computerprogramm automatisch ausgelesen und als Datensatz gespeichert. 
  2. Datenreinigung: Der Datensatz wurde auf wesentliche Inhalte reduziert. Dabei wurden verschiedene Metriken wie beispielsweise der lexikalischen Diversität eingesetzt. Im Anschluss konnte der gereinigte Datensatz rechenintensivieren Prozessen zugeführt werden. Zur Wahrung des Datenschutzes wurden personenbezogene Daten wie Kontaktdaten entfernt. Hier kam die Technik der Entitätenerkennung zum Einsatz. 
  3. Datenaufbereitung: Der gereinigte Datensatz wurde anschließend aufbereitet. Beispielsweise wurden die Texte automatisiert verschiedenen Wohlfahrtsangeboten zugeordnet. Um sie anschließend in Datenprodukten den Nutzenden zugänglich zu machen 
Beispielhafte Kartenanwendung für DRK-Angebote

Beeindruckende Ergebnisse

Diese Tools haben großes Potenzial, die Arbeit zu erleichtern

Aus dem Projekt, an dem viele ehrenamtlich Engagierte mitwirkten, entstanden in kurzer Zeit beeindruckende erste Ergebnisse.  

Ein Beispiel ist eine Kartenanwendung für die DRK-Angebote in ganz Deutschland, die es Hilfesuchenden ermöglicht, die nächstgelegene Einrichtung zu finden. Die Ehrenamtlichen entwickeln außerdem erste Ideen für einen Chatbot, der DRK-Mitarbeitenden helfen soll, schnell Informationen aus den Webseiten zu finden. Anhand der Webdokumente konnte außerdem eine KI-Modell trainiert werden, das Text Wohlfahrtsangeboten zuordnen kann.  

Um diese Anwendungen tatsächlich für die Arbeit vor Ort nutzbar zu machen, braucht es noch einiges an Arbeit. Es handelt sich hier erstmal nur um Prototypen. Aber das Potenzial, das sie für die Erleichterung der Arbeit haben, zeigt sich schon jetzt.  

Herausforderungen meistern

Datenschutz und Ressourcen

Die Arbeit mit sensiblen Daten erfordert strenge Datenschutzmaßnahmen, was das Projekt komplex und ressourcenintensiv machte. „Datenschutz ist ein zentrales Thema und kann zu Verzögerungen führen. Es ist wichtig, Datenschutzfragen zu Beginn eines Projekts zu klären,“ betont Julia Ostheimer von DSSG Berlin. 

Gemeinsam erfolgreich

Das Fazit und die nächsten Schritte

Die Zusammenarbeit zwischen dem DRK und DSSG Berlin e.V. war ein voller Erfolg. Die entwickelten Anwendungen zeigen, wie NLP und LLMs helfen können, gegenwärtige Herausforderungen innovativ zu bewältigen. 

„Wir haben Anwendungen geschaffen, die intern beim DRK genutzt werden und später der Öffentlichkeit zugänglich gemacht werden können,“ 

erläutert Benjamin Senst. 

Die gewonnenen Erkenntnisse und Tools sollen helfen, die Effizienz und Wirksamkeit der Hilfsmaßnahmen kontinuierlich zu verbessern. Das DRK muss im nächsten Schritt evaluieren, wie diese Technologien weiter genutzt werden können und die Dateninfrastruktur ausbauen.  

Stimmen aus dem Projekt

Eindrücke und Erfahrungen

Im Projektinterview betonte eine weitere Ehrenamtliche aus dem DSSG-Team die Bedeutung der Partnerschaft: 

„Durch die Zusammenarbeit mit dem DRK konnte ich meine praktischen Fähigkeiten in NLP verbessern und gleichzeitig zur Unterstützung Hilfesuchender beitragen.“ 

Ein anderer Ehrenamtlicher ergänzte: 

„Wir haben sozialen Mehrwert geschaffen und die DRK-Mitarbeitenden befähigt, datengetrieben zu arbeiten.“ 

Die Interviews zeigen die Begeisterung und den Einsatz der Beteiligten. 

„Es war eine Freude, mit so vielen engagierten Freiwilligen an einem hochaktuellen Thema zu arbeiten,“ sagt Julia Ostheimer. 

Gemeinsam die Zukunft gestalten

Erfahren Sie mehr über unsere Projekte und wie Sie die Angebote des Data Science Hubs nutzen können! Besuchen Sie unsere Webseite und bleiben Sie über aktuelle Entwicklungen informiert. Hinterlassen Sie uns Ihre Kommentare und Feedback – wir freuen uns auf den Austausch! 

Zum Data Science Hub