Das Interview führten Lina Sophie Pfeiffer und Clara Just:
Welches Problem habt ihr versucht zu lösen?
Julia und Benjamin:
Die manuelle Erfassung von Hilfsangeboten für Wohnungslose der DRK-Gliederungen durch Umfragen und direkten Kontakt ist zeitaufwendig und liefert oft ein unvollständiges Bild. Auch bestehende verbandsweite Datenbanken erfassen nicht alle Angebote des DRK vor Ort. Daher haben wir untersucht, ob es möglich ist, diese Informationen mithilfe datenwissenschaftlicher Methoden automatisiert zu erfassen. Unser Ansatz besteht darin, die öffentlich zugänglichen Websites aller DRK-Gliederungen zu analysieren und anzunehmen, dass diese ihre Hilfsangebote für wohnungslose Menschen auf ihren Websites veröffentlichen. Dadurch erhoffen wir uns eine effiziente und umfassende Erfassung der relevanten Informationen.
Könnt ihr uns einen Einblick in den Arbeitsprozess geben?
Julia und Benjamin:
Kurz gesagt haben wir vier Prozessschritte angewendet, um die Hilfsangebote der DRK-Gliederungen für wohnungslose Menschen automatisiert zu erfassen.
- Zunächst haben wir die Webadressen der Gliederungen gesammelt und die zugehörigen Internetdaten durch Web Scraping gespeichert.
- Danach haben wir über 600.000 Dokumente hinsichtlich ihrer Relevanz und Schlüsselwörter sortiert. Dabei haben wir Kriterien identifiziert, die es uns ermöglichten, zwischen den Dokumenten zu unterscheiden, und Schlüsselwörter mit Hilfe des TF-IDF[4] Algorithmus gewonnen.
- Anschließend haben wir eine semantische Suchfunktion verwendet. Diese Suchfunktion hat anhand von Sprachmodellen und der Ähnlichkeit zwischen Suchbegriffen und Schlüsselwörtern relevante Dokumente ausgewählt. Dabei wurde nicht nur auf ähnliche Wörter geachtet, sondern auch auf die Bedeutung der Begriffe, um auch Dokumente mit ähnlicher Bedeutung zu finden. Zum Beispiel hat das Tool nicht nur den Begriff “Kältebus”, sondern auch Synonyme wie “Wärmebus” und “Obdachbus” erfasst.
- Schließlich haben wir die Suchergebnisse bewertet und wichtige Informationen zu den Hilfsangeboten extrahiert, wie Ansprechpartner, Kontaktinformationen, Öffnungszeiten und Tätigkeitsbereiche der Projekte. Diese konnten dann gesammelt dem DRK-Team, das für die Angebote für wohnungslose Menschen zuständig ist, überreicht werden.
Was war die größte Herausforderung bei der Umsetzung des Projekts?
Julia und Benjamin:
Eine gute Frage. In diesem Projekt gab es eine Reihe von Hürden, die wir bewältigen mussten.
Eine der größten Herausforderungen war das Fehlen eines geeigneten Sprachmodells zur Analyse der gescrapten Daten. Innerhalb des DRKs hatten bestimmte Begriffe eine andere Bedeutung als außerhalb, was zu Missverständnissen bei der Suche nach spezifischen Angeboten führte. In der DRK-Sprachwelt werden beispielsweise die Begriffe “Kältehilfe” und “Wärmehilfe” synonym verwendet. Außerhalb der DRK-Sprachdomäne suggerieren die Wortbestandteile “Kälte” und “Wärme” jedoch einen gegensätzlichen Zustand. Wärmehilfe wurde daher durch das eingesetzte Sprachmodell fälschlicherweise mit der Wasserwacht in Verbindung gebracht.
Inwiefern bieten datenwisschenschaftliche Erhebungsmethoden Vorteile in der Projektarbeit?
Julia und Benjamin:
Im ersten Schritt haben wir ein sogenanntes Proof of Concept Projekt durchgeführt, in welchem wir die generelle Machbarkeit der Lösung des Problems mit datenwissenschaftlichen Methoden unter Beweis gestellt haben. Die Potentiale unseres Ansatzes liegen in der Skalierbarkeit: die gleiche Methodik kann auf andere Bereiche im DRK angewendet werden, z.B. um die Angebote der Kinder- und Jugendhilfe besser zu verstehen oder die Kapazitäten in der Geflüchtetenhilfe zu ermitteln. Unsere automatisierte Herangehensweise zeigt auch Vorteile hinsichtlich der Vollständigkeit: Vergleicht man die Ergebnislisten der konventionellen (über Umfragen erstellte) mit der datenwissenschaftlichen Methode, ist die letztere Ergebnisliste vollständiger und kann mehr Angebote in der Wohnungslosenhilfe aufweisen.
Wie kann Data Science die Wohlfahrt unterstützen?
Julia und Benjamin:
Diese Frage können wir von zwei Seiten betrachten. Zum einen interessiert es uns, wie der digitale Wandel in der Wohlfahrt wahrgenommen wird und welche Herausforderungen damit verbunden sind. Auf der anderen Seite gibt es verschiedene Technologien aus der Industrie und der Open Source Community, die relevant sind.
Die Gesellschaft befindet sich im Wandel. Ihre Erwartungen, Bedürfnisse und Aufmerksamkeit verschieben sich. Dies kann auch Auswirkungen auf die Arbeit der Wohlfahrt haben. Früher musste viel Aufwand betrieben werden, um Spenderinnen und Spender zu erreichen, zum Beispiel mit Haustürwerbung. Durch den digitalen Fortschritt können solche Aktivitäten deutlich erleichtert werden. Es stellt sich die Frage, welche digitalen Möglichkeiten es gibt, um notwendige Mittel bereitzustellen und die Arbeit der DRK-Gliederungen effizienter zu gestalten. Unsere Übersicht erleichtert nun zum Beispiel das Fundraising für die Wohnungslosenhilfe.
Der aus den öffentlich zugänglichen Internetseiten der DRK-Gliederungen erstellte Datensatz eröffnet aus der Data Science-Perspektive zahlreiche Anwendungsmöglichkeiten. Dazu gehören Suchmaschinen, Sprachgenerierung, Chatbots, Frage-Antwort-Anwendungen und Empfehlungssysteme. Wir sind begeistert von der Zusammenarbeit mit dem neu gegründeten DRK Data Science Hub und freuen uns darauf, gemeinsam die Chancen des digitalen Wandels für die Wohlfahrt zu erkunden.
Sehen Sie in Ihrem Projekt ein Potenzial für eine systematischere, möglicherweise automatisierte Erhebung, Nutzung oder Auswertung von Daten? Dann kontaktieren sie den Data Science Hub für Informationen oder eine Kooperation unter data(at)drk(dot)de . Wir freuen uns darauf, mit Ihnen ins Gespräch zu kommen!
[1] Bundesministerium für Arbeit und Soziales, 2022: Ausmaß und Struktur von Wohnungslosigkeit. Der Wohnungslosenbericht 2022 des Bundesministeriums für Arbeit und Soziales, 23.05.2023.
[2] ,,Beim Web Scraping (engl. scraping = „kratzen/abschürfen“) werden Daten von Webseiten automatisch extrahiert und gespeichert, um diese zu analysieren oder anderweitig zu verwerten.“ (Digital Guide Ionos, 2020: Was ist Web Scraping?, 31.05.2023)
[3] Data Matters ist ein Veranstaltungsformat des DRK-Generalsekretariats, bei dem innovative DRK-Datenprojekte vorgestellt werden. Die Veranstaltung findet seit Anfang 2021 regelmäßig statt. Würden Sie Ihr DRK-Datenprojekt gern einmal vorstellen? Melden Sie sich bei data(at)drk(dot)de
[4] ,,TF-IDF steht für Term Frequency-Inverse Document Frequency und ist ein statistisches Maß, mit dem die relative Bedeutung eines Wortes in einem Dokument beurteilt werden kann.” (milkgroup, 2023: TF-IDF, https://www.mikgroup.ch/wissen/tf-idf/,24.05.23)