Mit Webscraping & Data Science die Wohnungslosenhilfen im DRK verstehen

Wie kann Data Science das DRK in der Wohnungslosenhilfe unterstützen? Im Interview sprechen wir mit Julia Ostheimer, leitendes Teammitglied bei DSSG, und Benjamin Senst, technischer Hauptansprechpartner des Projekts, über ihre Erfahrungen mit datenwissenschaftlichen Methoden.

Die Ausgangssituation

Mehr als eine Viertelmillion Menschen sind nach aktuellen Zahlen in Deutschland wohnungslos. Manche finden eine vorübergehende Bleibe in Notunterkünften, andere kommen bei Freunden und Bekannten unter, viele leben auf der Straße. Auch Familien mit Kindern sind von Wohnungslosigkeit betroffen (vgl. BMAS 2022)[1].

Das DRK bietet eine Vielzahl von Angeboten für wohnungslose Menschen, u.a. Notunterkünfte, Wohnheime, medizinische Hilfe und Winternothilfe. Um diese Angebote gut unterstützen und die Interessen unserer Zielgruppen effektiv vertreten zu können, brauchen wir einen Überblick darüber, welche Hilfen von Orts-, Kreis- und Landesverbänden angeboten werden. Und das ist in einem großen Verband wie dem DRK oft schwierig. Verbandsinterne Umfragen erreichen unsere Kollegen und Kolleginnen vor Ort nicht immer oder es mangelt an Ressourcen zur Beantwortung. Deswegen haben wir gemeinsam mit Sarah Zornhagen aus dem Team Soziale Hilfen und soziales Ehrenamt einen anderen Weg ausprobiert. In Zusammenarbeit mit der gemeinnützigen Organisation Data Science for Social Good Berlin (im Folgenden „DSSG“) haben wir versucht, mittels „Web Scraping[2]“ die nötigen Informationen automatisch aus unseren Webseiten auszulesen und dann mit datenwissenschaftlichen Analyseverfahren auszuwerten. Für das im Juli 2022 gestartete Projekt wurden so 483 Webseiten von DRK Kreis- und Landesverbänden ausgelesen und nach Hilfsangeboten für wohnungslose Menschen durchsucht. Die dabei entstandenen 70 GB Daten wurden anschließend von DSSG-Freiwilligen und Studierenden des Heidelberg Experimental Geometry Lab der Universität Heidelberg ausgewertet.

Am 11.5.2023 haben Julia Ostheimer, leitendes Teammitglied bei DSSG, Benjamin Senst, technischer Hauptansprechpartner des Projekts, das Projekt und seine Ergebnisse im Rahmen von Data Matters[3] im DRK-Generalsekretariat vorgestellt. Sie haben das Projekt über fast ein Jahr ehrenamtlich begleitet und umgesetzt. Heute sprechen wir im Interview mit den beiden über ihre Erfahrungen.

DSSG ist ein 2015 in Berlin gegründeter Verein, der gemeinsam mit über 300 Freiwilligen aus der ganzen Welt gemeinnützige Organisationen bei ihren Datenvorhaben unterstützt.

Das Interview führten Lina Sophie Pfeiffer und Clara Just:

Welches Problem habt ihr versucht zu lösen?

Julia und Benjamin:
Die manuelle Erfassung von Hilfsangeboten für Wohnungslose der DRK-Gliederungen durch Umfragen und direkten Kontakt ist zeitaufwendig und liefert oft ein unvollständiges Bild. Auch bestehende verbandsweite Datenbanken erfassen nicht alle Angebote des DRK vor Ort. Daher haben wir untersucht, ob es möglich ist, diese Informationen mithilfe datenwissenschaftlicher Methoden automatisiert zu erfassen. Unser Ansatz besteht darin, die öffentlich zugänglichen Websites aller DRK-Gliederungen zu analysieren und anzunehmen, dass diese ihre Hilfsangebote für wohnungslose Menschen auf ihren Websites veröffentlichen. Dadurch erhoffen wir uns eine effiziente und umfassende Erfassung der relevanten Informationen.

Könnt ihr uns einen Einblick in den Arbeitsprozess geben?

Julia und Benjamin:
Kurz gesagt haben wir vier Prozessschritte angewendet, um die Hilfsangebote der DRK-Gliederungen für wohnungslose Menschen automatisiert zu erfassen.

Zunächst haben wir die Webadressen der Gliederungen gesammelt und die zugehörigen Internetdaten durch Web Scraping gespeichert.
Danach haben wir über 600.000 Dokumente hinsichtlich ihrer Relevanz und Schlüsselwörter sortiert. Dabei haben wir Kriterien identifiziert, die es uns ermöglichten, zwischen den Dokumenten zu unterscheiden, und Schlüsselwörter mit Hilfe des TF-IDF[4] Algorithmus gewonnen.
Anschließend haben wir eine semantische Suchfunktion verwendet. Diese Suchfunktion hat anhand von Sprachmodellen und der Ähnlichkeit zwischen Suchbegriffen und Schlüsselwörtern relevante Dokumente ausgewählt. Dabei wurde nicht nur auf ähnliche Wörter geachtet, sondern auch auf die Bedeutung der Begriffe, um auch Dokumente mit ähnlicher Bedeutung zu finden. Zum Beispiel hat das Tool nicht nur den Begriff “Kältebus”, sondern auch Synonyme wie “Wärmebus” und “Obdachbus” erfasst.
Schließlich haben wir die Suchergebnisse bewertet und wichtige Informationen zu den Hilfsangeboten extrahiert, wie Ansprechpartner, Kontaktinformationen, Öffnungszeiten und Tätigkeitsbereiche der Projekte. Diese konnten dann gesammelt dem DRK-Team, das für die Angebote für wohnungslose Menschen zuständig ist, überreicht werden.

Was war die größte Herausforderung bei der Umsetzung des Projekts?

Julia und Benjamin:
Eine gute Frage. In diesem Projekt gab es eine Reihe von Hürden, die wir bewältigen mussten.

Eine der größten Herausforderungen war das Fehlen eines geeigneten Sprachmodells zur Analyse der gescrapten Daten. Innerhalb des DRKs hatten bestimmte Begriffe eine andere Bedeutung als außerhalb, was zu Missverständnissen bei der Suche nach spezifischen Angeboten führte. In der DRK-Sprachwelt werden beispielsweise die Begriffe “Kältehilfe” und “Wärmehilfe” synonym verwendet. Außerhalb der DRK-Sprachdomäne suggerieren die Wortbestandteile “Kälte” und “Wärme” jedoch einen gegensätzlichen Zustand. Wärmehilfe wurde daher durch das eingesetzte Sprachmodell fälschlicherweise mit der Wasserwacht in Verbindung gebracht.

Inwiefern bieten datenwisschenschaftliche Erhebungsmethoden Vorteile in der Projektarbeit?

Julia und Benjamin:
Im ersten Schritt haben wir ein sogenanntes Proof of Concept Projekt durchgeführt, in welchem wir die generelle Machbarkeit der Lösung des Problems mit datenwissenschaftlichen Methoden unter Beweis gestellt haben. Die Potentiale unseres Ansatzes liegen in der Skalierbarkeit: die gleiche Methodik kann auf andere Bereiche im DRK angewendet werden, z.B. um die Angebote der Kinder- und Jugendhilfe besser zu verstehen oder die Kapazitäten in der Geflüchtetenhilfe zu ermitteln. Unsere automatisierte Herangehensweise zeigt auch Vorteile hinsichtlich der Vollständigkeit: Vergleicht man die Ergebnislisten der konventionellen (über Umfragen erstellte) mit der datenwissenschaftlichen Methode, ist die letztere Ergebnisliste vollständiger und kann mehr Angebote in der Wohnungslosenhilfe aufweisen.

Wie kann Data Science die Wohlfahrt unterstützen?

Julia und Benjamin:
Diese Frage können wir von zwei Seiten betrachten. Zum einen interessiert es uns, wie der digitale Wandel in der Wohlfahrt wahrgenommen wird und welche Herausforderungen damit verbunden sind. Auf der anderen Seite gibt es verschiedene Technologien aus der Industrie und der Open Source Community, die relevant sind.

Die Gesellschaft befindet sich im Wandel. Ihre Erwartungen, Bedürfnisse und Aufmerksamkeit verschieben sich. Dies kann auch Auswirkungen auf die Arbeit der Wohlfahrt haben. Früher musste viel Aufwand betrieben werden, um Spenderinnen und Spender zu erreichen, zum Beispiel mit Haustürwerbung. Durch den digitalen Fortschritt können solche Aktivitäten deutlich erleichtert werden. Es stellt sich die Frage, welche digitalen Möglichkeiten es gibt, um notwendige Mittel bereitzustellen und die Arbeit der DRK-Gliederungen effizienter zu gestalten. Unsere Übersicht erleichtert nun zum Beispiel das Fundraising für die Wohnungslosenhilfe.

Der aus den öffentlich zugänglichen Internetseiten der DRK-Gliederungen erstellte Datensatz eröffnet aus der Data Science-Perspektive zahlreiche Anwendungsmöglichkeiten. Dazu gehören Suchmaschinen, Sprachgenerierung, Chatbots, Frage-Antwort-Anwendungen und Empfehlungssysteme. Wir sind begeistert von der Zusammenarbeit mit dem neu gegründeten DRK Data Science Hub und freuen uns darauf, gemeinsam die Chancen des digitalen Wandels für die Wohlfahrt zu erkunden.

Sehen Sie in Ihrem Projekt ein Potenzial für eine systematischere, möglicherweise automatisierte Erhebung, Nutzung oder Auswertung von Daten? Dann kontaktieren sie den Data Science Hub für Informationen oder eine Kooperation unter data(at)drk(dot)de . Wir freuen uns darauf, mit Ihnen ins Gespräch zu kommen!

[1] Bundesministerium für Arbeit und Soziales, 2022: Ausmaß und Struktur von Wohnungslosigkeit. Der Wohnungslosenbericht 2022 des Bundesministeriums für Arbeit und Soziales, 23.05.2023.

[2] ,,Beim Web Scraping (engl. scraping = „kratzen/abschürfen“) werden Daten von Webseiten automatisch extrahiert und gespeichert, um diese zu analysieren oder anderweitig zu verwerten.“ (Digital Guide Ionos, 2020: Was ist Web Scraping?, 31.05.2023)

[3] Data Matters ist ein Veranstaltungsformat des DRK-Generalsekretariats, bei dem innovative DRK-Datenprojekte vorgestellt werden. Die Veranstaltung findet seit Anfang 2021 regelmäßig statt. Würden Sie Ihr DRK-Datenprojekt gern einmal vorstellen? Melden Sie sich bei data(at)drk(dot)de

[4] ,,TF-IDF steht für Term Frequency-Inverse Document Frequency und ist ein statistisches Maß, mit dem die relative Bedeutung eines Wortes in einem Dokument beurteilt werden kann.” (milkgroup, 2023: TF-IDF, https://www.mikgroup.ch/wissen/tf-idf/,24.05.23)