OSM-Check: OpenStreetMap-Daten durch staatliche Datensätze verifizieren

OSM-Check Visueller Abgleich von OpenStreetMap-Daten und staatlichen Daten am Beispiels von Gesundheitsämtern

Kurz gefasst

Mit einem ausführbaren, englischen Skript (“Jupyter Notebook”) auf der Plattform Google Colab zeige ich anhand des Beispieldatensatzes von deutschen Gesundheitsämtern, wie man standardisiert einen staatlichen POI-Geodatensatz mit OpenStreetMap-Daten vergleicht. Das Ziel ist es, die OSM-Daten anhand der staatlichen Daten zu validieren und Lücken zu schließen. Fehlende Daten können nach dem Ausführen des Skripts z. B. bei einem OSM-Hackathon händisch ergänzt werden. Das Skript entstand bereits während der Corona-Krise und mittlerweile könnten Teile veraltet sein, obgleich der grundlegende Ansatz identisch bleibt. Das Skript habe ich am Ende dieses Artikels verlinkt.

Im Detail erklärt

OpenStreetMap (“OSM”) bietet schnell und kostenlos frei nutzbare Geodaten aus der ganzen Welt. Egal, ob man die Daten händisch herunterladen oder automatisiert über eine Schnittstelle abrufen möchte, an die OSM-Daten zu gelangen funktioniert schnell und fast problemlos. Die schnelle Verfügbarkeit von Daten ist einer der großen Pluspunkte von OpenStreetMap, dennoch finden sich, wie bei jeder von Freiwilligen gepflegten Datenbank, auch Nachteile. Wenn viele Freiwillige ihre knappe Zeit dazu nutzen, die Daten aktuell zu halten, kann es aus Fairnessgründen keine Garantie für die Vollständigkeit der Daten geben.

Bei staatlichen Daten sollte man hingegen davon ausgehen, dass diese vor der Veröffentlichung auf Vollständigkeit geprüft wurden. Das Problem bei diesen liegt dagegen eher in ihrer mangelnden Verfügbarkeit. Oft ist es kompliziert, auf einfache Art und Weise an staatliche Daten heranzukommen. Im Gegensatz zu OSM sind die Absdeckungslücken groß, und bei jedem noch unveröffentlichten Datensatz nachzufragen, kostet viel Zeit, Aufwand und Geduld.

Gesundheitsamt Dortmund Außenansicht des Gesundheitsamt Dortmund

Sind staatliche Daten aber bereits unter einer freien Lizenz veröffentlich worden, ****können sie genutzt werden, um die OSM-Datenlandschaft zu komplettieren. Oft sind die Daten aber so umfangreich, dass für einen manuellen Abgleich Stunden oder Tage benötigt werden würden. Ich möchte mit meinem Skript eine Hilfestellung liefern, wie man OSM- und staatliche Daten auf einfache Art und Weise visualisiert und miteinander abgleicht. Dabei fokussiere ich mich der Einfachheit halber auf sogenannte Points of Interest (“POI”). In OSM bezeichnet dieser Begriff spezielle Orte oder Objekte, die für Menschen interessant oder nützlich sein könnten, also beispielsweise Krankenhäuser, Restaurants, Freibäder – oder eben Gesundheitsämter.

Als Beispielsdatensatz für einen Abgleich habe ich die Gesundheitsämter in Deutschland ausgewählt. Der Gesundheitsämter-Datensatz wurde während der Corona-Epidemie veröffentlicht – auch aufgrund der großen öffentlichen Nachfrage nach Daten aus dem Bereich Gesundheit. Veröffentlicht wurden die Daten durch ein gemeinsames Projekt des Bundesamt für Kartographie und Geodäsie (“BKG”) und der Open Data Working Group von FOSSGIS e.V. (“Freie und Open Source Software für Geoinformationssysteme”), einem gemeinnützigen Verein. Ein paar Wochen später entstand mein Skript dazu, welches ich in den Kommentaren verlinkt habe.

Ohne maschinelle Hilfe wäre insbesondere der Vergleich und die Identifikation hunderter bis tausender OSM-Datenpunkte mit den Datensätzen ganzer Länder eine fast unlösbare Aufgabe. Sind fehlende Datenpunkte einmal identifiziert, ist die OSM-Community aus guten Gründen bisher noch skeptisch, diese automatisiert in die Datenbank aufzunehmen. Ich sehe aus diesem Grund die Möglichkeit, die aus dem Ausführen des Skripts gewonnenen Erkenntnisse dazu zu nutzen, bei einem OSM-Hackathon fehlende Daten zu ergänzen.

Auf Google Colab liegt das Script zum Abgleich der OSM-Daten.

Tim Fangmeyer
Tim Fangmeyer
Aspiring data engineer and part-time wordsmith