Experimentelle Statistik
Daten aus Hotelportalen
Projektziel
Die Einsatzmöglichkeiten von öffentlich zugänglichen Daten aus Internetportalen in der amtlichen Statistik werden am Beispiel der Beherbergungsstatistik untersucht. Hier steht die Verknüpfung der Daten von Hotelportalen mit den Daten der Beherbergungsstatistik im Fokus.
Datengrundlage
In öffentlich zugänglichen Portalen inserieren Beherbergungsbetriebe. Angegeben wird dort der Name der Unterkunft, die Adresse und Informationen zur Kontaktaufnahme (E-Mailadresse, Telefonnummer) sowie Ausstattungsmerkmale (insbesondere Anzahl Schlafgelegenheiten und Zimmer). Diese Angaben werden auch im Rahmen der Beherbergungsstatistik von der amtlichen Statistik erhoben und können nach einer Verknüpfung verglichen werden.
Methodik/Vorgehensweise
Die Methode, die hier angewandt wird, bezeichnet man als Webscraping. Durch Webscraping werden relevante Daten von den Hotelportalen automatisch extrahiert und aufbereitet. Ein typisches Vorgehen ist, sich innerhalb einer Region (einer Gemeinde, einer Stadt, eines Landkreises oder Bundeslandes) alle (buchbaren) Unterkünfte auflisten zu lassen. Die Seiten der Hotelportale werden aufgerufen, um hieraus relevante Daten zu extrahieren und zu speichern.
Es wird darauf geachtet, dass sowohl Seitenbetreibende als auch andere Nutzende nicht beeinträchtigt werden. Selbstverständlich werden Zugangsbeschränkungen nicht umgangen und zudem auch nicht das vollständige Angebot des Hotelportals erfasst.
Wenn zur Verknüpfung der öffentlich zugänglichen Internetdaten und der Daten der Beherbergungsstatistik keine eindeutigen Verknüpfungsmerkmale vorliegen, wird ein Verfahren aus dem Bereich des maschinellen Lernens angewandt (probabilistisches Record-Linkage).
Ergebnisse
Die technische Machbarkeit für die regelmäßige Nutzung von öffentlich zugänglichen Daten aus dem Internet konnte nachgewiesen werden. Die Verknüpfung mit dem Berichtskreis der Beherbergungsstatistik war ebenfalls erfolgreich.
Durch die Verknüpfung konnten sogar auskunftspflichtige Betriebe identifiziert werden, die noch nicht im Rahmen der Beherbergungsstatistik berichteten. Insgesamt stellte sich heraus, dass Webscraping die manuelle Recherche zur Berichtskreisermittlung unterstützt: Die Erstellung der Beherbergungsstatistik ist damit effizienter, vollständiger und genauer.
Weitere Informationen
Patrik Vollmer
Experimentelle Statistik
Telefon