Daten aus Hotelportalen

Daten aus Internetportalen können helfen, die amtliche Statistik aktueller und vollständiger zu machen sowie manuelle Recherchearbeiten zu reduzieren. Im Idealfall müssen Merkmale künftig nicht mehr über die Auskunftspflichtigen erfragt werden.

Projektziel

Die Einsatzmöglichkeiten von öffentlich zugänglichen Daten aus Internetportalen in der amtlichen Statistik werden am Beispiel der Beherbergungsstatistik untersucht. Hier steht die Verknüpfung der Daten von Hotelportalen mit den Daten der Beherbergungsstatistik im Fokus.

Datengrundlage

In öffentlich zugänglichen Portalen inserieren Beherbergungsbetriebe. Angegeben wird dort der Name der Unterkunft, die Adresse und Informationen zur Kontaktaufnahme (E-Mailadresse, Telefonnummer) sowie Ausstattungsmerkmale (insbesondere Anzahl Schlafgelegenheiten und Zimmer). Diese Angaben werden auch im Rahmen der Beherbergungsstatistik von der amtlichen Statistik erhoben und können nach einer Verknüpfung verglichen werden.

Methodik/Vorgehensweise

Die Methode, die hier angewandt wird, bezeichnet man als Webscraping. Durch Webscraping werden relevante Daten von den Hotelportalen automatisch extrahiert und aufbereitet. Ein typisches Vorgehen ist, sich innerhalb einer Region (einer Gemeinde, einer Stadt, eines Landkreises oder Bundeslandes) alle (buchbaren) Unterkünfte auflisten zu lassen. Die Seiten der Hotelportale werden aufgerufen, um hieraus relevante Daten zu extrahieren und zu speichern.

Es wird darauf geachtet, dass sowohl Seitenbetreibende als auch andere Nutzende nicht beeinträchtigt werden. Selbstverständlich werden Zugangsbeschränkungen nicht umgangen und zudem auch nicht das vollständige Angebot des Hotelportals erfasst.

Wenn zur Verknüpfung der öffentlich zugänglichen Internetdaten und der Daten der Beherbergungsstatistik keine eindeutigen Verknüpfungsmerkmale vorliegen, wird ein Verfahren aus dem Bereich des maschinellen Lernens angewandt (probabilistisches Record-Linkage).

Ergebnisse

Die technische Machbarkeit für die regelmäßige Nutzung von öffentlich zugänglichen Daten aus dem Internet konnte nachgewiesen werden. Die Verknüpfung mit dem Berichtskreis der Beherbergungsstatistik war ebenfalls erfolgreich.
Durch die Verknüpfung konnten sogar auskunftspflichtige Betriebe identifiziert werden, die noch nicht im Rahmen der Beherbergungsstatistik berichteten. Insgesamt stellte sich heraus, dass Webscraping die manuelle Recherche zur Berichtskreisermittlung unterstützt: Die Erstellung der Beherbergungsstatistik ist damit effizienter, vollständiger und genauer.

Schlagworte zum Thema