Webscraping auf europäischer und internationaler Ebene

Durch den Anstieg von online getriebenem Handel und online getriebener Kommunikation hat das Webscraping-Verfahren in der Amtlichen Statistik der nationalen Statistikämter bereits Anwendung mit guten Ergebnissen gefunden. In einer der frühen Machbarkeitsstudien des automatisierten Gewinnens von digitalen Daten für das Niederländische Statistische Amt (CBS) ergab sich bspw., dass das Erheben und Weiterverarbeiten von digitalen Daten mit Webscraping möglich ist, deutliche Effizienz- und Lerneffekte erzielt werden und insbesondere bei großen Datenmengen zu Vorteilen bzgl. Datenbereitstellungsgeschwindigkeit und Datenqualität führt. Dabei müssen jedoch insbesondere die Kosten, die durch Anpassungen der Verfahren bei Änderungen der Webseiteninfrastruktur anfallen, berücksichtigt werden (siehe Hoekstra, ten Bosch und Harteveld, 2012).

Ein erster häufiger Anwendungsbereich für das Webscraping nationaler amtlicher Statistikinstitute war das automatisierte Erheben von Konsumentenpreisen. Das Verfahren wurde bspw. erfolgreich für das Berechnen der argentinischen Online-Inflationsrate mit Daten von Onlinehändlern von 2007 – 2011 genutzt. Die Online-Inflationsrate übertraf dabei die herkömmlich berechnete um das Dreifache (siehe Cavallo, 2013). Auf europäischer Ebene hatte sich das italienische nationale Statistikamt (ISTAT) erfolgreich mit der automatisierten Erhebung von Konsumentenpreisen im Internet per Webscraping innerhalb des europäischen Projekts „Multipurpose Price Statistics (MPS)“ beteiligt (siehe Polidoro und andere, 2015). Das Statistische Bundesamt verwendet das Webscraping bereits seit einigen Jahren erfolgreich und in zunehmendem Umfang in seiner Preisstatistik (siehe Brunner, 2014 oder Schäfer und Bieg, 2016). Nachfolgend wurde das Webscraping auch auf andere Bereiche der nationalen Statistiken ausgedehnt.

EUROSTAT und nationale, statistikbezogene Behörden und Institute gründeten das Netzwerk des europäischen statistischen Systems (ESSnet), um auf europäischer Ebene vergleichbare Statistiken zu produzieren. Innerhalb des Netzwerkes wurde das ESSnet-Projekt „Big Data“ nach einer Ausschreibung der europäischen Kommission von 22 nationalen Partnern beschlossen und ins Leben gerufen. Dieses Projekt hatte die Integration von Big Data in die europäischen amtlichen Statistiken zum Ziel. Es bestand aus insgesamt 8 Arbeitspaketen, die das Gewinnen von Neuen Digitalen Daten über verschiedene Methoden und Wege beinhalteten. Die Arbeitspakete 1 und 2 deckten dabei das Ermitteln von neuen digitalen Daten mit Webscraping-Verfahren ab.

Das Arbeitspaket WP1 „Webscraping job vacancies“ befasste sich mit dem automatischen Extrahieren von Informationen über Jobangebote auf u. a. Jobportalen oder Unternehmenswebseiten. Neben den Ländern Tschechien, Italien, Großbritannien und Irland, hatte sich das Statistische Bundesamt für Deutschland mit einem eigenen Pilotprojekt innerhalb dieses europäischen Rahmens beteiligt: Eine Machbarkeitsstudie zur Erfassung von Stellenausschreibungen auf Jobbörsen (GigaJob.de, Online-Stellenmarkt.net, Jobs.meinetadt.de) für den deutschen Arbeitsmarkt (siehe Zwick und Wiengarten, 2017).

Das Arbeitspaket WP2 „Webscraping enterprise characteristics“ thematisierte die  automatisierte Suche, Speicherung, Strukturierung und Verknüpfung von Unternehmenswebseiten mit den Datensätzen der amtlichen Fachstatistiken. Das Ziel war, bestehende Wirtschafts- und Unternehmensregister mit den digitalen Unternehmensinformationen anzureichern und zu verbessern. Im Rahmen des Projektes wurden als experimentelle Statistiken folgende Merkmale von Unternehmen auf Basis der nationalen Unternehmensregister erhoben:

  • Anzahl von Unternehmenswebseiten,
  • Unternehmen mit E-Commerce-Aktivitäten,
  • Anzahl von Stellenangeboten auf Unternehmenswebseiten,
  • Präsenz der Unternehmen in den sozialen Medien.

Hier waren die nationalen Statistikinstitute der folgenden Länder beteiligt: Italien, Bulgarien, Niederlande, Polen, Großbritannien und Schweden. Deutschland war an diesem Projekt nicht beteiligt. Das Italienische Nationale Statistikamt (ISTAT) war hierbei federführend.
ISTAT entwickelte eigene Java-Such-Routinen und hat mit 78 000 Unternehmenswebseiten mit Abstand den größten Beitrag an der automatisierten Informationsextraktion von Unternehmenswebseiten geleistet. Die Suchroutinen wurden auch von den beteiligten Ländern Polen und Bulgarien erfolgreich angewandt.

Die in den Arbeitspaketen enthaltenen Machbarkeitsstudien wurden von Februar 2016 bis Mai 2018 durchgeführt und mit teils guten Ergebnissen zum Webscraping von Unternehmenswebseiten und Unternehmenseigenschaften fertiggestellt. In den Pilotprojekten kamen die sechs teilnehmenden, nationalen  Statistikämter zu dem Schluss, dass mit dem Webscraping-Verfahren mit verschiedenen Methodenansätzen hochwertige Ergebnisse erzielt werden können, die Verfahren jedoch sehr aufwendig sind und noch vor vielen Herausforderungen stehen.

In einer neuen Ausschreibung der Europäischen Kommission für ein weiteres EU-weites Forschungsprojekt („ESSnet Big Data II“, 2018-2020) wurden weitere fünf mögliche Pilotprojekte definiert. Das Arbeitspaket „Smart Tourism“ widmet sich dabei dem Thema „innovative Datenquellen und Methoden in der Tourismusstatistik“. Viele Daten, die für die Tourismusstatistik von Relevanz sind, sind heutzutage ebenfalls im Internet auf Onlineportalen wie u. a. Reiseportalen, Buchungsportalen oder Webseiten von Beherbergungs- und Tourismusbetrieben vorhanden. Sollte dieses Arbeitspaket zu den mindestens drei geförderten Projekten im europäischen Rahmen zählen, könnte das Webscraping als fundamentale Methode zum Extrahieren der digitalen Tourismusdaten aus dem Internet dabei eine zentrale Rolle spielen.

Zum Inhaltsverzeichnis                          zurück                          weiter