Die Ansprüche an die Statistik wachsen: Immer mehr Daten sollen immer schneller und genauer bereitstehen. Gleichzeitig möchte man Unternehmen, Bürgerinnen und Bürger von Auskunftspflichten entlasten. Die zunehmende Digitalisierung bietet Möglichkeiten, all diese Ziele gleichzeitig zu verfolgen. Das Hessische Statistische Landesamt (HSL) – mit seinen Pionierarbeiten auf dem Gebiet der experimentellen Statistik durch die Digitalstrategie Hessen gefördert und seit Juni 2022 Patenland für Neue digitale Daten im Statistischen Verbund – erprobt verschiedene experimentelle Statistikmethoden, die eine weitere Modernisierung und Digitalisierung der Statistik versprechen.
Experimentelle Statistik
E-Commerce im Einzelhandel
Webscraping - Daten online sammeln
Mit diesem Artikel veröffentlicht das HSL erstmals regionale Ergebnisse zum E-Commerce des hessischen Einzelhandels, die im Rahmen einer experimentellen Statistik ermittelt wurden. Mit einem Webscraping-Verfahren, das im HSL entwickelt und durch die Digitalstrategie Hessen gefördert wurde, haben die Statistikerinnen und Statistiker die öffentlich zugänglichen Internetseiten aller knapp 30 000 hessischen Einzelhandelsunternehmen untersucht und ausgewertet. Ohne ein einziges Unternehmen zu befragen, stellten die Expertinnen und Experten unter anderem fest, welche dieser Einzelhandelsunternehmen im Jahr 2021 über eine eigene Webseite verfügten und darauf E-Commerce betrieben. Das Webscraping-Verfahren ermöglichte eine Vollerhebung mit regionalen Ergebnissen. Im Gegensatz dazu weisen die gesetzlich verankerten Stichprobenerhebungen unter den Einzelhandelsunternehmen bislang keine regionalen Ergebnisse aus, da dies nur mit eingeschränkter Genauigkeit möglich wäre. Mit Webscraping können Ergebnisse außerdem grundsätzlich wesentlich früher veröffentlicht werden, weil die Datenerhebung und -aufbereitung viel weniger Zeit in Anspruch nimmt.
Ergebnisauswertung und regionalisierte Darstellung
Ziel der experimentellen Statistik mittels Webscraping war es herauszufinden, wie der hessische Einzelhandel im E-Commerce aufgestellt ist, ohne Daten durch Befragungen erheben zu müssen. Damit sollten zugleich die Vor- und Nachteile des Webscraping-Verfahrens analysiert werden. Die folgende Grafik stellt die Ergebnisse nach Größenklassen für Unternehmen mit Webseite, mit Onlineshop auf der eigenen Webseite und ohne Webseite in Hessen im Jahr 2021 dar. 38,7 Prozent der Einzelhandelsunternehmen hatten eine eigene Webseite und 9,4 Prozent hatten eine eigene Webseite mit Onlineshop. Betrachtet man alle hessischen Einzelhandelsunternehmen, so hatten mit 61,3 Prozent die meisten von ihnen keine Internetpräsenz. Das Bild verändert sich stark, wenn man nur Unternehmen mit 10 oder mehr Beschäftigten betrachtet: 71,8 Prozent der Unternehmen mit 10 bis 49 Beschäftigten und 89,3 Prozent der Einzelhandelsunternehmen mit 50 oder mehr Beschäftigten hatten eine eigene Webseite. Rund ein Viertel der großen Einzelhandelsunternehmen mit 50 oder mehr Beschäftigten hatten einen Onlineshop auf der eigenen Webseite.

In einem zweiten Schritt wurden die Webscraping-Ergebnisse regionalisiert. Dabei wurden nur größere Einzelhandelsunternehmen mit 10 oder mehr Beschäftigten berücksichtigt. Unter dieser Annahme wurden insgesamt 3 213 Einzelhandelsunternehmen in Hessen identifiziert. 73,9 Prozent dieser Unternehmen unterhielten eine eigene Webseite und 18,5 Prozent von ihnen führten eine Webseite mit Onlineshop. 26,1 Prozent der Unternehmen mit 10 oder mehr Beschäftigten hatten keine eigene Internetpräsenz. Die beiden folgenden Grafiken repräsentieren die regionale Verteilung dieser Ergebnisse in Hessen für das Jahr 2021. Auf der linken Seite wird der regionale Anteil von Einzelhandelsunternehmen mit 10 oder mehr Beschäftigten, die eine Webseite betreiben, dargestellt. Die Karte rechts zeigt, wie sich die Zahl der Unternehmen derselben Größenklasse mit Onlineshop auf der eigenen Webseite in Hessen verteilt. Beide Karten sind nach Landkreisen und kreisfreien Städten gegliedert.

Die Ergebnisse des Webscrapings zeigen, dass die Wissenschaftsstadt Darmstadt einen besonders großen Anteil von Einzelhandelsunternehmen mit eigener Webseite aufweist. Dort sitzt außerdem der größte Anteil von Unternehmen, die über eine eigene Webseite mit Onlineshop verfügen. Im Detail: In Darmstadt wurden insgesamt 89 Einzelhandelsunternehmen mit 10 oder mehr Beschäftigten identifiziert, von denen 85,4 Prozent eine Webseite und 28,1 Prozent eine Webseite mit Onlineshop besaßen. 14,6 Prozent dieser Darmstädter Einzelhandelsunternehmen hatten keine Internetpräsenz. Die Stadt Frankfurt am Main verzeichnete mit 316 Einzelhändlern die größte Anzahl identifizierter Unternehmen mit 10 oder mehr Beschäftigten. 63,9 Prozent von ihnen hatten eine Webseite und 19 Prozent eine Webseite mit Onlineshop. Darüber hinaus zeigt die Karte rechts, dass Unternehmen mit Onlineshop auf der eigenen Webseite in den Landkreisen Fulda, Groß-Gerau, Hochtaunuskreis, Marburg-Biedenkopf, Offenbach und Main-Kinzig-Kreis sowie der kreisfreien Stadt Wiesbaden überdurchschnittlich hohe Anteile ausmachen.
Webscraping – Methodik und Potenziale
Mit Webscraping können Unternehmenswebseiten automatisiert gesucht, heruntergeladen und ausgewertet werden. Ausgehend von den Datensätzen im statistischen Unternehmensregister (URS) wurden die hessischen Einzelhandelsunternehmen1) mit Namen und Gemeinde des Unternehmenssitzes in einer Suchmaschine gesucht. Die zehn ersten Ergebnisse2) wurden gespeichert und in einem nächsten Schritt automatisiert „gescrapt“, also heruntergeladen. Von diesem Verfahrensschritt kommt auch der Name „Webscraping“. Die so entstandenen Textdaten wurden nach Unternehmensmerkmalen wie zum Beispiel der Adresse oder der Umsatzsteuer-ID durchsucht. Anschließend wurde mithilfe von maschinellem Lernen ermittelt, ob eine Webseite zu dem gesuchten Unternehmen gehört. Dazu wurden zunächst 2 000 Einzelhandelsunternehmen manuell recherchiert, um den Algorithmus mit den gewonnenen Daten zu trainieren. Der so entstandene Datensatz wurde in Trainingsdaten (80 Prozent) und Testdaten (20 Prozent) aufgeteilt. Mit ihrer Hilfe wurde das Verfahren evaluiert. Das Ergebnis: In den Testdaten konnten für 82,3 Prozent der Unternehmen entweder die korrekten URLs gefunden oder korrekterweise keine URLs gefunden werden. 17,7 Prozent der Suche waren nicht erfolgreich. Dieses Ergebnis ist vergleichbar mit ähnlichen Studien in der amtlichen Statistik in Europa (Barcaroli et al. 2016; Delden et al. 2019).
Nach dem Training des Algorithmus und der Evaluation wurde der Algorithmus auf die rund 28 000 hessischen Einzelhandelsunternehmen angewendet, die nicht in den manuell recherchierten Trainingsdaten enthalten waren. Mit diesem Scraping-Vorgang wurden alle Unternehmen des hessischen Einzelhandels identifiziert, die eine eigene Webseite haben. Im nächsten Schritt wurden die gefundenen Unternehmenswebseiten danach klassifiziert, ob ein Onlineshop integriert ist. Dafür war es hilfreich, dass die meisten Onlineshops über einen Warenkorb verfügen, der mit „Wenn-Dann-Regeln“ identifiziert werden kann. Wenn kein Warenkorb gefunden wurde, wurde darauf geschlossen, dass sich auf der Webseite kein Onlineshop befindet. Die Genauigkeit3) bei dieser regelbasierten Klassifikation betrug 93,4 Prozent.
Einschränkungen des Webscraping-Verfahrens
Bei den oben beschriebenen Ergebnissen müssen einige Einschränkungen bedacht werden. Die Testdaten der automatisierten Suche zeigen, dass das Verfahren bei 17,7 Prozent der Unternehmen nicht erfolgreich war. Der häufigste Fehler war mit 9,6 Prozent, dass für ein Unternehmen mit Webseite keine URL gefunden wurde. 5,7 Prozent der Unternehmen, die laut manueller Recherche keine Webseite haben, wurde fälschlicherweise eine URL zugeordnet und für 2,4 Prozent der Unternehmen mit Webseite wurde eine falsche URL identifiziert. Bezogen auf das Gesamtergebnis muss man deshalb annehmen, dass der Anteil von Unternehmen mit eigener Webseite von dem experimentellen Webscraping-Verfahren unterschätzt wird. Auch die genutzte Methode der E-Commerce-Klassifikation unterschätzt den Anteil von Unternehmen mit E-Commerce leicht. Das ist darauf zurückzuführen, dass Onlineshops ohne Warenkorb nicht erkannt werden. Die hohe Genauigkeit von 93,4% bei der E-Commerce-Klassifikation deutet aber an, dass nur wenige Unternehmen aus diesem Grund nicht als Onlineshop erkannt wurden. Eine selbstgewählte Einschränkung dieser experimentellen Statistik ist, dass E-Commerce-Plattformen wie Amazon oder eBay aus der automatischen URL-Suche ausgeschlossen wurden: Unternehmensauftritte auf solchen Plattformen sind keine Unternehmenswebseiten. Unternehmen, die nur auf E-Commerce-Plattformen verkaufen, nicht aber auf einer eigenen Webseite, werden mit diesem Verfahren nicht als Teilnehmer beim E-Commerce erkannt.
Fazit
Der wesentliche Vorteil der Webscraping-Methode besteht darin, dass Vollerhebungen ohne Mehraufwand für Auskunftspflichtige durchgeführt werden können. Darüber hinaus können Daten aus einer Vollerhebung auch in tiefer regionaler Gliederung wie hier auf Kreisebene dargestellt werden. Im Rahmen einer Stichprobenerhebung ist dies in der Regel mit Genauigkeitsverlusten verbunden. Durch den Einsatz des Webscraping-Verfahrens wird erstmals die Veröffentlichung von E-Commerce-Ergebnissen auf Kreisebene möglich.
Um die sichtbar gewordenen Optimierungspotenziale auszuschöpfen, plant das HSL nun methodische Verbesserungen und eine jährliche Wiederholung. So wird die Genauigkeit der URL-Suche weiter gesteigert. Die URL-Suche soll zusätzlich auf bekannten E-Commerce-Plattformen durchgeführt werden, um auch die dort stattfindenden Aktivitäten abbilden zu können. Außerdem wird ein Abgleich mit den Ergebnissen der Strukturerhebung 2020 gemacht, um die Webscraping-Ergebnisse weiter validieren zu können.
Hinweise/Fußnoten
1) Im Gegensatz zur Einzelhandelsstatistik, deren Darstellungseinheit das (statistische) Unternehmen ist, wurde hier die Rechtliche Einheit betrachtet. Eine Rechtliche Einheit entspricht dabei einem Unternehmen als rechtlich selbständiger Einheit, während das (statistische) Unternehmen ggf. mehrere Rechtliche Einheiten umfassen kann.
2) Durch die Beschränkung auf zehn Ergebnisse konnten in vorgelagerten Machbarkeitsuntersuchungen keine negativen Auswirkungen auf die Genauigkeit beobachtet werden.
3) Genauigkeit ist hier definiert als der Anteil von korrekt klassifizierten Webseiten an der Gesamtzahl der Webseiten.
Literatur:
Barcaroli, Giulio; Scannapieco, Monica; Summa, Donato (2016): On the use of internet as a data source for official statistics: a strategy for identifying enterprises on the web. In: Rivista italiana di economia, demografia e statistica 70 (4), S. 20–41.
Delden, Arnout van; Windmeijer, Dick; Bosch, Olav ten (2019): Searching for business websites. CBS (Discussion Paper). Hier Online verfügbarÖffnet sich in einem neuen Fenster.
Heidi Kühnemann
Telefon
Dr. Juan Carlos Peña Méndez
Bautätigkeit
Telefon