E-Commerce im Einzelhandel

Neue regionale Daten einer experimentellen Statistik

Von Heidi Kühnemann

Erstveröffentlichung: 26.07.2022 | Aktualisierung: 28.08.2023

Die Ansprüche an die Statistik wachsen: Immer mehr Daten sollen immer schneller und genauer bereitstehen. Gleichzeitig möchte man Unternehmen sowie Bürgerinnen und Bürger von Auskunftspflichten entlasten. Die zunehmende Digitalisierung bietet Möglichkeiten, all diese Ziele gleichzeitig zu verfolgen. Das Hessische Statistische Landesamt (HSL) erprobt verschiedene Methoden, die eine weitere Modernisierung und Digitalisierung der Statistik versprechen und wird dabei durch finanzielle Mittel der Digitalstrategie Hessen gefördert.

  1. Webscraping - Daten online sammeln
  2. Ergebnisauswertung und regionalisierte Darstellung
  3. Methodik und Potenziale
  4. Einschränkungen des Webscraping-Verfahrens
  5. Fazit

Webscraping - Daten online sammeln

Das HSL veröffentlicht regionale Ergebnisse auf Gemeindeebene zum E-Commerce des hessischen Einzelhandels, die im Rahmen einer experimentellen Statistik ermittelt wurden. Der so genannte Electronic Commerce (kurz E-Commerce) bezeichnet den Online-Handel. Der Fokus der Auswertung liegt dabei auf Unternehmen, die Produkte über ihre eigene Website verkaufen. Erstmals werden diese Ergebnisse auch auf Ebene der Gemeinden dargestellt. Das Webscraping-Verfahren wurde durch die Digitalstrategie Hessen gefördert. Mit dem Verfahren hat das HSL die öffentlich zugänglichen Internetseiten – falls vorhanden – aller knapp 30 000 hessischen Einzelhandelsunternehmen untersucht und ausgewertet. Ohne zusätzlichen Befragungsaufwand für Unternehmerinnen und Unternehmer konnte unter anderem festgestellt werden, welche Einzelhandelsunternehmen im Jahr 2022 Online-Handel betrieben haben. Das Webscraping-Verfahren ermöglicht eine Vollerhebung mit regionalen Ergebnissen. Mittels Webscraping können Ergebnisse außerdem wesentlich früher veröffentlicht werden, weil die Datenerhebung und -aufbereitung digital und unmittelbar erfolgt.

Ergebnisauswertung und regionalisierte Darstellung 

Ziel dieser experimentellen Statistik mittels Webscraping war es, herauszufinden, wie der hessische Einzelhandel im E-Commerce aufgestellt ist, ohne Daten zusätzlich bei Unternehmerinnen und Unternehmern erheben zu müssen. Die folgende Grafik stellt die Ergebnisse nach Größenklassen für Unternehmen (1) mit Website, (2) mit eigenem Onlineshop und (3) ohne Website in Hessen nach Größenklassen im Jahr 2022 dar. 35,7 Prozent der Einzelhandelsunternehmen hatten eine eigene Website und 10,8 Prozent hatten eine eigene Website mit Onlineshop. Betrachtet man alle hessischen Einzelhandelsunternehmen, so hatten mit 64,3 Prozent die meisten von ihnen keine Internetpräsenz. Das Bild verändert sich stark, wenn man nur Unternehmen mit zehn oder mehr Beschäftigten betrachtet: 63,1 Prozent der Unternehmen mit zehn bis 49 Beschäftigten und 68,3 Prozent der Einzelhandelsunternehmen mit 50 oder mehr Beschäftigten hatten eine eigene Website. Etwas über ein Viertel der großen Einzelhandelsunternehmen mit 50 oder mehr Beschäftigten hatten einen Onlineshop auf der eigenen Website.

Säulendiagramm zur Internetpräsenz von Einzelhandelsunternehmen in Hessen im Jahr 2022 nach Größenklassen in Prozent
Bild in Originalgröße herunterladen

Für die regionale Darstellung auf Kreisebene wurden nur Einzelhandelsunternehmen mit zehn oder mehr Beschäftigten berücksichtigt. Unter diesem Auswahlkriterium wurden insgesamt 3 290 Einzelhandelsunternehmen in Hessen identifiziert. 63,8 Prozent dieser Unternehmen unterhielten eine eigene Website und 18,9 Prozent von ihnen führten eine Website mit Onlineshop. 36,2 Prozent der Unternehmen mit zehn oder mehr Beschäftigten hatten keine eigene Internetpräsenz. Die beiden folgenden interaktiven Karten repräsentieren die regionale Verteilung dieser Ergebnisse in Hessen für das Jahr 2022. Auf der Karte 1 wird der regionale Anteil von Einzelhandelsunternehmen mit zehn oder mehr Beschäftigten, die eine Website betreiben, dargestellt. Die Karte 2 zeigt, wie sich die Zahl der Unternehmen derselben Größenklasse mit Onlineshop auf der eigenen Website in Hessen verteilt. Beide Karten sind nach Landkreisen und kreisfreien Städten gegliedert.

Karte 1: Internetpräsenz von Einzelhandelsunternehmen in den hessischen Landkreisen und kreisfreien Städten 2022

Karte 2: Online-Shop auf der eigenen Website von Einzelhandelsunternehmen in den hessischen Landkreisen und kreisfreien Städten 2022

Die Ergebnisse des Webscrapings zeigen, dass die Wissenschaftsstadt Darmstadt einen besonders großen Anteil an Einzelhandelsunternehmen mit eigener Website aufweist. Dort sitzt außerdem der größte Anteil von Unternehmen, die über eine eigene Website mit Onlineshop verfügen. Im Detail: In Darmstadt wurden insgesamt 91 Einzelhandelsunternehmen mit zehn oder mehr Beschäftigten identifiziert, von denen 70,3 Prozent eine Website und 26,4 Prozent eine Website mit Onlineshop besaßen. Die Stadt Frankfurt am Main verzeichnete mit 331 Einzelhändlerinnen und Einzelhändlern die größte Anzahl identifizierter Unternehmen mit zehn oder mehr Beschäftigten. 57,1 Prozent von ihnen hatten eine Website und 18,7 Prozent eine Website mit Onlineshop. Darüber hinaus zeigt die Karte 2, dass Unternehmen mit Onlineshop auf der eigenen Website in den Landkreisen Fulda, Offenbach, Hochtaunuskreis, Groß-Gerau, Bergstraße und Main-Kinzig-Kreis sowie in der Documenta-Stadt Kassel überdurchschnittlich hohe Anteile ausmachen.

Neben der Auswertung auf Kreisebene ist auch eine Darstellung von Unternehmen mit eigener Website und Onlineshop auf Ebene der Gemeinden möglich. Aus Gründen der statistischen Geheimhaltung werden nur Ergebnisse für Gemeinden ausgewiesen, in denen vier oder mehr Einzelhandelsunternehmen ihren Unternehmenssitz haben. Gemeinden mit weniger Einzelhandelsunternehmen werden in der Karte grau dargestellt. Die interaktiven Karten stellen die Anteile von hessischen Einzelhandelsunternehmen in jeder Gemeinde für Einzelhandelsunternehmen aller Größen oder nur für Einzelhandelsunternehmen mit zehn oder mehr tätigen Personen dar. Bei der Darstellung von Einzelhandelsunternehmen mit zehn oder mehr tätigen Personen ist ein größerer Teil der Gemeinden ausgegraut, da hier die Gemeinde des Unternehmenssitzes betrachtet wird – nicht die Standorte der unterschiedlichen Niederlassungen.

Karte 3: Internetpräsenz von Einzelhandelsunternehmen in den hessischen Gemeinden 2022

Karte 4: Online-Shop auf der eigenen Website von Einzelhandelsunternehmen in den hessischen Gemeinden 2022

Methodik und Potenziale 

Mit Webscraping können Unternehmens-Websites automatisiert gesucht, heruntergeladen und ausgewertet werden. Ausgehend von den Datensätzen im statistischen Unternehmensregister (URS) wurden die hessischen Einzelhandelsunternehmen1) mit Namen und Gemeinde des Unternehmenssitzes in einer Suchmaschine gesucht. Die zehn ersten Ergebnisse2) wurden gespeichert und in einem nächsten Schritt automatisiert „gescrapt“, also heruntergeladen. Von diesem Verfahrensschritt kommt auch der Name „Webscraping“. Die so entstandenen Textdaten wurden nach Unternehmensmerkmalen wie zum Beispiel der Adresse oder der Umsatzsteuer-ID durchsucht. Anschließend wurde mithilfe von maschinellem Lernen ermittelt, ob eine Website zu dem gesuchten Unternehmen gehört. Dazu wurden zunächst 2 000 Einzelhandelsunternehmen manuell recherchiert, um den Algorithmus mit den gewonnenen Daten zu trainieren. Der so entstandene Datensatz wurde in Trainingsdaten (80 Prozent) und Testdaten (20 Prozent) aufgeteilt. Mit ihrer Hilfe wurde das Verfahren evaluiert. Das Ergebnis: In den Testdaten konnten für 88,2 Prozent der Unternehmen entweder die korrekten URLs gefunden oder korrekterweise keine URLs gefunden werden. 11,8 Prozent der Suche waren nicht erfolgreich. Dieses Ergebnis ist etwas besser als ähnliche Studien in der amtlichen Statistik in Europa (Barcaroli et al. 2016; Delden et al. 2019). Diese Studie wurde für 2022 mit methodischen Verbesserungen bereits im zweiten Jahr in Folge durchgeführt. Die Genauigkeit der URL-Suche konnte dabei um ca. 6 Prozentpunkte erheblich verbessert werden. Dies hat zur Folge, dass die Ergebnisse für 2022 aus der zweiten Studie nicht mit den Ergebnissen für 2021 aus der ersten Studie vergleichbar sind.

Nach dem Training des Algorithmus und der Evaluation wurde der Algorithmus auf die rund 28 000 hessischen Einzelhandelsunternehmen angewendet, die nicht in den manuell recherchierten Trainingsdaten enthalten waren. Mit diesem Scraping-Vorgang wurden alle Unternehmen des hessischen Einzelhandels identifiziert, die eine eigene Website haben. Im nächsten Schritt wurden die gefundenen Unternehmens-Websites danach klassifiziert, ob ein Onlineshop integriert ist. Dafür war es hilfreich, dass die meisten Onlineshops über einen Warenkorb verfügen, der mit „Wenn-Dann-Regeln“ identifiziert werden kann. Wenn kein Warenkorb gefunden wurde, wurde darauf geschlossen, dass sich auf der Website kein Onlineshop befindet. Die Genauigkeit3) bei dieser regelbasierten Klassifikation betrug 93,4 Prozent. 

Einschränkungen des Webscraping-Verfahrens

Bei den oben beschriebenen Ergebnissen müssen einige Einschränkungen bedacht werden. Die Testdaten der automatisierten Suche zeigen, dass das Verfahren bei 11,8 Prozent der Unternehmen nicht erfolgreich war. Dabei war der häufigste Fehler mit 7,3 Prozent, dass für ein Unternehmen mit Website keine URL gefunden wurde. 3,8 Prozent der Unternehmen, die laut manueller Recherche keine Website haben, wurde fälschlicherweise eine URL zugeordnet und für 0,8 Prozent der Unternehmen mit Website wurde eine falsche URL identifiziert. Bezogen auf das Gesamtergebnis muss man deshalb annehmen, dass der Anteil von Unternehmen mit eigener Website von dem experimentellen Webscraping-Verfahren unterschätzt wird. Auch die genutzte Methode der E-Commerce-Klassifikation unterschätzt den Anteil von Unternehmen mit E-Commerce leicht. Das ist darauf zurückzuführen, dass Onlineshops ohne Warenkorb nicht erkannt werden. Die hohe Genauigkeit von 93,4 Prozent bei der E-Commerce-Klassifikation deutet aber an, dass nur wenige Unternehmen aus diesem Grund nicht als Onlineshop erkannt wurden. Eine selbstgewählte Einschränkung dieser experimentellen Statistik ist, dass E-Commerce-Plattformen wie Amazon oder eBay aus der automatischen URL-Suche ausgeschlossen wurden: Unternehmensauftritte auf solchen Plattformen sind keine Unternehmens-Websites. Unternehmen, die nur auf E-Commerce-Plattformen verkaufen, nicht aber auf einer eigenen Website, können mit diesem Verfahren nicht erfasst werden.

Fazit

Der wesentliche Vorteil der Webscraping-Methode besteht darin, dass im Bereich Online-Handel eine Vollerhebung ohne Befragungsaufwand durchgeführt werden kann. Durch den Einsatz des Webscraping-Verfahrens wird zudem die Veröffentlichung von E-Commerce-Ergebnissen auf Kreis- und Gemeindeebene möglich.
Um die sichtbar gewordenen Optimierungspotenziale auszuschöpfen, plant das HSL eine jährliche Wiederholung mit weiteren methodischen Verbesserungen. Insbesondere soll die Genauigkeit der E-Commerce-Klassifikation weiter verbessert werden und die Analyse auf weitere Wirtschaftszweige ausgeweitet werden.

Hinweise/Fußnoten

1) Das Unternehmen entspricht in diesem Fall, wie auch in der hessischen Einzelhandelsstatistik, der rechtlichen Einheit. Eine rechtliche Einheit ist definiert als die kleinste rechtlich selbstständige Einheit, die aus handels- oder steuerrechtlichen Gründen Bücher führt und eine jährliche Feststellung des Vermögensbestandes bzw. des Erfolgs der wirtschaftlichen Tätigkeit vornimmt.
2) Durch die Beschränkung auf zehn Ergebnisse konnten in vorgelagerten Machbarkeitsuntersuchungen keine negativen Auswirkungen auf die Genauigkeit beobachtet werden.
3) Genauigkeit ist hier definiert als der Anteil von korrekt klassifizierten Websites an der Gesamtzahl der Websites.

Literatur:

Barcaroli, Giulio; Scannapieco, Monica; Summa, Donato (2016): On the use of internet as a data source for official statistics: a strategy for identifying enterprises on the web. In: Rivista italiana di economia, demografia e statistica 70 (4), S. 20–41.

Delden, Arnout van; Windmeijer, Dick; Bosch, Olav ten (2019): Searching for business websites. CBS (Discussion Paper). Hier Online verfügbarÖffnet sich in einem neuen Fenster.