Maschinelle Bestimmung der latenten Unternehmenseigenschaft „E-Commerce“

Es gibt Unternehmenseigenschaften, wie die Beteiligung an E-Commerce-Aktivitäten, die für die amtliche Statistik von großem Interesse sind. Diese Eigenschaft ist durch das Vorhandensein eines Onlineshops erfüllt. Oft zeigt der erste Blick auf eine Webseite mit einem aktiven Onlineshop, über den bestellt und bezahlt werden kann, dass sich die Eigenschaft nicht sofort von der Webseite ablesen lässt. Der Betrieb eines Onlineshops für den elektronischen Versandhandel ist somit nicht unbedingt direkt und zweifelsfrei aus den Quelltexten der zugeordneten Unternehmenswebseiten elektronisch auslesbar. Es gibt jedoch Merkmale, u. a. das Vorhandensein von Online-Zahlungs-Optionen oder eines Warenkorbs, die mit dem Betrieb eines Onlineshops in einer schätzbaren Verbindung stehen können.

Für die Durchführung der maschinellen Ermittlung der latenten Eigenschaft „Onlineshop“ mussten zunächst geeignete Prädiktoren zur Stützung der erwähnten Zusammenhangshypothese unter den automatisiert erhobenen Merkmalen gefunden werden. Darüber hinaus war die Verfügbarkeit von historischen Daten, in denen die Eigenschaft „Onlineshop“ bereits bekannt war, erforderlich. Für diesen Zweck war eine Stichprobe von zunächst 146 Handelsunternehmen aus den erhobenen Daten gezogen worden. Anschließend ist mit Hilfe manueller Recherche ein binärer Klassifizierer generiert worden, der einen positiven Fall bei beobachten eines Webshops enthielt und einen negativen Fall, wenn sich der jeweiligen Webseite kein Webshop entnehmen ließ.

Eine Assoziationsanalyse mit den historischen Daten ergab signifikante, mittelstarke Zusammenhänge zwischen dem Vorhandensein eines Onlineshops auf den verknüpften Unternehmenswebseiten und den folgenden erhobenen Merkmalen:

  • Vorhandensein einer Einkaufstechnologie (z. B. Shopping Cart, Warenkorb, Login),
  • Vorhandensein einer Bezahltechnologie (z. B. Visakarte, PayPal, Sofortüberweisung).

Mit den geeigneten Prädiktoren wurde nun ein prädiktives, auf Wahrscheinlichkeiten basierendes Modell, wie in den vorherigen Punkten beschrieben, als Verfahren des maschinellen Lernens zum automatisierten Ermitteln von Onlineshops gewählt. Hierfür wurden die historischen Daten zu jeweils 50 % in eine Trainings- und eine Teststichprobe zufällig aufgeteilt. 

Mit dem prädiktiven Modell wurden nun die Kausalitäten zwischen den Prädiktoren und dem Klassifizierer für die Eigenschaft „Webshop“ in der Trainingsstichprobe in einem ersten Lernprozess ermittelt und über die Teststichprobe geprüft. Anschließend, wurden mit Hilfe der gelernten Kausalitäten aus dem Datenbestand der verknüpften Unternehmenswebseiten 15 Datensätze mit einer geschätzten Wahrscheinlichkeit für die Eigenschaft „Onlineshop“ von mindestens 70 % ausgewählt und der historischen Datenstichprobe hinzugefügt. Danach wurde der gesamte Lernprozess mit einem neuen Datenbestand aus Trainings- und Teststichprobe von nun 161 Beobachtungen für einen weiteren Lernprozess noch einmal durchgeführt[1].  

Mit den geschätzten Kausalitäten nach zwei Lernprozessen war es möglich, eine Klassifikation für alle zugeordneten 1111 Webseiten von Unternehmen der IKT 2017 nach

der Eigenschaft „Onlineshop“ durchzuführen. Dabei wurde für etwa 5 % der Unternehmenswebseiten ein Onlineshop vorhergesagt.

Für die nach zwei Lernprozessen überprüften 161 Zuweisungen von Onlineshops ließen sich die Ergebnisse nun wiederrum überprüfen. Abbildung 10 und 11 zeigen die Ergebnisse dieser Prüfung.

Beim Lernprozess 1 wurden in 87,7 % der überprüften Fälle korrekte Prognosen erzielt (Richtigkeitsrate). Darunter waren 5,5 % erkannte Onlineshops und 82,2 % Unternehmenswebseiten ohne Onlineshop. Die recherchierten Onlineshops wurden nur zu 30,8 % richtig erkannt (Sensitivitätsrate). Der Anteil korrekter Zuweisungen von Onlineshops an allen positiven Klassifizierungen betrug jedoch 100,0 % (Präzisionsrate).

Bei 12,3 % der Fälle führte das Verfahren zu falschen Prognosen und hat existierende Onlineshops nicht erkannt (Fehlklassifikationsrate).

Der F-Wert beträgt hier 0,471, was für eine deutlich geringere Korrektheit der durchgeführten Identifikation von Webshops spricht als bei der Zuweisung von Unternehmenswebseiten.

Ergebnisse der Überprüfung maschinell zugeordneter Unternehmenseigenschaften: „Onlineshop“
Webscraping
Anteil korrekter Klassifizierungen von Onlineshops
Webscraping

Beim Lernprozess 2 wurden in 91,4 % (+ 3,7 %) der überprüften Fälle korrekte Prognosen erzielt (Richtigkeitsrate). Darunter waren nun 13,6 % erkannte Onlineshops und 77,8 % Unternehmenswebseiten ohne Onlineshop.

Die recherchierten Onlineshops, wurden jetzt zu 61,1 % richtig erkannt (Sensitivitätsrate). Somit sind durch den zweiten Lernprozess die Sensitivitätsrate und damit die Erkennung von Webshops um 30,3 % gestiegen. Der Anteil korrekter Zuweisungen von
Onlineshops an allen Klassifizierungen betrug wiederum 100,0 % (Präzisionsrate).

Die Fehlklassifikationsrate ist um 3,7 % auf 8,6 % gesunken.

Der F-Wert ist im zweiten Lernprozess um 0,288 Einheiten auf 0,759 gestiegen was für ein deutlich besseres Ergebnis im Vergleich zum ersten Lernprozess spricht.

Das Verfahren zeigt, dass der Lernprozess von den Ergebnissen im Zieldatensatz profitieren sollte, da dieser so treffsicherer wird. Mit fortlaufenden Iterationen sollte die Anzahl der hinzufügbaren neuen Datensätze aus dem Zieldatensatz zu einem gegeben Stand sinken. Das Verfahren würde somit stoppen, wenn für keinen weiteren Datensatz eine Wahrscheinlichkeit prognostiziert werden könnte, welche die vordefinierten Grenzwerte überschreitet bzw. unterschreitet.


[1] Die Anzahl der Lernprozesse ist nicht beschränkt. Um für diese Studie alle automatisch zugeordneten Webshops auch manuell überprüfen zu können, wurde die Anzahl der Lernprozesse auf 2 beschränkt.