Ergebnisse der Verknüpfungen

Ergebnisse der Verknüpfungen

Abbildung 1 zeigt die Ergebnisse der Informationsextraktion durch Webscraping mit dem Bestand der 1658 Unternehmen aus dem Unternehmensregister, die für die IKT 2017 nach Informations- und Kommunikationstechnologie, u. a. nach dem Betrieb einer unternehmenseigenen Webpräzens, befragt worden sind. Inhaltlicher Gegenstand der Illustration ist, ob eine Webpräsenz zugeordnet worden ist und ob das jeweilige Unternehmen eine unternehmenseigene Webseite in der Befragung IKT 2017 angegeben hat.

Bei 77,3 % der befragten Unternehmen stimmte das Ergebnis der Befragung mit den Ergebnissen des Webscraping überein. Darunter waren 67,9 % mit Webpräzens und 9,4 % ohne. Von 1420 Unternehmen, die angegeben haben, eine Webseite zu betreiben wurde für 79,2 % eine Zuordnung erzielt.

Für 21,1 % der Unternehmen wichen die Webscraping-Zuordnungen von den Befragungsergebnissen ab. Darunter waren 18,2 % (17,8 % nicht erkannt zuzüglich 0,4 % technischer Fehler) nicht erkannte Webpräsenzen und 2,9 % erzielte Zuordnungen, obwohl in der Befragung angegeben wurde, dass keine Webpräsenz vorhanden ist. Etwa 1,7 % der Unternehmen machten keine Angabe. Von 211 Unternehmen, die angegeben haben, über keine Webseite zu verfügen, wurde für 22,7 % durch das Webscraping trotzdem eine Zuordnung erzielt.

In 48 Fällen haben Unternehmen angegeben, über keine Webpräsenz zu verfügen, obwohl diese nach Überprüfung vorhanden war und durch das Webscraping richtig zugeordnet wurde. Als Grund für die Abweichungen zwischen Befragungsergebnis und Webscraping können die unterschiedlichen Erhebungszeitpunkte nicht ausgeschlossen werden.

Abbildung 1: Ergebnisse der Zuordnung von extrahierten Webseiten zu 1658 hessischen Unternehmen aus dem amtlichen Datenbestand
Webscraping

Insgesamt sind für 71,5 % der Unternehmen somit 1186 Webpräsenzen automatisiert zugeordnet worden. Unabhängig davon, ob Unternehmen angegeben haben, eine Webseite zu betreiben oder nicht, muss beurteilt werden, ob die Zuordnungen korrekt waren. Daher wurde für eine Zufallsstichprobe von 100 Unternehmen die Zuordnung durch manuelle Recherche überprüft. Die Abbildung 2 illustriert die Ergebnisse dieser Überprüfung.

Abbildung 2: Ergebnisse der Überprüfung von 100 Zuweisungen extrahierter Unternehmenswebseiten
Webscraping

In 89,0 % der überprüften Fälle wurden korrekte Zuweisungen erzielt (Richtigkeitsrate). Darunter waren 66,0 % erkannte Onlinepräsenzen und 23,0 % Unternehmen ohne eigene Webseite. Die recherchierten Webpräsenzen von Unternehmen mit eigener Webseite, wurden zu 85,7 % richtig erkannt (Sensitivitätsrate). Die automatisierten positiven Zuordnungen von Unternehmenswebseiten haben sich dabei zu 98,5 % (Präzisionsrate) als korrekt herausgestellt.

Bei 11,0 % der Fälle hat das Verfahren zu falschen Zuordnungen geführt (Fehlklassifikationsrate). Darunter wurde bei 1,0 % zwar das Vorhandensein einer unternehmenseigenen Webseite erkannt, jedoch die falsche Onlinepräsenz ermittelt. Bei 10,0 % der Fälle, in denen sich keine Webpräsenzen recherchieren ließen, wurden Zuteilungen fehlerhaft erzielt.

Die verschiedenen beschriebenen Prüfungsergebnisse der binären Klassifikation machen es für die Interpretation der Resultate nötig, ein Maß zur Beurteilung der Zuordnungsgüte als relative Korrektheitsintensität berechnen zu können. Hier bietet sich der F-Wert, errechnet als das harmonische Mittel aus Sensitivitätsrate und Präzisionsrate an.

Der F-Wert beträgt bei der niedrigsten Korrektheit 0 und bei höchster Richtigkeit 1. Bei der Anwendung im HSL lag er bei 0,917, was für eine sehr hohe Korrektheit der durchgeführten Klassifikation spricht.

Von den 1186 identifizierten und verknüpften Webseiten von hessischen Unternehmen der IKT 2017 konnten etwa 1111 heruntergeladen und die Quelltexte analysiert werden. Dabei wurden Schlüsselwörter aus dem Bereich „Handel“ in verschiedenen Gruppen zusammengefasst und deren Vorkommen auf den heruntergeladenen Quelltexten geprüft. Das Vorkommen von Wörtern jeweiliger Wortgruppen wurde innerhalb von verschiedenen Indikatorvariablen festgehalten.

Die Resultate sind in Abbildung 3 dargestellt und zeigen, dass die meisten Schlüsselwörter im Bereich „Elektronik“ (71,5 %) und „Lebensmittel“ (71,0 %), gefolgt von Wörtern aus dem Bereich „Sonderangebot“ (54,2 %) gefunden worden sind. Etwa auf der Hälfte (49,1 %) aller analysierten Webseiten wurden Bezüge zu sozialen Medien gefunden.

Weitere Schlüsselwortgruppenvorkommen mit Häufigkeiten über 10 % lagen im Bereich „Account-Technologie (28,0 %)“, „Sportartikel“ (27,0 %), „Automobil“ (23,0 %), „Gesundheit“ (17,1 %) und „Textilartikel“ (14,7 %).    

Die stark mit der Eigenschaft eines Onlineshops im Zusammenhang stehenden Schlüsselwortgruppen der Bezahltechnologie („Visa“, „Kreditkarte“, „PayPal“, „EC-Karte“ und Ähnliches) und der Einkaufstechnologie („Warenkorb“, „Einkaufswagen“, „Shopping Cart“ und Ähnliches) waren bei unter 10 % aller zugeordneten Unternehmenswebseiten zu finden.

Abbildung 3: Auftreten ausgewählter Schlüsselwortgruppen auf n = 1111 auslesbaren Webseiten von hessischen Unternehmen der IKT 2017
Webscraping

Zum Inhaltsverzeichnis                          zurück                          weiter