Im Hessischen Statistischen Landesamt ist von Oktober 2017 bis Mai 2018 eine für das Webscraping geeignete IT-Infrastruktur aufgebaut worden.
Dabei wurde ein vom italienischen, nationalen Statistikamt (ISTAT) bereitgestelltes Java-Programm zum Suchen und Extrahieren von Webseiten über Metasuchmaschinen und zur Speicherung und Trefferbewertung der enthaltenen Quelltexte, installiert, eingestellt und weiterentwickelt.
Für diesen Zweck ist auf einem virtuellen Server des Hessischen Statistischen Landesamts eine Datenbank mit den entsprechenden amtlichen Stammdaten errichtet worden. Zur Verknüpfung und Weiterverarbeitung der gefundenen Unternehmenswebseiten sowie für die Anreicherung mit Fachdaten, sind verschiedene R-Programme entwickelt worden.
Stammdaten aus dem amtlichen Unternehmensbestand
Zur Erstellung Amtlicher Statistiken werden Unternehmen in der Regel aus dem Bestand des statistischen Unternehmensregisters ausgewählt und nach entsprechenden fachthemenabhängigen, betriebsbezogenen Inhalten befragt.
Das statistische Unternehmensregister ist eine regelmäßig aktualisierte Datenbank mit Unternehmen und Betrieben aus nahezu allen Wirtschaftsbereichen mit steuerbarem Umsatz aus Lieferungen und Leistungen und/oder Beschäftigten. Die Quellen des Unternehmensregisters sind u. a. administrative Daten aus Verwaltungsbereichen wie der Bundesagentur für Arbeit oder von Finanzbehörden, und zum anderen Angaben aus einzelnen Bereichsstatistiken, beispielsweise aus Erhebungen des Produzierenden Gewerbes, des Handels oder des Dienstleistungsbereichs (siehe Statistisches Bundesamt, 2015).
Das statistische Unternehmensregister ist Grundlage fast jeder amtlichen Wirtschaftsstatistik und enthält wichtige Stammdaten wie Name, Adresse oder Steuernummer von etwa 340 000 in Hessen ansässigen Unternehmen.
Da die gegenwärtigen technischen Kapazitäten das Erheben und Verknüpfen von 100 Unternehmenswebseiten pro Tag erlaubten, war die automatisierte Erhebung des gesamten hessischen, statistischen Unternehmensregister nicht in einem angemessenen Zeitraum möglich. Als aktuelle Stichprobe des hessischen Unternehmensregisters waren jedoch die in der Erhebung zur Informations- und Kommunikationstechnologie in Unternehmen (IKT 2017) befragten 1658 Einheiten inhaltlich gut geeignet, da diese u. a. nach dem Vorhandensein einer unternehmenseigenen Webseite befragt wurden. Die Unternehmensmerkmale wurden in die Datenbank auf den Webserver geladen und das Webscraping-Verfahren auf die Datensätze angewendet.
Ergebnisse der Verknüpfungen
Abbildung 1 zeigt die Ergebnisse der Informationsextraktion durch Webscraping mit dem Bestand der 1658 Unternehmen aus dem Unternehmensregister, die für die IKT 2017 nach Informations- und Kommunikationstechnologie, u. a. nach dem Betrieb einer unternehmenseigenen Webpräzens, befragt worden sind. Inhaltlicher Gegenstand der Illustration ist, ob eine Webpräsenz zugeordnet worden ist und ob das jeweilige Unternehmen eine unternehmenseigene Webseite in der Befragung IKT 2017 angegeben hat.
Bei 77,3 % der befragten Unternehmen stimmte das Ergebnis der Befragung mit den Ergebnissen des Webscraping überein. Darunter waren 67,9 % mit Webpräzens und 9,4 % ohne. Von 1420 Unternehmen, die angegeben haben, eine Webseite zu betreiben wurde für 79,2 % eine Zuordnung erzielt.
Für 21,1 % der Unternehmen wichen die Webscraping-Zuordnungen von den Befragungsergebnissen ab. Darunter waren 18,2 % (17,8 % nicht erkannt zuzüglich 0,4 % technischer Fehler) nicht erkannte Webpräsenzen und 2,9 % erzielte Zuordnungen, obwohl in der Befragung angegeben wurde, dass keine Webpräsenz vorhanden ist. Etwa 1,7 % der Unternehmen machten keine Angabe. Von 211 Unternehmen, die angegeben haben, über keine Webseite zu verfügen, wurde für 22,7 % durch das Webscraping trotzdem eine Zuordnung erzielt.
In 48 Fällen haben Unternehmen angegeben, über keine Webpräsenz zu verfügen, obwohl diese nach Überprüfung vorhanden war und durch das Webscraping richtig zugeordnet wurde. Als Grund für die Abweichungen zwischen Befragungsergebnis und Webscraping können die unterschiedlichen Erhebungszeitpunkte nicht ausgeschlossen werden.
Maschinelle Bestimmung der latenten Unternehmenseigenschaft „E-Commerce“
Es gibt Unternehmenseigenschaften, wie die Beteiligung an E-Commerce-Aktivitäten, die für die amtliche Statistik von großem Interesse sind. Diese Eigenschaft ist durch das Vorhandensein eines Onlineshops erfüllt. Oft zeigt der erste Blick auf eine Webseite mit einem aktiven Onlineshop, über den bestellt und bezahlt werden kann, dass sich die Eigenschaft nicht sofort von der Webseite ablesen lässt. Der Betrieb eines Onlineshops für den elektronischen Versandhandel ist somit nicht unbedingt direkt und zweifelsfrei aus den Quelltexten der zugeordneten Unternehmenswebseiten elektronisch auslesbar. Es gibt jedoch Merkmale, u. a. das Vorhandensein von Online-Zahlungs-Optionen oder eines Warenkorbs, die mit dem Betrieb eines Onlineshops in einer schätzbaren Verbindung stehen können.
Für die Durchführung der maschinellen Ermittlung der latenten Eigenschaft „Onlineshop“ mussten zunächst geeignete Prädiktoren zur Stützung der erwähnten Zusammenhangshypothese unter den automatisiert erhobenen Merkmalen gefunden werden. Darüber hinaus war die Verfügbarkeit von historischen Daten, in denen die Eigenschaft „Onlineshop“ bereits bekannt war, erforderlich. Für diesen Zweck war eine Stichprobe von zunächst 146 Handelsunternehmen aus den erhobenen Daten gezogen worden. Anschließend ist mit Hilfe manueller Recherche ein binärer Klassifizierer generiert worden, der einen positiven Fall bei beobachten eines Webshops enthielt und einen negativen Fall, wenn sich der jeweiligen Webseite kein Webshop entnehmen ließ.
Eine Assoziationsanalyse mit den historischen Daten ergab signifikante, mittelstarke Zusammenhänge zwischen dem Vorhandensein eines Onlineshops auf den verknüpften Unternehmenswebseiten und den folgenden erhobenen Merkmalen:
- Vorhandensein einer Einkaufstechnologie (z. B. Shopping Cart, Warenkorb, Login),
- Vorhandensein einer Bezahltechnologie (z. B. Visakarte, PayPal, Sofortüberweisung).
Mit den geeigneten Prädiktoren wurde nun ein prädiktives, auf Wahrscheinlichkeiten basierendes Modell, wie in den vorherigen Punkten beschrieben, als Verfahren des maschinellen Lernens zum automatisierten Ermitteln von Onlineshops gewählt. Hierfür wurden die historischen Daten zu jeweils 50 % in eine Trainings- und eine Teststichprobe zufällig aufgeteilt.
Mit dem prädiktiven Modell wurden nun die Kausalitäten zwischen den Prädiktoren und dem Klassifizierer für die Eigenschaft „Webshop“ in der Trainingsstichprobe in einem ersten Lernprozess ermittelt und über die Teststichprobe geprüft. Anschließend, wurden mit Hilfe der gelernten Kausalitäten aus dem Datenbestand der verknüpften Unternehmenswebseiten 15 Datensätze mit einer geschätzten Wahrscheinlichkeit für die Eigenschaft „Onlineshop“ von mindestens 70 % ausgewählt und der historischen Datenstichprobe hinzugefügt. Danach wurde der gesamte Lernprozess mit einem neuen Datenbestand aus Trainings- und Teststichprobe von nun 161 Beobachtungen für einen weiteren Lernprozess noch einmal durchgeführt[1].
Mit den geschätzten Kausalitäten nach zwei Lernprozessen war es möglich, eine Klassifikation für alle zugeordneten 1111 Webseiten von Unternehmen der IKT 2017 nach
der Eigenschaft „Onlineshop“ durchzuführen. Dabei wurde für etwa 5 % der Unternehmenswebseiten ein Onlineshop vorhergesagt.
Für die nach zwei Lernprozessen überprüften 161 Zuweisungen von Onlineshops ließen sich die Ergebnisse nun wiederrum überprüfen. Abbildung 10 und 11 zeigen die Ergebnisse dieser Prüfung.
Beim Lernprozess 1 wurden in 87,7 % der überprüften Fälle korrekte Prognosen erzielt (Richtigkeitsrate). Darunter waren 5,5 % erkannte Onlineshops und 82,2 % Unternehmenswebseiten ohne Onlineshop. Die recherchierten Onlineshops wurden nur zu 30,8 % richtig erkannt (Sensitivitätsrate). Der Anteil korrekter Zuweisungen von Onlineshops an allen positiven Klassifizierungen betrug jedoch 100,0 % (Präzisionsrate).
Bei 12,3 % der Fälle führte das Verfahren zu falschen Prognosen und hat existierende Onlineshops nicht erkannt (Fehlklassifikationsrate).
Der F-Wert beträgt hier 0,471, was für eine deutlich geringere Korrektheit der durchgeführten Identifikation von Webshops spricht als bei der Zuweisung von Unternehmenswebseiten.
[1] Die Anzahl der Lernprozesse ist nicht beschränkt. Um für diese Studie alle automatisch zugeordneten Webshops auch manuell überprüfen zu können, wurde die Anzahl der Lernprozesse auf 2 beschränkt.
Beim Lernprozess 2 wurden in 91,4 % (+ 3,7 %) der überprüften Fälle korrekte Prognosen erzielt (Richtigkeitsrate). Darunter waren nun 13,6 % erkannte Onlineshops und 77,8 % Unternehmenswebseiten ohne Onlineshop.
Die recherchierten Onlineshops, wurden jetzt zu 61,1 % richtig erkannt (Sensitivitätsrate). Somit sind durch den zweiten Lernprozess die Sensitivitätsrate und damit die Erkennung von Webshops um 30,3 % gestiegen. Der Anteil korrekter Zuweisungen von
Onlineshops an allen Klassifizierungen betrug wiederum 100,0 % (Präzisionsrate).
Die Fehlklassifikationsrate ist um 3,7 % auf 8,6 % gesunken.
Der F-Wert ist im zweiten Lernprozess um 0,288 Einheiten auf 0,759 gestiegen was für ein deutlich besseres Ergebnis im Vergleich zum ersten Lernprozess spricht.
Das Verfahren zeigt, dass der Lernprozess von den Ergebnissen im Zieldatensatz profitieren sollte, da dieser so treffsicherer wird. Mit fortlaufenden Iterationen sollte die Anzahl der hinzufügbaren neuen Datensätze aus dem Zieldatensatz zu einem gegeben Stand sinken. Das Verfahren würde somit stoppen, wenn für keinen weiteren Datensatz eine Wahrscheinlichkeit prognostiziert werden könnte, welche die vordefinierten Grenzwerte überschreitet bzw. unterschreitet.
Ermitteln von Schlafgelegenheiten von Beherbergungsbetrieben des HRS-Portals
Für ein Methodenprojekt wurde die Bettenanzahl von Beherbergungsbetrieben im Raum München benötigt und als Quelle für die Unternehmensidentifikation das im Internet öffentlich zugängliche Portal „hrs.de“ gewählt.
Auf dem HRS-Portal sind folgende auslesbare und frei zugängliche Informationen abrufbar:
Anzahl Einzelzimmer, Anzahl Doppelzimmer, Anzahl Zimmer allgemein, Name, Anschrift (Straße, Hausnummer, Postleitzahl), Geokoordinaten (Längengrad, Breitengrad), Hotelkategorie (Anzahl Sterne), Hotelart und das Rating.
Die Struktur der jeweiligen Sekundärwebseiten mit den Informationen über den entsprechenden Beherbergungsbetrieb folgt einem ähnlichen Muster wie die unter der Google-Suchmaschine enthaltenen Webseiten.
Ähnlich dem Verfahren, welches den Google-Resultaten folgt, werden hier die Quelltexte hierarchisch analysiert, bis die Ergebnisquelltexte/Hotelseitenquelltexte gefunden wurden. In diesen wird kontextabhängig mit Methoden des Text-Minings nach den Ausprägungen der jeweiligen Merkmale gesucht, um diese strukturiert zu speichern.
Auf diese Weise konnten alle Münchener Beherbergungsbetriebe am Stichtag 6. Juli 2018, die über das HRS-Portal gelistet wurden, ausgelesen und die enthaltenen Daten über das jeweilige Bettenangebot gespeichert werden. Der Datensatz enthält statistisch quantifizierbare Informationen (Ausprägungen) aller oben beschriebenen Merkmale.
Im HRS-Portal wurden am 6. Juli 2018 37 562 Betten in München angeboten. 54,0 % davon entfielen auf Doppelzimmer. 25,0 % des Bettenangebots entfiel auf Einzelzimmer und 21,0 % auf andere nicht definierte Angebotsvarianten.
Darüber hinaus waren noch weitere statistisch auswertbare Mikrodateninformationen auf dem Onlineportal enthalten. So waren u. a. die Hotelkategorie, und der Hoteltyp verfügbar. Die Abbildung zeigt daher die Verteilung der 37 562 Schlafgelegenheiten im Raum München auf die erwähnten Merkmale.
Die Ergebnisse zeigen, dass Wellness und City-Hotels in München am meisten vertreten sind. Dabei sinkt die relative Bedeutung der City-Hotels mit steigender Hotelkategorie (Bewertung nach Sternen). Bei Wellness-Hotels ist der Zusammenhang umgekehrt. Diese sind erst ab drei Sternen beobachtbar und nehmen in der Auftrittshäufigkeit von 70,5 % den größten Anteil der Münchener 5 Sternehotels im HRS-Portal ein.
Luxushotels sind mit ca. 14,6 % Anteil an den Schlafgelegenheiten ausschließlich im obersten Sternebereich zu finden. Business Hotels dominieren mit 48,9 % der angebotenen Schlafgelegenheiten in der mittleren Hotelkategorie mit 3 Sternen. Hotels ohne Angabe bzgl. Hoteltyp sind am meisten in der Hotelkategorie 1 Stern mit etwa 80,8 % Anteil zu finden.
Die Eigenschaft City-Hotel ist mit etwa 63,2 % am häufigsten bei Hotels beobachtbar, die nicht am internationalen Verfahren zur Hotelkategorisierung teilnehmen.
Das Webscraping von Online-Portalen zeigt, dass es sehr gut geeignet ist, umfassende Informationen über Unternehmen einer bestimmten Branche elektronisch zu erheben, ohne die amtlichen Register dafür benutzen zu müssen.
Es zeigt auch, dass das Ermitteln von Unternehmenseigenschaften, wie die in diesem Fall interessierende Anzahl der Betten in Abhängigkeit von der Verfügbarkeit, relativ einfach und treffsicher elektronisch erhoben werden könnten.