Webscraping im Hessischen Statistischen Landesamt

Das Hessische Statistische Landesamt unternimmt seit Oktober 2017 verschiedene Maßnahmen und Aktivitäten um Webscraping einzusetzen. Wichtige Orientierungshilfen lieferten die Machbarkeitsstudien im Arbeitspaket WP2 „webscraping of entreprise characteristics“ des ESSnet-Projekts „Big Data“ und insbesondere die von ISTAT freundlicherweise bereitgestellten Algorithmen.

Kern der Anwendung war das hessische Unternehmensregister mit den wichtigen Stammdaten der etwa 300 000 in Hessen ansässigen Unternehmen. Ziel war es, die Internetseiten von Unternehmen zu finden, die öffentlich zugänglichen Daten zu verknüpfen und auszuwerten.

Die Algorithmen zum Finden, Auslesen, Strukturieren und Verknüpfen der auf Unternehmenswebseiten vorhandenen Daten wurden auf eine Stichprobe hessischer Unternehmen aus dem Datenbestand der amtlichen Statistik mit guten Ergebnissen angewendet. Wie in den nächsten Punkten im Detail dargestellt, wurden in einem ersten Schritt erfolgreich Verknüpfungen zu Unternehmenswebseiten zahlreicher hessischer Unternehmen erzielt. Im Anschluss daran erfolgte die Auswertung eines Teils der auf den verknüpften Unternehmenswebseiten auslesbaren Schlagwörter mit Methoden des Text Minings. Final wurde mit Methoden der prädiktiven Modellierung mithilfe von Trainingsdaten und  einer Eingang-Ausgang-Funktion das Vorhandensein eines Onlineshops für hessische Unternehmen maschinell bestimmt.

Zum Inhaltsverzeichnis                          zurück                          weiter