Fazit und Verbesserungspotenzial

Die Ergebnisse des ersten Versuchs (Webscraping + prädiktive Modellierung) verdeutlichen, dass das Potenzial zum Zuordnen von Unternehmenswebseiten bezogen auf die Treffsicherheit sehr gut funktioniert hat. Die Ergebnisse sprechen zum größten Teil für ein bedeutendes Potenzial des Webscraping.

Bei der prädiktiven Modellierung hängt die Treffsicherheit im Wesentlichen von dem Umfang und der Zusammensetzung des Trainingsdatensatzes und von der Auswahl der Schlüsselwörter ab. Hier müsste noch viel konzeptionelle Vorarbeit geleistet werden, um qualitativ hochwertige Trainingsdatensätze erzeugen zu können. Das Verfahren hat gezeigt, dass ein dynamisch gestalteter, teils automatisiert ertüchtigter Trainingsdatensatz die Treffsicherheit des teilüberwachten Lernverfahrens deutlich erhöhen kann. Das im HSL über zwei Lernprozesse durchgeführte Verfahren der prädiktiven Modellierung wird zukünftig für eine unbeschränkte Anzahl an Iterationen weiterentwickelt, um eine optimale Treffsicherheit bei der binären Klassifikation zu erzielen.

Die Art der Schlüsselwörter, die Größe des Trainingsdatenbestands und die in Frage kommenden Prädiktoren für das maschinelle Lernen sind stark abhängig von der zu prognostizierenden Unternehmenseigenschaft. Ein manuell recherchierter und mit bestimmten erhobenen Merkmalen zusammengeführter Trainingsdatenbestand für das Thema „E-Commerce“ kann nicht verwendet werden, um bspw. Unternehmen mit grüner Technologie oder Freiberufler in der Kreativwirtschaft automatisiert zu ermitteln.

Um Unternehmenseigenschaften mit Methoden des maschinellen Lernens zu ermitteln, wird es je nach Themeninteressen und fachstatistischen Fragestellungen bis auf weiteres notwendig sein, Trainingsdatensätze mit Hilfe manueller Recherche zu erstellen, zu validieren, und diese zu pflegen. Die im HSL genutzte Online-Methode zum automatisierten Anreichern der Trainingsdaten war hierbei sehr hilfreich und birgt, u. a. im Hinblick auf das Einbringen von Modelldiagnostik für eine maschinelle Prädiktorenauswahl, noch einiges an Entwicklungspotential.

Die technische und methodologische Umsetzung eines Verfahrens des maschinellen Lernens zum prädiktiven Identifizieren von latenten Unternehmenseigenschaften hat gut funktioniert. Hier ist die Verwendung einer R-Umgebung sehr komfortabel und ausreichend schnell.

Das Durchsuchen und Speichern von Unternehmenswebseiten von Onlineportalen ist aufgrund der gleichbleibenden Struktur der Webseiten innerhalb des jeweiligen Portals recht einfach und treffsicher durchführbar. Kommerzielle Onlineportale müssen zwar manuell recherchiert werden, je nach Wirtschaftszweig können diese jedoch in einer Datenbank hinterlegt und bei Bedarf abgerufen werden. Das Scraping von Onlineportalen ohne das Nutzen einer vorgeschalteten Metasuchmaschine hat sich als sehr schnell herausgestellt. Das Ermitteln aller über das HRS-Portal gelisteten Münchener Beherbergungsbetriebe hat mit dem geschriebenen R-Algorithmus etwa 5 Minuten gedauert. Schon aufgrund der Unabhängigkeit von Suchmaschinen wie Google.com ergibt sich hier zunächst kein kapazitätsspezifisches, großes Verbesserungspotenzial. Weitere Untersuchungen werden zeigen inwieweit innerhalb eines Gesamtalgorithmus zunächst bereits bekannte Onlineportale abgesucht, verknüpft und erst im Anschluss daran das Webscraping mit Metasuchmaschine auf die noch nicht verknüpften Unternehmensdatensätze angewendet werden könnten.

Für das Webscraping von Unternehmenswebseiten sieht dies jedoch anders aus. Bei den derzeit gegebenen Kapazitätsgrenzen würde die Vollerhebung unternehmensbezogener Webseiten der etwa 300 000 hessischen Unternehmen der Unternehmensregisterkopie 8,3 Jahre dauern. Die Weiterentwicklung des Webscraping wird daher stark auf die Steigerung der Kapazitäten ausgerichtet sein, um die vollständige Erhebung des hessischen Unternehmensregisters durch das Webscraping innerhalb von etwa 30 Tage durchführen zu können. Dies wäre ein zufriedenstellender Zeitraum.

Zum Inhaltsverzeichnis                          zurück                          weiter