Experimentelle Statistik
Öffentlich zugängliche Daten von Unternehmenswebseiten
Projektziel
In Machbarkeitsuntersuchungen wird erörtert, ob der manuelle Erhebungsaufwand in der amtlichen Statistik reduziert, die Datenerhebung unterstützt oder Auskunftspflichtige entlastet werden können. Zudem wird geprüft, ob Bereitstellungszeiträume von Daten und Ergebnissen verkürzt werden und die Produktvielfalt und deren Qualität erhöht werden kann. Nicht zuletzt wird analysiert, ob die Machbarkeitsuntersuchungen neue Auswertungsmöglichkeiten sowohl für Nutzerinnen und Nutzer als auch die Wissenschaft hervorbringen.
Vor diesem Hintergrund sollte ein Verfahren gefunden werden, mit dem nach kreisfreien Städten und Landkreisen regional differenzierte Schätzergebnisse zu Umsatz und Beschäftigten ermittelt werden können, die den Qualitätsvorgaben genügen.
Datengrundlage
Grundlage sind alle hessischen Unternehmen und Betriebe sowie deren Daten, die für viele Wirtschaftsstatistiken erhoben werden. Informationen über diese Unternehmen oder Betriebe liegen entweder im statistischen Unternehmensregister oder den jeweiligen statistikspezifischen Berichtskreisen vor. Diese Daten werden mit den öffentlich zugänglichen Internetdaten verknüpft.
Methodik/Vorgehensweise
Für viele Unternehmen und Betriebe ist eine Webadresse aus dem amtlichen Datenbestand nicht bekannt und muss anderweitig ermittelt werden: Ein Algorithmus sucht mit Hilfe einer Suchmaschine nach Unternehmenswebseiten. Die jeweilige Trefferqualität der vorgeschlagenen Suchergebnisse wird durch ein maschinelles Lernverfahren bewertet.
Relevante Unternehmensmerkmale wie Branchenzugehörigkeit, innovative oder nachhaltige Aktivität und Gemeinnützigkeit lassen sich oft weder direkt noch zweifelsfrei von Internetseiten extrahieren. Anhaltspunkte sind auf den Internetseiten allerdings vorhanden: So lassen bspw. verschiedene Wörter auf eine E-Commerce-Aktivität schließen. Mit Verfahren zur Erkennung und Verarbeitung natürlicher Sprache werden Seiteninhalte strukturiert und Unternehmen anhand von Algorithmen des maschinellen Lernens klassifiziert.
Ergebnisse
Eine Methode zur Suche der Präsenz hessischer Unternehmen und Betriebe im Internet wurde im HSL entwickelt und in begrenztem Umfang getestet. Der nächste Schritt ist die Implementation zur Suche nach Internetpräsenzen von allen hessischen Unternehmen aus dem statistischen Unternehmensregister.
Weitere Informationen
Patrik Vollmer
Experimentelle Statistik
Telefon