Öffentlich zugängliche Daten von Unternehmenswebseiten

Viele Daten, die für die amtlichen Unternehmensstatistiken aufwendig erhoben werden, sind bereits auf Internetseiten von Betrieben und Unternehmen vorhanden und öffentlich zugänglich. Bevor diese Daten genutzt werden können, müssen sie erst gefunden und den Daten der amtlichen Statistik korrekt zugeordnet werden. Hierbei können Suchmaschinen helfen.

Projektziel

In Machbarkeitsuntersuchungen wird erörtert, ob der manuelle Erhebungsaufwand in der amtlichen Statistik reduziert, die Datenerhebung unterstützt oder Auskunftspflichtige entlastet werden können. Zudem wird geprüft, ob Bereitstellungszeiträume von Daten und Ergebnissen verkürzt werden und die Produktvielfalt und deren Qualität erhöht werden kann. Nicht zuletzt wird analysiert, ob die Machbarkeitsuntersuchungen neue Auswertungsmöglichkeiten sowohl für Nutzerinnen und Nutzer als auch die Wissenschaft hervorbringen.

Vor diesem Hintergrund sollte ein Verfahren gefunden werden, mit dem nach kreisfreien Städten und Landkreisen regional differenzierte Schätzergebnisse zu Umsatz und Beschäftigten ermittelt werden können, die den Qualitätsvorgaben genügen.

Datengrundlage

Grundlage sind alle hessischen Unternehmen und Betriebe sowie deren Daten, die für viele Wirtschaftsstatistiken erhoben werden. Informationen über diese Unternehmen oder Betriebe liegen entweder im statistischen Unternehmensregister oder den jeweiligen statistikspezifischen Berichtskreisen vor. Diese Daten werden mit den öffentlich zugänglichen Internetdaten verknüpft.

Methodik/Vorgehensweise

Für viele Unternehmen und Betriebe ist eine Webadresse aus dem amtlichen Datenbestand nicht bekannt und muss anderweitig ermittelt werden: Ein Algorithmus sucht mit Hilfe einer Suchmaschine nach Unternehmenswebseiten. Die jeweilige Trefferqualität der vorgeschlagenen Suchergebnisse wird durch ein maschinelles Lernverfahren bewertet.

Relevante Unternehmensmerkmale wie Branchenzugehörigkeit, innovative oder nachhaltige Aktivität und Gemeinnützigkeit lassen sich oft weder direkt noch zweifelsfrei von Internetseiten extrahieren. Anhaltspunkte sind auf den Internetseiten allerdings vorhanden: So lassen bspw. verschiedene Wörter auf eine E-Commerce-Aktivität schließen. Mit Verfahren zur Erkennung und Verarbeitung natürlicher Sprache werden Seiteninhalte strukturiert und Unternehmen anhand von Algorithmen des maschinellen Lernens klassifiziert.

Ergebnisse

Eine Methode zur Suche der Präsenz hessischer Unternehmen und Betriebe im Internet wurde im HSL entwickelt und in begrenztem Umfang getestet. Der nächste Schritt ist die Implementation zur Suche nach Internetpräsenzen von allen hessischen Unternehmen aus dem statistischen Unternehmensregister.

Schlagworte zum Thema