Funktionsweise – Suchen, Finden und Verknüpfen

Die Suche nach quantifizierbaren Inhalten im Internet mit Informationsextraktion wird oft von sogenannten Webcrawlern durchgeführt. Beim Webcrawling werden grundsätzlich alle auffindbaren Internetseiten automatisch und methodologisch gesucht und gespeichert. Beim Webscraping werden nach bestimmten, vordefinierten Informationen gesucht sowie quantifizierbare Inhalte strukturiert und extrahiert. Im vorliegenden Fall wird nach existierenden in Hessen ansässigen Unternehmen gesucht.

Das Webscraping nutzt identifizierende Merkmale oder Vorinformation bei der Suche nach Fachinhalten und Links. Öffentlich zugängliche Daten sind häufig unstrukturiert und müssen in eine für die Auswertung geeignete Form transformiert werden (siehe Vargiu und Urru, 2013).

Da bei diesem Projekt quantifizierbare Informationen von Unternehmenswebseiten extrahiert werden sollten, wurden die registerbasierten, in Datenbanken gespeicherten Stammdaten der Amtlichen Statistik und in kommerziellen Online-Buchungsportalen öffentlich zugänglichen Daten als Vorinformationen betrachtet. Stammdaten, die Unternehmen identifizieren können, enthalten: Adressen, Firmenbezeichnungen, Rechtsformen, Informationen über zugehörige Niederlassungen und unselbständige Zweigstellen. Diese Informationen können datensatzweise für die Suche im Internet genutzt werden. Gleichzeitig eignen sich aus den Datenbanken extrahierbare Datentabellen dafür mit neuen digitalen Informationen angereichert zu werden (siehe Abbildung 2).

Verknüpfung von Webseiten mittels Google- und Portalsuche
Webscraping

Zum Inhaltsverzeichnis                          zurück                          weiter