Scraping von Unternehmenswebseiten mittels Metasuchmaschine

Das vollautomatisierte Webscraping ist dafür geeignet mit verfügbaren Unternehmensinformationen aus dem Datenbestand der Amtlichen Statistik Daten und quantifizierbare Inhalte zu identifizieren, zu speichern, zu strukturieren, auszuwerten und mit den Daten der amtlichen Statistik zu verknüpfen.

Angesichts der umfassenden und erfolgreichen Aktivitäten des italienischen nationalen Statistikamts (ISTAT) bei der automatisierten Informationsextraktion von Unternehmenswebseiten, hat sich das HSL eng an der von ISTAT zur Verfügung gestellten Prozedur orientiert (siehe Barcaroli, Scannapieco, und Donato, 2016).

Die anzureichernden Datensätze, welche die Identifikationsmerkmale/Entitäten wie Name, Adresse oder Steuernummer enthalten, werden zunächst in einer Datenbank gespeichert. Ein in der Programmiersprache Java geschriebener Algorithmus greift von dort aus auf die einzelnen Datensätze zu, um diese für die weitere Suche mit einem URL-Crawler zu verwenden. Um die Internetseiten über die Identifikationsmerkmale suchen zu können, muss eine Metasuchmaschine verwendet werden. Hier bietet sich die Metasuchmaschine Google.com an. ISTAT hatte die Suchmaschine Bing genutzt, Google hat sich jedoch für das HSL bei der Suche als treffsicherer erwiesen.

Die identifizierenden Merkmale aus der Amtlichen Statistik werden bei der Suche mit Google nach Unternehmenswebseiten automatisiert und datensatzweise genutzt. Nach Eingabe der Merkmale eines Unternehmens enthält die Ergebnisseite der Google-Suche nun gefundene Internetreferenzen in einer bestimmten Anzahl.

Nun werden die Quelltexte/Webseiten der 10 höchstplatzierten Unternehmenswebseiten (Hauptwebseiten) sowie die darin enthaltenen identifizierenden Sekundärwebseiten (Impressum, Kontakte oder „Über uns“) und das Google-Knowledge-Panel auf der rechten Ergebnisseite (Google-Rechte-Hand-Seite) gespeichert und nach passenden Stammdaten durchsucht. Pro Eingabe/Unternehmen werden also potentiell bis zu 44 Webseiten durchsucht.

Die gespeicherten Haupt- und Sekundärseiten werden nun abhängig von der Anzahl, Art und Ausprägung der gefundenen Identifikationsmerkmale über ein Punktesystem bewertet. Die vergebenen Noten werden über die Sekundärseiten aufsummiert und ergeben ein gewichtetes Treffer-Scoring. Weiterhin werden die Webseiten dann nach Punkteanzahl und der Google-Platzierung geordnet. Anschließend wird die Hauptunternehmensseite mit der höchsten Benotung oder der besten Google-Platzierung den entsprechenden Stammdaten zugeordnet. Die Zweifachsortierung gewährleistet dabei eine eineindeutige Sortierung. Auf diese Weise wird die Anzahl gefundener, zuordnungsfähiger Webseiten pro Unternehmen auf eine reduziert.

Bewertungssystem
Webscraping

Auf diese Weise ist es möglich, alle auf den zugeordneten Webseiten öffentlich zugänglichen Informationen, sofern quantifizierbar, zu verknüpfen. Es hätte der Fall eintreten können, dass keine der 11 Ergebniswebseiten der Suchmaschine zuordnungsfähig ist. In diesem Fall wäre die Punktereihenfolge nicht davon berührt, jedoch das Niveau der Gesamtpunktezahl. Dass die zugeordnete Webseite zunächst „richtig“ war, wurde bei ISTAT an dieser Stelle automatisiert mit einem auf Wahrscheinlichkeiten beruhendem in R programmierten Machine Learning Verfahren sichergestellt. Im HSL hat sich ein regelbasierter Ansatz als ausreichend herausgestellt. Dieser beinhaltete das Definieren einer zu erreichenden Mindestpunktezahl von 5 als erste, „initiale“ Wahrheitsüberprüfung.

Zum Inhaltsverzeichnis                          zurück                          weiter