Scraping von kommerziellen Onlineportalen

Viele Kleinunternehmen sind oft nicht auf einer eigenen Webseite, sondern auf einem kommerziellen Onlineportal präsent. Das automatisierte Finden, Speichern, Strukturieren und Verknüpfen von Daten aus Onlineportalen funktioniert in dieser Untersuchung anders als das Webscraping mittels Meta-Suchmaschine. Das von ISTAT entwickelte Verfahren versucht bspw. die passende Impressums-Webseite des jeweiligen Unternehmens herunterzuladen, um darauf identifizierende Merkmale finden zu können. Bei kommerziellen Online-Portalen wird man auf diese Weise nur den Portalbetreiber finden, nicht jedoch das interessierende Unternehmen. Deshalb wurde im HSL in einem Feldversuch ein eigener Algorithmus zur Informationsextraktion aus einem kommerziellen Onlinebuchungsportal entwickelt und programmiert.

Onlineportale können als fachthemenabhängige (bspw. Jobportale, Beherbergungsportale oder Immobilienportale), kommerziell genutzte Verzeichnisse/Zusammenstellungen verschiedener Unternehmen in ihrer Funktion als Anbieter eines bestimmten Produktes, einer bestimmten Branche, in verschiedenen Regionen betrachtet werden. In der Regel wünschen die Unternehmen, von potentiellen Kunden auf diesen Onlineportalen gefunden und beauftragt zu werden. Insbesondere Kleinunternehmen oder Freiberufler ohne eigene Webseite sind auf solchen Onlineportalen registriert.

Die Kenntnis über den Wirtschaftszweig bzw. über die Branche von Unternehmen ermöglicht es also, vor, parallel oder nach dem Webscraping-Verknüpfungs-Prozess, Onlineportale nach Unternehmen automatisch abzusuchen. Das Onlineportal wird nicht nach dem jeweiligen Unternehmen, sondern nach allen Unternehmen des jeweiligen Wirtschaftszweiges, in der jeweiligen Stadt mittels URL-Crawling abgesucht. Einmal gefunden, können die URLs der jeweiligen Portalsubwebseiten mit den Datensätzen der Amtlichen Statistik verknüpft werden.

Das Portalscraping, zusätzlich zum Webscraping durchzuführen, hat dabei folgende zusätzliche Vorteile:

  • Erfassung abseits von Relevanzschwellen: Durch das Portalscraping können Unternehmen erfasst werden, die aufgrund bestimmter Umsatz- oder Beschäftigtenkonstellationen nicht in den Stammdaten der Amtlichen Statistik enthalten sind. Dies trifft etwa auf Freiberufler oder auf nicht umsatzsteuerpflichtige Kleinunternehmen zu.
  • Effizienz: Die Anzahl zu durchsuchender Webseiten ist um ein Vielfaches geringer als beim Webscraping mittels Metasuchmaschine, da die Online-Portale ausschließlich Webseiten des jeweiligen kommerziellen Bereichs enthalten. Das Portalscraping benötigt weniger Speicherplatz und hat sich als um ein Vielfaches schneller herausgestellt als das Webscraping von Unternehmenswebseiten.
  • Geringere Komplexität: Die Anzahl der Arbeitsschritte sind beim Portalscraping ebenfalls geringer, was das Portalscraping einfacher macht als das Webscraping von Unternehmenswebseiten. Die Unternehmenseigenschaften und Stammdaten sind auf den verschiedenen Subwebseiten des Onlineportals immer gleich strukturiert. Daher können die Suchalgorithmen einfacher programmiert werden.
  • Genauigkeit: Das Auslesen und Zuweisen der digitalen Informationen von Online-Portalen hat aufgrund des Bezugs zur gesuchten Branche und Region eine sehr hohe Treffergenauigkeit. Deshalb muss eine Bewertung hinsichtlich der Trefferqualität nicht durchgeführt werden. Zur Verknüpfung mit den Stammdaten der Amtlichen Statistik muss lediglich ein Ähnlichkeitsabgleich durchgeführt werden.
  • Datensparsamkeit: Die automatisierte Eingabe der Stammdaten in eine Suchmaschine ist für das Portalscraping nicht erforderlich und wird erst bei der Verknüpfung benötigt. Die Erhebung und Verarbeitung/Auswertung der digitalen Daten in Portalen ist jedoch schon vor der Verknüpfung möglich. Beim Webscraping können Suchen nach digitalen Unternehmensinformationen ohne vorhandene Stammdaten nur schwierig  durchgeführt werden.

Damit das Portalscraping durchgeführt werden kann, müssen die passenden Online-Portale je nach Wirtschaftsbranche und Themengebiet vor der automatisierten Erhebung manuell im Internet recherchiert werden. Die Zahl der passenden Online-Portale ist jedoch themenabhängig begrenzt und nachhaltbar. Der Aufwand bei der manuellen Recherche der Online-Portale wird deshalb als vertretbar angenommen.

Für die Verknüpfung der gefundenen Inhalte ist es erforderlich einen geeigneten Ähnlichkeitsabgleich durchzuführen. Hier bieten sich einfach umsetzbare und in R oder Java programmierbare, metrische Wortdistanzmaße an, wie beispielsweise die Levenstein Distanz, die Monge-Elkan-Distanz oder die Jaro-Winkler-Distanz. Diese basieren auf dem einfachen Vergleich von Zeichen und Buchstaben verschiedener Wörter (siehe Cohen, Ravikumar, und Fienberg, 2003).   

Zum Inhaltsverzeichnis                          zurück                          weiter