Suchen, Finden, Strukturieren und Speichern von Daten

Das Internet wird oft als große Bibliothek von miteinander verbundenen Ressourcen verstanden. Unter den Ressourcen befinden sich die interessierenden Daten. Das Problem besteht darin diese vollständig in einem angemessenen Zeitrahmen und mit vertretbarem Aufwand zu finden. In diesem Zusammenhang wurden Metasuchmaschinen populär, die dadurch charakterisiert sind, dass Suchanfragen an mehrere Suchmaschinen gleichzeitig weitergeleitet und die Ergebnisse aufbereitet werden können.

Heutzutage nutzen viele Metasuchmaschinen Webscraping. Dieses Verfahren umfasst allgemein Prozesse, die Entitäten aus Quelldatenbanken abfragen, an Metasuchmaschinen weiterleiten und so das Finden der gesuchten Webseiten ermöglichen. Die gefundenen Webseiten werden anschließend nach den entsprechenden Inhalten durchsucht, welche dann mittels Informationsextraktion gewonnen, transformiert und mit anderen Datenbanken verknüpft werden (siehe Salerno und Boulware, 2006).

Somit wird das Webscraping vorrangig mit dem Ziel eingesetzt, unstrukturierte Informationen auf Internetseiten zu finden, zu extrahieren, diese in verständliche Formate zu strukturieren und somit für Datenbanken, Tabellen oder kommaseparierte Textdateien speicherfähig zu machen (siehe Sirisuriya, 2015).

Zum Inhaltsverzeichnis                          zurück                          weiter