Technische Umsetzung

Im Hessischen Statistischen Landesamt ist von Oktober 2017 bis Mai 2018 eine für das Webscraping geeignete IT-Infrastruktur aufgebaut worden.

Dabei wurde ein vom italienischen, nationalen Statistikamt (ISTAT) bereitgestelltes Java-Programm zum Suchen und Extrahieren von Webseiten über Metasuchmaschinen und zur Speicherung und Trefferbewertung der enthaltenen Quelltexte, installiert, eingestellt und weiterentwickelt.

Für diesen Zweck ist auf einem virtuellen Server des Hessischen Statistischen Landesamts eine Datenbank mit den entsprechenden amtlichen Stammdaten errichtet worden. Zur Verknüpfung und Weiterverarbeitung der gefundenen Unternehmenswebseiten sowie für die Anreicherung mit Fachdaten, sind verschiedene R-Programme entwickelt worden.

Zum Inhaltsverzeichnis                          zurück                          weiter