Direkte Datenanreicherung

Wenn die entsprechenden Webseiten (Unternehmenswebseiten und unternehmensbezogene, sekundäre Onlineportalseiten) mit den statistischen Einheiten (Bestandsdaten) der Amtlichen Statistik verknüpft worden sind, können diese auf fachthemenabhängige Inhalte hin untersucht werden.

Dazu werden die zugehörigen Quelltexte zunächst heruntergeladen. Die in den Quelltexten enthaltenen Daten sind noch keine quantifizierbaren Informationen, sondern liegen zunächst nur in unstrukturierter oder in unterschiedlich strukturierter Form vor. Die Möglichkeiten, die auf den Unternehmenswebseiten vorliegenden unstrukturierten Daten in quantifizierbare, strukturierte statistische Informationen aufzubereiten sind im Folgenden dargestellt (siehe auch Abbildung 5):

  • Schlüsselwortabhängiges Generieren von Indikatoren: Die Wortindikatoren bekommen bei Vorkommen des gewünschten Schlüsselwortes den Wert 1 zugewiesen. Ist das entsprechende Wort nicht auf der Webseite zu finden, bekommt der jeweilige Wortindikator den Wert 0 zugewiesen.
  • Schlüsselwortzähler: Hier wird die Häufigkeit des Vorkommens des gesuchten Schlüsselwortes übergeben.

Auslesbare Merkmale: Sind Merkmalsausprägungen auf der Webseite auslesbar wie bspw. die Anzahl von Doppelzimmer auf der Webseite eines Beherbergungsbetriebs oder die Logofarbe der Webseite „Facebook“, dann kann die Ausprägung in eine entsprechende direkt Variable übergeben werden.

Strukturierung unstrukturierter Quelltextdaten
Webscraping

Die Voraussetzung für die direkte Datengewinnung in heruntergeladenen Quelltexten mit den drei beschriebenen Methoden, ist das kontextabhängige Auftreten von Schlüsselwörtern. Bspw. kann das Schlüsselwort „Einzelzimmer“ auf Webseiten von Beherbergungsbetrieben mehrfach in mehreren Kontexten auftauchen, etwa in der Bemerkung eines Hotelgasts in einer persönlichen Bewertung mit eigenen Worten. Für das automatisierte Erheben der Anzahl von Einzelzimmern in dem jeweiligen Beherbergungsbetrieb ist es wichtig, welche Zeichen, Worte und Muster vor und nach dem gefundenen Schlüsselwort auftauchen.
Hier ist das Nutzen regulärer Ausdrücke als Methode des Text-Minings für die Strukturierung, bspw. in R, unumgänglich (siehe Munzert, Rubba, Meißner und Nyuis, 2015).
Die Daten nach der beschriebenen Weise der Strukturierung in die Datensätze der amtlichen Statistik zu übernehmen, wird als direkter Weg der Datengewinnung über das Internet nach Verknüpfung betrachtet.

Zum Inhaltsverzeichnis                          zurück                          weiter