Entwicklung eines automatisierten Verfahrens zur effizienten Bereitstellung von Verbraucherpreisdaten im Forschungsdatenzentrum

Bei wissenschaftlichen Analysen von Einzeldaten der Verbraucherpreisstatistik in den Forschungsdatenzentren des Bundes und der Länder (FDZ) stehen die Waren- und Dienstleistungsbeschreibungen im Fokus. Um zu gewährleisten, dass keine der bis zu 2,7 Millionen Textbeschreibungen pro Berichtsjahr sensible Informationen enthält, wurde ein Konzept zur Bereitstellung entsprechender Einzeldaten entwickelt. In diesem Konzept werden Schreibweisen vereinheitlicht, überprüft und die Textbeschreibungen anschließend pseudonymisiert.

Projektziel

Das Projekt zielt darauf ab, ein Konzept zur Bereitstellung der Waren- und Dienstleistungsbeschreibungen in der Verbraucherpreisstatistik zu entwickeln. Drei Anforderungen gilt es dabei zu berücksichtigen: Die Feinbeschreibungsmerkmale dürfen keine sensiblen Informationen enthalten, der Informationsgehalt soll möglichst erhalten bleiben und das Konzept muss effizient und dadurch ressourcenschonend sein.

Datengrundlage

Die Feinbeschreibungsmerkmale der Verbraucherpreisstatistik des Berichtsmonats Mai 2016 (bundesweiter Datensatz) bilden die Datengrundlage.

Methodik/Vorgehensweise

Um sicherzustellen, dass die Feinbeschreibungen keine sensiblen Informationen enthalten, wird jedes Wort durch ein Pseudonym ersetzt. Gleiche Wörter werden durch gleiche Pseudonyme ersetzt, sodass identische Feinbeschreibungsmerkmale identifiziert werden können. Um bei Schreibfehlern Wörter trotzdem dem gleichen Pseudonym zuzuordnen, werden ähnliche Fernbeschreibungsmerkmale zu einer Schreibweise zusammengefasst. Ein Verfahren des maschinellen Lernens bewertet, ob eine Vereinheitlichung korrekt ist oder nicht. Im Anschluss werden nur die Vereinheitlichungen überprüft, die als falsch bewertet wurden, sodass der Aufwand im Vergleich zu einer vollständigen manuellen Überprüfung gering ist. Die Feinbeschreibungsmerkmale werden dadurch effizient bearbeitet.

Ergebnisse

Zur Bestimmung von Ähnlichkeiten verschiedener Feinbeschreibungen erbrachte das sogenannte Maß des zirkulären Bigramms die besten Ergebnisse. Dieses Maß unterteilt einen Text in einzelne Teile, die jeweils aus zwei aufeinanderfolgenden Zeichen bestehen; Textanfang („a“) und -ende („d“) werden zusammen betrachtet („abcd“ wird zu „ab bc cd da“). Umso mehr Bigramme in zwei Texten identisch sind, desto ähnlicher sind sich die Texte. Zur automatisierten Überprüfung der Vereinheitlichungen wurde der Ansatz der Support Vector Machine (SVM) verwendet. Die Entwicklung des Konzepts wurde in einem Werkstattbericht dokumentiert (https://statistikhessen-blog.de/?p=977).

Im weiteren Verlauf der Anwendung des Konzepts zur Bereitstellung der Verbraucherpreisdaten erwies sich die Methodik des maschinellen Lernansatzes Random Forest als effizient, um die Vereinheitlichung zu überprüfen. Beim Random Forest simuliert der Algorithmus möglichst viele Überprüfungen einer Vereinheitlichung auf richtig oder falsch. Die am häufigsten getroffene Bewertung wird dann als Prüfergebnis ausgegeben. Bei unverminderter Treffergenauigkeit sind die Laufzeiten des Random Forest beim Erlernen der Parameter gegenüber der SVM deutlich kürzer.

Weitere Auskünfte erhalten Sie von Herrn Malte Kaukal
Telefon: 0611 3802-846
E-Mail: malte.kaukal@statistik.hessen.de