Machine Learning

Einsatz maschineller Lernverfahren zur Plausibilisierung

Von Patrik Vollmer

Alle Daten der amtlichen Statistik werden auf ihre Plausibilität hin überprüft. Im Zuge dieser Plausibilitätsprüfungen werden Daten korrigiert oder geschätzt. Schätzungen können erforderlich sein, weil eine Korrektur in der zur Verfügung stehenden Zeit nicht möglich ist oder Daten, die eine Korrektur ermöglichen würden, noch fehlen. Nach der Plausibilisierung werden die Befragungsdaten weiterverarbeitet und schließlich veröffentlicht. Hierbei handelt sich um einen sehr arbeits- und oftmals zeitintensiven Prozess, der eine intensive Kommunikation mit den Auskunftspflichtigen mit sich bringen kann. Das Hessisches Statistische Landesamt (HSL) untersucht am Beispiel der Beherbergungsstatistik, ob maschinelle Lernverfahren die amtliche Statistik dabei unterstützen können, diese Plausibilisierungen zu verbessern.

  1. Projektziel
  2. Datengrundlage
  3. Methodik/Vorgehensweise
  4. Ergebnisse
  5. Weiterführende Information

Projektziel

Ziel des Projektes ist es, die Einsatzmöglichkeiten für fortschrittliche statistische Methoden sowie maschinelle Lernverfahren zur Plausibilitätsprüfung in der Beherbergungsstatistik zu untersuchen. Durch die Nutzung von neuen und innovativen Methoden wird erwartet, dass die amtliche Statistik bei gleichbleibender oder sogar höherer Genauigkeit Zeit und Ressourcen spart. Der Vergleich mit den aktuell bereitgestellten Ergebnissen ist daher sehr wichtig.

Datengrundlage

Es werden die Daten der Beherbergungsstatistik in unterschiedlichen Verarbeitungsständen über einen Zeitraum von fünf Jahren verwendet.

Methodik/Vorgehensweise

Zur Überprüfung der erhobenen Daten werden die geltenden Plausibilitätsregeln angewandt. Ein gemeldeter Wert darf beispielsweise einen bestimmten Schwellwert nicht überschreiten. Der hier vorgestellte Ansatz überprüft, wie stattdessen oder in Ergänzung zu den regelbasierten Prüfungen Algorithmen des maschinellen Lernens (bspw. Isolation forest) eingesetzt werden können. Zusätzlich werden die bestehenden Regeln für die Schätzung durch verschiedene und kombinierte Vorhersagemethoden ersetzt.

Ergebnisse

Die Ergebnisse sind vielversprechend:
Tabelle: Vergleich der Resultate zwischen den bestehenden und vorgeschlagenen Methoden für das Jahr 2019. Die absolute Differenz zwischen tatsächlichen und geschätzten Werten ist bei Nutzung der neuen Methode in der Regel niedriger. Die neue Methode liefert somit genauere Schätzergebnisse:

Ausschnitt aus einer Tabelle die die Resultate zwischen den bestehenden und den im Aufsatz vorgeschlagenen Methoden für das Jahr 2019 darstellt
Vervielfältigung und Verbreitung, auch auszugsweise, mit Quellenangabe gestattet.

Weiterführende Information

In einem Kooperationsprojekt mit IT.NRW wird die Übertragbarkeit der hessischen Methode auf weitere Bundesländer geprüft.