Indirekte Datengewinnung – Maschinelles Ermitteln von Unternehmenseigenschaften

Bestimmte Unternehmenseigenschaften, beispielsweise E-Commerce-Aktivitäten sind u.a. durch die Inbetriebnahme von Onlineshops zum elektronischen Vertrieb von Waren und Dienstleistungen charakterisiert. Das Vorhandensein eines Onlineshops kann nicht immer direkt auf einer Webseite ausgelesen werden, obwohl die Webseite einen solchen enthält. Statistische Methoden zur Bestimmung latenter Eigenschaften können helfen, solche Eigenschaften sichtbar zu machen und die enthaltenen Webseiten binär zu klassifizieren. Die Voraussetzung für solche Klassifizierungen ist, dass sich Webseiten, die einen Onlineshop beinhalten, durch verschiedene Merkmalsausprägungen bspw. von reinen Onlinepräsenzen zu Marketingzwecken unterscheiden.

Bestimmte Merkmale, die durch die skizzierte Strukturierung vorliegen, können mit der gewünschten, gesuchten Unternehmenseigenschaft in einer Verbindung stehen. Bei der Eigenschaft „Onlineshop“ kann dies u. a. auf das Vorhandensein eines Zahlungssystems, eines Wareneinkaufssystems, einer Verlinkung zu den sozialen Medien oder durch das Handeln mit bestimmten Waren zutreffen. Sofern eines oder mehrere solcher Merkmale auf einer Webseite vorkommen, ist es möglich, diese Internetseite als einen Onlineshop enthaltend zu klassifizieren. Diese Verfahrensweise kann als „Unternehmenseigenschaftszuordnung nach deterministischen Entscheidungsregeln“ beschrieben werden.

Der Nachteil an dieser Methode ist, dass der Zusammenhang zwischen den Merkmalen und der gesuchten Eigenschaft bekannt sein muss und die Entscheidungsregel innerhalb der Suche nicht verändert oder angepasst werden kann. Es muss vorentschieden werden, wie viele Merkmale auf welche Weise bestimmte Eigenschaften eines Onlineshops determinieren. Es ist jedoch dann möglich, dass die beschriebenen Merkmale auch auf Internetseiten vorkommen, die nicht als Onlineshops enthaltend klassifiziert werden können. In diesem Fall wäre die Verwendung einer deterministischen Entscheidungsregel zu fehleranfällig.

Prädiktive Modellierung

Die Prädiktive Modellierung ist ein beliebtes Verfahren des maschinellen Lernens, welches es ermöglicht, die geschätzte Kausalität zwischen den erhobenen Merkmalen und der Wahrscheinlichkeit für das Auftreten der gewünschten Unternehmensinformation als Entscheidungsgrundlage zu berücksichtigen. Häufige Anwendungsbereiche sind u. a. die Versicherungswirtschaft und Business Intelligence: Hier werden die Algorithmen der prädiktiven Modellierung genutzt um Kunden zu segmentieren, Umsätze zu prognostizieren, Märkte zu analysieren oder um Risiken einzuschätzen (siehe Frees, Derrig und Meyers, 2014).

Doch auch für Onlinemarketing, Spamidentifikation, Betrugsprävention oder für das Customer Relationship Management (Identifizieren und Segmentieren von potentiellen Kunden nach Kaufwahrscheinlichkeit) wird dieses Verfahren häufig verwendet. Mit Hilfe von historischen Daten kann dabei festgestellt werden, welche Produktarten die Benutzer interessieren könnten oder auf welche Felder, Buttons und Links sie wahrscheinlich klicken (siehe Tuzhilin, Gorgoglione und Palmisano, 2008).

Funktionslernen

Die Verfahren der prädiktiven Modellierung beruhen auf Wahrscheinlichkeiten des Auftretens der interessierenden Eigenschaft, dessen kausale Beziehung zu den erhobenen Merkmalen durch eine unbekannte Funktion dargestellt wird. Die interessierende Eigenschaft dieser Funktion ist nominal skaliert, hat somit einen booleschen Ausgangswert und wird als Klassifizierer bezeichnet. Der boolesche Wert besteht aus einem positiven Fall wenn die interessierende Eigenschaft aufritt (Bspw. Onlineshop) und einem negativen Fall wenn diese nicht auftritt. Eine hypothetische Eingang-Ausgang-Funktion wird nun definiert. Die Form dieser Funktion ist beliebig und folgt hier einer logistischen Verteilung.

Formel

Die Parameter stehen dabei für die kausale Beziehung zwischen den Erhebungsmerkmalen in und den Auftrittswahrscheinlichkeiten. Der Ausgang der hypothetischen Funktion ergibt dabei die geschätzte Wahrscheinlichkeit für das Auftreten der interessierenden Eigenschaft. Somit liegt dem hier genutzten Methodenansatz innerhalb des Lernalgorithmus eine logistische Regression zugrunde (siehe Long, 1997).
Es gibt verschiedene Methoden der prädiktiven Identifikation, die Logistische Regression ist jedoch eine sehr populäre und leicht nachvollziehbare Methode, die sich insbesondere im Bereich „pattern recognition“ in der Medizininformatik bewährt hat, auf Wahrscheinlichkeiten beruht und einfach anzuwenden ist (siehe Dreiseitl und Ohno-Machado, 2002). ISTAT hat bei der Identifikation von Onlineshops die Machine Learning Algorithmen „Neuronale Netze“, „Logistische Regression“ und „Random Forest“ verwendet und die Ergebnisse mit Maßzahlen für Präzision, Sensitivität und Richtigkeit überprüft. Dabei stellte sich heraus, dass die Logistische Regression als Algorithmus prädiktiver Modellierung keine größeren Fehlerquoten erzeugt hat als die bedeutend rechenaufwendigeren und komplizierten Alternativverfahren.

Trainingsregime

Ziel des Funktionslernens als Lernen ist es nun, mit die möglichst gleichen Ergebnisse zu erzielen wie mit der Funktion . Erreicht wird dies durch Anwenden der hypothetischen Funktion auf historische, elektronisch erhobene Unternehmensdaten mit bereits bekannten Unternehmenseigenschaften, die auf einen Trainings- und einen Testdatensatz aufgeteilt werden. Mit dem Verfahren des absteigenden Gradienten werden die Kausalitätsparameter durch Minimierung einer aus der hypothetischen Funktion abgeleiteten, konvexen, empirischen Fehlerfunktion iterativ mit den Trainingsdaten bestimmt/gelernt und über die Testdaten geprüft. Diese Art des Funktionslernens heißt Gradienten basiertes Lernen. Die Nutzung der Trainingsdaten beim vollüberwachten Funktionslernen erfolgt häufig im Batch-Modus. Das heißt, dass alle Datensätze der Trainingsdaten in einem Optimierungsprozess verwendet werden, die vorher manuell recherchiert worden sind. Je mehr Fälle korrekt klassifiziert werden, umso besser ist die Funktion gelernt worden.

Bei dem hier vorgestellten Ansatz wird das iterative Online-Trainingsregime als teilüberwachtes Funktionslernen angewendet. Dies bedeutet, dass der Trainings- und der Testdatenbestand zwar initial ausschließlich durch manuelle Recherche entstehen, aber nicht statisch sind. Der Bestand wird vielmehr, abhängig von Prüfergebnissen des angewendeten prädiktiven Verfahrens, durch das automatisierte Hinzufügen von neuen Datensätzen maschinell ertüchtigt. Die Anzahl und Art der neuen Trainingsdatensätze folgt einer Funktion (siehe Bottou und Le Cun, 2004).

Nach dem Lernprozess werden im HSL-Verfahren Datensätze der Verknüpfungsdaten mit sehr hoher oder sehr niedriger prognostizierter Wahrscheinlichkeit für das Auftreten der Unternehmenseigenschaft den Trainingsdaten automatisiert hinzufügefügt und das prädiktive Verfahren erneut durchgeführt. Dadurch entsteht ein iterativer Lernprozess durch den die Kausalitätsparameter Prozedur für Prozedur angepasst werden.

Prognose

Mit den gelernten Kausalitätsparametern aus den Trainings- und Testverfahren und der hypothetischen Funktion können nun die Auftrittswahrscheinlichkeiten der interessierenden Eigenschaften für unbekannte Daten, nach elektronischer Extraktion der Erhebungsmerkmale bestimmt werden. Überschreiten die Wahrscheinlichkeiten einen vordefinierten Grenzwert, wird die interessierende Eigenschaft für die Webseite automatisch festgelegt (siehe Nilsson, 1998).

Zum Inhaltsverzeichnis                          zurück                          weiter