Skip to main content

Machine Learning bezeichnet vereinfacht ausgedrückt ein Spezialgebiet der Informationstechnologie, in dem mit Hilfe von mathematischen Algorithmen Erkenntnisse aus Daten gewonnen werden. Dabei gibt es unterschiedlichste Einsatzgebiete und Fachrichtungen. Ein Bereich, den wir in diesem Artikel beleuchten wollen ist das sogenannte „Topic Modeling“. Hierbei versucht der Algorithmus zu einem oder vielen Text Dokumenten autonom heraus zu finden, um welche Themen es sich handelt.

Ein praktisches Beispiel:

Ein Mobilfunk-/Notebook Reparatur Dienstleister möchte neue Produkt und Service Ideen generieren. Hierzu wäre es hilfreich zu wissen, welche Themen die Nutzer besonders beschäftigen, bzw. mit welchen Themen die Nutzer die meisten Probleme haben. In Diskussionsforen tauschen sich Nutzer über diese Themen aus. Es liegt also nahe, diese Diskussionen als Grundlage zu nehmen. Ein Mitarbeiter des Dienstleisters könnte sich diese Diskussionen alle durchlesen und die häufigsten Problem identifizieren. Dieses Vorgehen ist nicht sehr effizient, da es zig Tausende von Diskussionen und viele Foren gibt.

Was, wenn eine Machine all diese Foren durchforsten könnte und auf Basis von statistischen Modellen und maschinellem Lernen herausfinden könnte worüber sich die meisten User unterhalten und welche Probleme sie haben? Das Ergebnis dieser maschinellen Recherche hätte zwei immense Vorteile für das Unternehmen:

– Welches Problem haben die Nutzer?

– Daraus folgt: Welches Produkt / welchen Service könnte das Unternehmen anbieten, um dem Nutzer zu helfen?

– Ein Nebenprodukt des Ergebnisses wären relevante Keywords, die das Unternehmen nutzen könnte, um rund um das Produkt / Dienstleistung Content zu erstellen.

Anhand dieses konkreten Beispiels möchte ich zeigen wie eine mögliche Implementierung aussehen könnte.

Unsere Machine Learning Pipeline sieht wie folgt aus:

Auf http://all4phones.de/iphone-probleme/ diskutieren Nutzer über Ihre Probleme mit dem Iphone. Wir wollen herausfinden, was die größten Probleme sind, damit wir Produkte oder Dienstleistungen oder Content Ideen generieren können.

Der erste notwendige Schritt besteht darin, die Diskussionstexte von der Webseite zu extrahieren und zu speichern. Im zweiten Schritt müssen die Daten bereinigt werden. Worte wie „ich, er, hast, und“ sind für unsere Analyse Zwecke nicht nützlich und sollten aus dem Textkorpus entfernt werden. Damit reduzieren wir die Datenkomplexität und erhöhen die Qualität der Ergebnisse. Im dritten Schritt kommt der interessante Teil. Zum Topic Modeling verwenden wir den LDA Algorithmus (Latent Dirichlet Allocation). Sehr grob gesprochen ist LDA ist ein generatives Modell, welches mit Hilfe der Stochastik, Wortverteilungen und -häufigkeiten Textdokumente klassifizieren kann.

Nachfolgend das Ergebnis:

Wenn man in unserem Beispiel auf den ersten Cluster klickt, sieht man rechts die Wörter, die am meisten innerhalb dieses Themengebietes vorkommen nach Ihrer relativen Häufigkeit. Wir betrachten die ersten 6 Wörter:

Backup, Gerät, ios, icloud, update, wiederherstellung

Es geht in diesem Themengebiet also eindeutig um das Backup und Wiederherstellen von iOS Geräten mit iCloud. Da wir wissen, dass es sich um ein „iPhone Probleme“ Forum handelt, schliessen wir daraus, dass es sich also um das größte Problem handelt, welches die Nutzer diskutieren.

Das ist der zweite Cluster:

Hier sind die sechs relevantesten Wörter:

handy, jailbreak, apps, ios, firmware, version

Bei diesem Cluster geht es offensichtlich um das Thema Jailbreak und iOS Updates.

Das Unternehmen könnte nun Themenseiten (also Content) um diese Themen herum erstellen, um organischen Traffic zu erzeugen. Oder sich auch Produkte und Dienstleistungen um dieses Thema herum kreieren:

  • Eine Dienstleistung zum Erstellen von Backups des iPhones und Wiederherstellung
  • Ein verkauftes Tutorial als Paid Content?
  • Ein eBook zum kostenlosen Download zum Thema iPhone Backup, wenn der User sich vorher registriert

Ein Gegencheck in Google Trends lässt eindeutig erkennen, dass das Thema „Backup iCloud“ ein wachsender Trend ist, was unsere Ergebnisse der Textanalyse unterstreicht.

Wollen Sie wissen, wie man in Ihrer Branche Machine Learning einsetzen kann?

Sprechen Sie uns an: Kontakt