These sample files and code examples are provided by CFG Schendera c/o Method Consult „as is“ without warranty of any kind, either express or implied, including but not limited to the implied warranties of merchantability and fitness for a particular purpose. Recipients acknowledge and agree that CFG Schendera c/o Method Consult shall not be liable for any damages whatsoever arising out of their use of this material. In addition, CFG Schendera c/o Method Consult will provide no support for the materials contained herein.
Data Mining
Data Mining bezeichnet den Prozess des Entdeckens von Mustern in grossen Datenmengen mittels Ansätzen aus der künstlichen Intelligenz und der klassischen Statistik. Muster können z.B. Gruppen, Segmente, Beziehungen (kausal oder nicht), Regeln (Entscheidungen), oder Sequenzen sein. Die praktische Anwendung von Data Mining ist nahezu unbegrenzt.
Praktische Beispiele: Was kann Data Mining?
-
- Agrarwirtschaft: Weinbau: Vorhersagen
Kennen Sie die wirklich signifikanten Prädiktoren für den besten Wein in einem Jahr? Data Mining hat eine Formel herausgefunden, die bislang noch alle Weinexperten bei der Vorhersage der besten Jahrgänge geschlagen hat. Es gibt auch Ansätze, die je nach individuellem Geschmack den am Besten passenden Wein vorzuschlagen versuchen… - B2C: Warenkorbanalysen:
Werfen Sie einen Blick in einen Warenkorb (SMCG, FMCG): Welche Produkte kaufen Ihre Kunden wie häufig? Welche Kombination an Artikeln ist am beliebtesten? Bereits diese Informationen reichen, um Massnahmen z.B. für eine optimierte Shop-Gestaltung zu überdenken. Erweiterte Warenkorbanalysen erlauben Ihnen abzuschätzen, was dieser Kunde mit hoher Wahrscheinlichkeit als nächstes kaufen könnte („next best offer“). - Customer Segmentation:
Unterteilen Sie Ihre Kunden in weniger, aber übersichtliche gleiche Gruppen. Homogene Gruppen erleichtern eine ökonomische Kundenansprache. Sie sprechen ganze Gruppen von Kunden mittels weniger, validierter Merkmale effizient an. - Customer Profiling: CRM:
Wer sind Ihre Kunden im Detail? Lernen Sie sie besser kennen: Erstellen Sie Kundenprofile anhand von DM Analysen von Big Data. Lernen Sie ihre Eigenschaften, Affinitäten, und Potenziale kennen. Rangordnen Sie all Ihre Kunden gemäß ihrem Wert, und sprechen Sie sie persönlicher an. Sagen Sie zukünftige Trends bei Umsatz(wachstum) besser voraus (time to churn, time to event). - Verkauf: z.B. Cross-Selling:
Verfügen Sie über die Kaufdaten Ihres Kunden, dann macht Sie Data Mining erfolgreicher beim abteilungs- oder unternehmensübergreifenden Verkauf weiterer Produkte an Ihre Bestandskunden. Recommender Systems gehen so weit, dass sie sogar Cross- und Up-Selling an noch unbekannte Neukunden ermöglichen. - Empfehlungen: z.B. Up-Selling:
Recommender Systems schlagen einem Kunden Produkte vor, die andere Kunden mit vergleichbaren Merkmalen gekauft haben. Alternativ können sie demselben Kunden Produkte vorgeschlagen, die ähnlich (ggf. höherwertiger) im Vergleich zu denjenigen sind, die er selbst in der Vergangenheit gekauft hatte. - Fraud Detection
Fraud Detection erscheint als kontraintuitives Thema, da Data Mining eher für Big Data konzipiert ist, und Fraudster als die wenigen „Schwarzen Schafe“ eher Einzelfälle zu sein scheinen. Data Mining funktioniert jedoch auch bei extrem nichtbalancierten Daten, z.B. bei versuchtem Kartenbetrug. - Manufacturing: Event Forensics
Sind Produktion und Produktqualität immer noch im grünen Bereich? Können Sie in der Produktion die Faktoren eingrenzen, die Mängel verursachen? Was sagen Ihre Kunden über Ihre Produkte („sentiment analysis“)? Besteht ein konkreter Zusammenhang zwischen Produk(tions)daten und Gewährleistungsansprüchen? - Kunden-Targeting
Sprechen Sie Ihre Kunden anhand von identifizierten Merkmalen an, ist Ihr Marketing erfolgreicher. Sie adressieren diejenigen Kunden, die am wahrscheinlichsten auf Mailing-Kampagnen reagieren werden. Targeting gibt es in verschiedenen Varianten (Merkmale, Einzugsgebiet, Kontext). Spannend ist die Variante des Statistischen Zwillings, bei der Sie Neukunden anhand von Doppelgängern von Top-Kunden in Ihrer Datenbasis gewinnen.
- Finance: Ausgabeverhalten
Erstellen Sie Kundenprofile oder Klassifikationen (Typen) durch die Analyse des Ausgabe-Verhaltens (z.B. von Kreditkarten-Inhabern), und sagen Sie die Kunden-Verlustrate voraus (Churn, Attrition). - Controlling
Warum immer auf unternehmensweit verteilte Datendateien warten? Warum nicht ein KPI-System implementieren, das automatisiert Berichte einschließlich der DM Ergebnisse auf integrierten Daten unternehmensweit ausliefert? - Image Processing
Data Mining kann Bilder lesen, verarbeiten, und klassifizieren. Angefangen von Produktetiketten, über von Hand geschriebene Texte (z.B. Anschriften, Rezepte), bis hin zu Autokennzeichen oder Fotos. Charmant bei diesem Vorgang ist, dass dabei Bilder in Zahlen umgewandelt werden… - Customer Journey: vom Interesse zum Umsatz
Die Customer Journey beginnt nicht mit dem Kauf-/Vertragsabschluss, sondern mit dem Erstkontakt bzw. dem Interesse an einem Produkt (Dienstleistung). Jede Station der Customer Journey können Sie mehrdimensional modellieren: Verhalten am Point of Sale, Produktaffinität, Vertragsmerkmale (Features, Verlängerung bzw. Stornierung), Media Usage, und Umsätze. Indem z.B. die Unterhaltungsindustrie die lokale Nachfrage von Fans an Konzerten identifiziert, schafft sie Win-Win-Win Situationen: Die lokalen Veranstaltungen sind gut besucht, die Band wird wieder gebucht (ggfs. in einem grösseren Rahmen), und die Fans freut es.
- Geo Mining/Marketing: Erkunden Sie Ihr Umfeld
Wo ist Bedarf? Versicherer sind z.B. erfolgreicher beim Sale von Versicherungen gegen Wasserschäden, wenn sie Hausbesitzer ansprechen, die nahe an Gewässern wohnen. In einem Umfeld mit hohen Kriminalitätsraten besteht i.A. eine höhere Nachfrage nach Sicherheitsdienstleistungen. Eine Geo-Analyse unterstützt ein Sicherheitsunternehmen beim Verkauf seiner Dienstleistungen, da es „hot spots“ des Bedarfs aufzeigen kann. Wo ist weniger Bedarf? Umgekehrt kann verhindert werden, dass Badekleidung in den Polregionen oder Winterkleidung am Äquator unnötig intensiv beworben wird. - Risk
Kann ich ein Risiko im Business erkennen und vorhersagen? Was könnte ich tun, wenn dieser Kunde, dieses Produkt oder diese eine Dienstleistung bestimmte Merkmale aufweist? Die gleiche Frage, die gleiche Antwort: Data Mining.
- Agrarwirtschaft: Weinbau: Vorhersagen
Typische Data Mining Ansätze:
Data Mining wird i.A. technisch unterteilt, z.B. Machine Learning, Deep Learning, Image Processing etc.; die folgende, grobe Übersicht ist eher funktional angelegt.
-
- Clusterung und Segmentierung
Two-Stage, k-nearest neighbours (KNN), SOM/Kohonen, Binning, Market Basket, Variable Clustering, Diskriminanzanalyse, etc. - Kausalmodellierung
Path Analysis, Neural Network, AutoNeural, Gradient Boosting, Decision Tree, Random Forest, Multilayer Perceptron, etc. - Regressionsmodellierung
Dmine Regression, DMNeural, LARS, PLS, Regression (multiple, binär, logistisch, ordinal, multinomial), Survival etc. - Natural Language Processing (NLP) aka Text Mining
Sentiment Analysis (e.g. Communication Climate), Recommender Systems, text-based Market-Basket Analysis auf der Basis unstrukturierter Texte (u.a. Emails, Tweets) etc. Visuelle Analyse u.a. mittels Sankey Charts, Word Trees, Tag Clouds, Phrase Nets mit u.a. Viya, SAS9.4, Python, oder SPSS Modeller.
- Clusterung und Segmentierung
„Hochglanz“ Software sollte jedoch nicht darüber hinwegtäuschen, dass auch das Data Mining einen komplexen statistisch-technischen Hintergrund hat, und dass GUI- bzw. daten-getriebene Techniken (AI, ML) expertenwissen-getriebenes Validieren und Testen nicht ersetzen.
Pre-Processing Ansätze (MLDevOps):
-
- Werte
Imputation (Median/Mittelwert, EM/FIML, Regression, Cold/Hot Deck), Löschen, Zusammenfassen, Flagging etc. - Zeilen
Filtering, Indexing, Cleansing, Sampling, Kombinieren, Zusammenfassen kategorialer Inputvariablen etc. - Spalten (Verdichtung)
Combining (PCA, Regression, Faktoranalyse), univariate Korrelation mit Target (Spearman, Hoeffding), weitere Reduzierung durch Clusterung der Inputvariablen. - Bestes Modell
Schrittweise Variablenselektion, z.B. durch Rückwärtsregression. Abhängig von Datenlast und Verarbeitungsumgebung. - Andere daten-getriebene Techniken
Unterauswahl nach Zufall und Struktur (Strata), Entscheidungsbäume, ehrliche Einschätzung der Performanz von Klassifizierern, Validierung, AUC/ROC, Cut-Off Kalibrierung, Lift etc. Daten-getriebene Techniken ersetzen kein expertenwissen-getriebenes Validieren und Testen.
- Werte
Wir bieten professionelles Data Mining von auch großen Datenmengen. Wir beraten Sie gerne in Bezug auf Möglichkeiten von Data Mining und helfen Ihnen, Ihre Kunden, Produkte und Dienstleistungen noch besser kennenzulernen.
Angebot
Kontakt
Method Consult Switzerland Dr. Schendera
Vorrütiweg 5
CH-6052 Hergiswil
Switzerland
Rufnummer
+41-78-4null68eins53