These sample files and code examples are provided by CFG Schendera c/o Method Consult „as is“ without warranty of any kind, either express or implied, including but not limited to the implied warranties of merchantability and fitness for a particular purpose. Recipients acknowledge and agree that CFG Schendera c/o Method Consult shall not be liable for any damages whatsoever arising out of their use of this material. In addition, CFG Schendera c/o Method Consult will provide no support for the materials contained herein.
Statistik
Zentraler Bestandteil unseres Angebots ist die angewandte Statistik. Je nach Software sind Verfahren auch als Data Mining Ansätze implementiert. Verschaffen Sie sich einen Eindruck davon, welchen Mehrwert Ihnen Advanced Analytics verschaffen können. Gerne bieten wir Ihnen erste Explorationen auch als „appetizer Analysen“ an. In der Angewandten Statistik wird oft eine Kombination von Ansätzen eingesetzt.
Diese Auswahl an Ansätzen ist nach ihrem zentralen Anwendungszweck gruppiert, z.B. für die Analyse auf Zusammenhänge. Unter Data Mining finden Sie Ansätze eher nach einem typischen Einsatz in der Praxis vorgestellt.
Modellierung von Zusammenhängen: Assoziation und Korrelation
- intervall
z.B. Pearson’s r - ordinal
z.B. Spearman’s R, Gamma, Kendall’s tau-b, Somer’s D, Stuart’s tau-c.. - Assoziation
Bitte sehen Sie den Abschnitt zur Tabellenanalyse weiter unten. - Konsistenz
Übereinstimmung, Konkordanz, Reliabilität (z.B. Kappa, Cronbach’s Alpha)
- intervall
Modellierung von Kausalität: Analyse von Ursache und Folge
- Regressionsmodelle
z.B. Linear, Multiple, Loglinear, Nonlinear, Nonparametric, Ridge, Robust, Binäre Logistische Regression, Ordinale Regression, Multinomiale Logistische Regression, Hedonische Regression, Quantil-, Logit-, Probit-, Tobit-, Kategoriale Regression einschl. Elastic Net, WLS, 2LS, Partial-Least Squares; Generalisierte Lineare Modelle; Time-to-Event Analyse / Überlebenszeitanalyse (u.a. Kaplan-Meier, Proportional Hazard) etc.; Multilevel Analyse/Regression etc. Ebenfalls Mixed Models und andere, speziellere Varianten. - Spezielle Regressionsphänomene
z.B. Over-/Underfitting, Regression zur Mitte, Mediationseffekte, Regressionsfalle, Ausreißeranalyse, etc. - Prüfen von Voraussetzungen
z.B. Multikollinearität, Autokorrelation, Varianzhomogenität etc. - Modellierung von Zeitreihen
z.B. Transfer-Funktions-Modelle einschl. Granger-Kausalitätstests für ökonomische Zeitreihendaten etc.
- Regressionsmodelle
Berücksichtigung des Faktors Zeit:
- Regressionsmodelle
(siehe oben) - Time-to-Event Modelle
z.B. Kaplan-Meier, Proportional Hazards, Versicherungsmathematische Methode etc. - Zeitreihenanalyse
(besonders ökonometrische) z.B. Stochastische Zeitreihen (ARIMA, Holt-Winters, Exponentiell) auch für hochvolatile Daten etc. - Modellierung von Veränderung über die Zeit
z.B. Varianzanalyse für Messwiederholungen, Zufallskoeffizientenansätze, Verbundene t-tests, Cochran–Armitage Test auf Trend etc.
- Regressionsmodelle
Analyse auf Unterschiede, Ursachen und Effekte:
- Parametrische Ansätze
z.B. t-tests, ANOVA für balancierte Designs; GLM für nicht balancierte und andere Designs, Kovarianzanalyse, Split-plot-Analysen; Varianzanalyse für Messwiederholungen, multivariate Varianzanalyse; Varianzkomponentenmodellierung; Modellierung von Kovarianzstrukturen, Zufallskoeffizientenansätze (PROC MIXED). Varianzanalyse für Daten aus Experimenten im Lattice Design (PROC LATTICE). Varianzanalyse für genestete Zufallsmodelle (NESTED). Spezielle Anwendungen (ORTHOREG, TRANSREG). Multiples Testen und Vergleichen. Modellierung von festen und Zufallseffekten (PROC MIXED) z.B. für Mehrebenen-Modellierung. Äquivalenz-Tests (TOST by Schuirmann) etc. Data Mining Ansatz: Automatische Lineare Modellierung. - Nonparametrische Ansätze
z.B. Tests auf Lokation und Skalenunterschiede: Wilcoxon-Mann-Whitney, Median, Van der Waerden (normal), Savage, Siegel-Tukey, Ansari-Bradley, Klotz, Mood, Conover. - Design of Experiments (DoE):
z.B. Optimale Designs (z.B. PROCs OPTEX, FACTEX), Statistische Power, Effektgrößen, Sample Größen (z.B. PROC POWER) etc. - Spezielle statistische Techniken
z.B. Simulationen, Parallelisierungen, Fitting, Jack-Knifing (Reampling) etc.
- Parametrische Ansätze
Predictive Analytics (Vorhersagen): Modellierung zukünftiger Ereignisse
- Multivariate Ansätze
z.B. Entscheidungsbäume (CHAID, CART, C4.5/C5 etc.), Neuronale Netzwerke, Multilayer Perceptron, k-nearest neighbours (KNN), Diskriminanzanalyse, Binning etc. - Mathematische Ansätze
z.B. Modellierung von Kreditrisiko. LGD, EAD und PD (Komponentenmodell) gemäß Basel II Umfeld. Modellierung der Wahrscheinlichkeit zu Wechseln (z.B. Prozentansatz im Versicherungsumfeld). ROC/AUC Ansatz / Confusion Matrix (Sensitivität, Spezifität, Treffergenauigkeit, Depth, Lift). - Zeitreihenanalyse
z.B. mit/ohne Trend, mit/ohne saisonale Effekte, Kalendereffekte. - Regressionsmodelle
(siehe oben). - Time-to-Event Modelle
(siehe oben).
- Multivariate Ansätze
Modellierung von „unsichtbaren“ Grössen: Latent Modelling
- Klassen
z.B. Latent Class Analysis (PROC LCA, stand-alone SAS Prozedur). - Faktoren
z.B. Faktoranalyse (PFA, ML, Alpha, Image, ULS, GLS, Wong’s etc.). - Pfade
z.B. Path Analyse, Strukturgleichungsmodelle, LISREL.
- Klassen
Clusterung und Segmentierung
- Basics
Bedingungsgeleitete Ansätze, zufallsbasierte Ansätze, RFM Analyse. - Mathematisch
Clusteranalyse (Hierarchisch, k-means, Two-Step), Conjoint Analyse, Korrespondenzanalyse, Multi-Dimensionale Skalierung (MDS/MDA). - Data Mining
Neuronale Netzworke, Multilayer Perceptron, k-nearest neighbours (KNN), Diskriminanzanalyse, Kohonen, Binning etc.
- Basics
Spezielle Themen, z.B. mit SAS und Python:
- Natural Language Processing (NLP): Unstructured dataSAS Viya: Parsing, concept derivation, linguistic rules. topic derivation, or text categorization. Other SAS: MapReduce (PROC HADOOP),
Python: Recommender Systems, Sentiment Analysis (e.g. Customer Attitude, Communication Climate: Tweets, Emails), text-based Market Basket Analysis etc.
- Natural Language Processing (NLP): Unstructured dataSAS Viya: Parsing, concept derivation, linguistic rules. topic derivation, or text categorization. Other SAS: MapReduce (PROC HADOOP),
- Network Analyse
Visualisierung und Analyse.
- Network Analyse
- Statistisches Matching
Zufallsbasiertes Matching einschl. Fuzzy Factor. Auch mittels kriterium-basierter Parallelisierung und Propensity Scores.
- Statistisches Matching
- Zufallsziehungen (Random Sampling)
z.B. Unrestricted / Simple, PROC SURVEYSELECT. - GIS Visualisierung mit SAS
z.B. Kartenvisualisierung mittels GfK GeoMarketing Map Data Sets. - Geo-Analytics
z.B. Berechnung von Distanzen in 2d / 3d Raum. - Iterative Proportional Fitting (Small Area Estimation)
z.B. Hochrechnung für Zensus Daten. - Bootstrapping.
- Gewichtungen und Analyse mit Gewichten.
- Ehrliche Einschätzung
von Modellen und Scoring von Datensätzen.
- Zufallsziehungen (Random Sampling)
Tabellenanalyse:
- Maße
Intervall: Pearson’s r, ordinal: Spearman’s R, Gamma, Kendall’s tau-b, Somer’s D, Stuart’s tau-c; nominal: Cramer’s V, Kontingenzkoeffizient, Phi Koeffizient, Lambda, Uncertainty Coefficient), Simple Kappa Coefficient, Overall Kappa Coefficient, Cochran’s Q, Binomial Proportion, Odds Ratio, Polychoric / Tetrachoric Correlation. - Tests
McNemar’s Test, Test auf Symmetrie, Test for Equal Kappa Coefficients, Chi-Quadrat, Likelihood Ratio Chi-Quadrat, Mantel-Haenszel Chi-Quadrat, Fisher’s Exakter Test, Jonckheere-Terpstra Test, Cochran-Armitage Trend Test.
- Maße
Mehr …
- … finden Sie z.B. unter Advanced Analytics, Data Mining, oder Intelligence (Business, Competitive).
- Wir entwickeln auch Anwendungen, Verfahren und Maße für Ihre besonderen Anforderungen.
Diese Ansätze sind auf Ihre Anforderungen, auf Ihr Projekt abgestimmt. - uvam.
Darüber hinaus bieten wir Expertise an in:
- Data Mining
- Six Sigma (DMAIC, FMEA, VOC/VOP)
- Forschungsmethoden
- Competitive Intelligence, sowie
- Business Intelligence.
Wir analysieren Daten auf jedem Skalenniveau, mit annähernd jeder statistischen Methode, mit Datentabellen in jeder Größe: Von Datensätzen
mit tausenden von Feldern und Milliarden von Datenzeilen, bis hin zu Datensätzen mit gerade mal ein paar Dutzend Werten (sofern hier Advanced
Analytics bzw. Data Mining Ansätze noch Sinn machen).