Dimensionsreduktion wird verwendet, um hochdimensionale Daten zu visualisieren und die Nachbarschaftsbeziehungen der Punkte zu erhalten.
Abstandserhaltende Projektion
Eine abstandserhaltende Projektion ist ein Verfahren, das eine Menge von Datenpunkten aus einem hochdimensionalen Raum auf einen Raum mit geringerer Dimension abbildet, wobei die Abstände zwischen den Punkten möglichst erhalten bleiben sollen. Das bedeutet.
- Datenpunkte, die im Ausgangsraum
weit auseinander
liegen, sollen auch im Zielraumweit auseinander
entfernt liegen. - Datenpunkte, die im Ausgangsraum
nahe beieinander
liegen, sollen auch im Zielraumnahe beieinander
liegen.
Ziel einer abstandserhaltenden Projektion
die Nachbarschaftsbeziehungen der Punkte zu erhalten.
Beispiel
- Daten aus 2D auf eine Gerade 1D projizieren
- Einfache Projektion zerstört Nachbarschaftsinformationen
- Abstandserhaltende Projektion bewahrt relative Abständde → Dimensionsrekution von 2 auf 1
MDS und t-SNE Verfahren für abstandserhaltenden Projektionen
Um Daten visiuell zu analysieren und Muster zu erkennen. dabei versuchen die beide Verfahren, die
Abstände bzw. Ähnlichkeitsbeziehungen
zwischen den Datenpunkten im dochdimensionalen Raum möglichst gu im niedrigdiemsionalen Raum zu erhalten.
Multi-Dimensional Scaling (MDS)
-
MDS ist ein robustes Verfahren , das gut für
kleine bis mittelgroße Datensätze
geeignet ist. -
Es liefert eine klare Darstellung der Daten und ermöglicht es, Cluster und andere Strukturen zu erkennen.
-
Es verwendet den SMACOF-Algorithmus.
- Eingabe: Unähnlichkeitsmatrix mit paarweisen Abständen der Punkte im Ausgangsraum.
- Ziel: Punkte im 2D-Raum so anordnen, dass ihre Abstände die Unähnlichkeiten im Ausgangsraum widerspiegeln.
- Ablauf: Minimierung einer Abweichungsfunktion, die die Differenz zwischen Abständen im Ausgangs- und Zielraum misst. Dies geschieht durch schrittweises Bewegen der Punkte.
- Ergebnis: Eine 2D-Anordnung, die die Struktur der Daten im hochdimensionalen Raum möglichst gut erhält.
Nachteile
- Sehr rechenintensiv und lagsam bei
großen Datensätze
- Bei Daten mit höherer Dimension liefert es oft keine otimale Ergebnisse
Python
- MDS arbeitet mit Abständen, man muss die Daten also vorab erst mal skalieren…
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_transformed = scaler.fit_transform(X)
- Transformation aus nach .
n_componnts
ist die Dimension des Zielraums.
from sklearn.manifold import MDS
mds = MDS(n_components=2, random_state=0)
X_2d = mds.fit_tranform(X_tranformed)
t-Distributed Stochastic Neighbor Embedding (t-SNE)
- Alternatives Verfahren zur Dimensionsreduktion
- eignet sich sehr gut für große hochdimensionale Datensätze (Einsatz oft im Big-Data-Umfeld)
Funktionsweise
- t-SNE arbeitet mit Wahrscheinlichkeiten. Der Algorithmus berechnet zunächst für jeden Datenpunkt die Wahrscheinlichkeit, dass ein anderer Datenpunkt sein Nachbar ist. Diese Wahrscheinlichkeit basiert auf der Normalverteilung und nimmt mit zunehmendem Abstand zwischen den Punkten ab
- Anschließend werden die Punkte im niedrigdimensionalen Raum zufällig verteilt. Für diese Punkte im niedrigdimensionalen Raum wird dann ebenfalls die Wahrscheinlichkeit berechnet, dass sie Nachbarn sind, diesmal basierend auf der Student-t-Verteilung
- Der Algorithmus verschiebt dann die Punkte im niedrigdimensionalen Raum so lange, bis die Wahrscheinlichkeitsverteilungen im hochdimensionalen und niedrigdimensionalen Raum möglichst gut übereinstimmen.
Nachteile
- funktioniert nicht sehr stabil
- kleine Änderungen an den Parametern führen zu sehr unterschiedlichen Ergebnissen.
- daher ist das Ergebnis schwierig einzuschätzen.
Python
from sklearn.manifold import TSNE
tsne = TSNE(n_components=2, randomw_state=0, perplexity=50) # perplexity -> hat Auwirkungen auf die Skalierung im Ausgangsraum
X_2d = tsne.fit_tranform(X)
Je größer die Datenmenge desto höher die Perplexity
Zusammenfassung
Sowohl MDS als auch t-SNE sind nützliche Verfahren zur Dimensionsreduktion. MDS ist robust und gut für kleinere Datensätze geeignet, während t-SNE besonders gut mit großen, hochdimensionalen Datensätzen zurechtkommt. Die Wahl des geeigneten Verfahrens hängt von der Größe und Struktur des Datensatzes sowie von den Zielen der Analyse ab.
Frage 1: Wozu kann man abstandserhaltende Projektionen verwenden?
a) Zur Reduktion der Datenmenge
b) Zur Visualisierung hochdimensionaler Daten
c) Zur Verbesserung der Klassifikationsgenauigkeit
d) Zur Erkennung von AusreißernLösung
b) Zur Visualisierung hochdimensionaler Daten
Erläuterung: Abstandserhaltende Projektionen werden verwendet, um hochdimensionale Daten in einem niedrigdimensionalen Raum darzustellen, wobei die Beziehungen zwischen den Datenpunkten erhalten bleiben.
Frage 2: Was ist das Hauptziel abstandserhaltender Projektionen?
a) Punkte, die sich im Ausgangsraum nahe sind, sollen sich auch im Zielraum nahe sein.
b) Punkte, die sich im Ausgangsraum fern sind, sollen sich auch im Zielraum fern sein.
c) Alle Punkte sollen im Zielraum gleich weit voneinander entfernt sein.
d) Punkte sollen zufällig im Zielraum verteilt werden.Lösung
a) Punkte, die sich im Ausgangsraum nahe sind, sollen sich auch im Zielraum nahe sein.
b) Punkte, die sich im Ausgangsraum fern sind, sollen sich auch im Zielraum fern sein.
Erläuterung: Das Hauptziel abstandserhaltender Projektionen ist es, die Distanzen zwischen den Punkten im Ausgangsraum so gut wie möglich im Zielraum zu bewahren.
Frage 3: Was ist das Hauptziel von abstandserhaltenden Projektionen?
a) Die Reduktion der Datenmenge
b) Die Visualisierung von hochdimensionalen Daten
c) Die Erhaltung der Nachbarschaftsbeziehungen zwischen Datenpunkten
d) Die Verbesserung der Genauigkeit von KlassifikationsmodellenLösung
b) Die Visualisierung von hochdimensionalen Daten
c) Die Erhaltung der Nachbarschaftsbeziehungen zwischen Datenpunkten
Erläuterung: Das Hauptziel von abstandserhaltenden Projektionen besteht darin, hochdimensionale Daten in einer niedrigdimensionalen Darstellung so zu visualisieren, dass die Beziehungen zwischen den Datenpunkten möglichst gut erhalten bleiben.
Frage 4: Welche der folgenden Aussagen über Multi-Dimensional Scaling (MDS) ist/sind korrekt?
a) MDS basiert auf einer Unähnlichkeitsmatrix, die die paarweisen Abstände aller Datenpunkte im hochdimensionalen Raum enthält.
b) MDS ist besonders gut für große Datensätze mit Millionen von Datenpunkten geeignet.
c) MDS versucht, die Punkte im niedrigdimensionalen Raum so anzuordnen, dass die euklidischen Distanzen zwischen den Punkten möglichst gut mit den Abständen in der Unähnlichkeitsmatrix übereinstimmen.
d) MDS verwendet die Student-t-Verteilung, um die Wahrscheinlichkeit zu berechnen, dass zwei Punkte Nachbarn sind.Lösung
a) MDS basiert auf einer Unähnlichkeitsmatrix, die die paarweisen Abstände aller Datenpunkte im hochdimensionalen Raum enthält.
c) MDS versucht, die Punkte im niedrigdimensionalen Raum so anzuordnen, dass die euklidischen Distanzen zwischen den Punkten möglichst gut mit den Abständen in der Unähnlichkeitsmatrix übereinstimmen.
Erläuterung: MDS verwendet eine Unähnlichkeitsmatrix, um die Abstände zwischen den Datenpunkten zu erfassen und die Punkte im niedrigdimensionalen Raum so anzuordnen, dass diese Abstände erhalten bleiben.
Frage 5: Welche der folgenden Aussagen über t-Distributed Stochastic Neighbor Embedding (t-SNE) ist/sind korrekt?
a) t-SNE ist ein deterministisches Verfahren, das bei gleichen Parametern immer die gleichen Ergebnisse liefert.
b) t-SNE ist besonders gut für große, hochdimensionale Datensätze geeignet.
c) t-SNE verwendet die Normalverteilung, um die Wahrscheinlichkeit zu berechnen, dass zwei Punkte im niedrigdimensionalen Raum Nachbarn sind.
d) t-SNE versucht, die Wahrscheinlichkeitsverteilungen der Nachbarschaftsbeziehungen im hochdimensionalen und niedrigdimensionalen Raum möglichst gut in Übereinstimmung zu bringen.Lösung
b) t-SNE ist besonders gut für große, hochdimensionale Datensätze geeignet.
d) t-SNE versucht, die Wahrscheinlichkeitsverteilungen der Nachbarschaftsbeziehungen im hochdimensionalen und niedrigdimensionalen Raum möglichst gut in Übereinstimmung zu bringen.
Erläuterung: t-SNE ist ein stochastisches Verfahren, das gut geeignet ist, um hochdimensionale Daten auf niedrigdimensionalen Raum zu projizieren, dabei jedoch die Nachbarschaftsbeziehungen zu bewahren.
Frage 6: Welche der beiden Verfahren, MDS oder t-SNE, ist im Allgemeinen robuster gegenüber Parameteränderungen?
a) t-SNE
b) MDSLösung
b) MDS
Erläuterung: MDS ist im Allgemeinen robuster gegenüber Änderungen der Parameter als t-SNE, welches empfindlicher auf Parameter wie “Perplexity” reagiert und daher instabiler sein kann.
Frage 7: Welches Verfahren ist wahrscheinlich besser geeignet, um Cluster in einem Datensatz mit 10.000 Datenpunkten und 50 Dimensionen zu visualisieren?
a) MDS
b) t-SNELösung
b) t-SNE
Erläuterung: t-SNE ist besser geeignet, um Cluster in hochdimensionalen Datensätzen zu visualisieren, da es besonders gut mit großen Datensätzen und hochdimensionalen Daten umgehen kann.
Frage 8: Was ist ein "perplexity" Parameter in t-SNE und was beeinflusst er?
Lösung
Der “perplexity” Parameter in t-SNE ist ein Maß für die lokale Nachbarschaftsgröße. Er beeinflusst die Anzahl der Nachbarn, die bei der Berechnung der Ähnlichkeitswahrscheinlichkeiten für jeden Datenpunkt berücksichtigt werden. Ein höherer Wert für “perplexity” führt zu einer größeren Nachbarschaft und kann die Visualisierung glätten.
Erläuterung: Der “perplexity”-Wert spielt eine entscheidende Rolle bei der Steuerung der lokalen Struktur und der Glättung der Visualisierung in t-SNE. Höhere Werte führen zu einer breiteren Nachbarschaft.
Frage 9: Nennen Sie je einen Vorteil und einen Nachteil von MDS.
Lösung
Vorteil: Robust und liefert oft leicht interpretierbare Ergebnisse.
Nachteil: Rechenintensiv bei großen Datensätzen und kann bei hochdimensionalen Daten zu suboptimalen Ergebnissen führen.
Erläuterung: MDS bietet eine robuste Visualisierung und ist relativ einfach zu interpretieren, hat jedoch bei großen Datensätzen und hoher Dimensionalität mit Rechenaufwand zu kämpfen.
Frage 10: Nennen Sie je einen Vorteil und einen Nachteil von t-SNE.
Lösung
Vorteil: Gut geeignet für große, hochdimensionale Datensätze und kann komplexe Strukturen aufdecken.
Nachteil: Instabil und kann bei kleinen Parameteränderungen zu unterschiedlichen Ergebnissen führen.
Erläuterung: t-SNE kann sehr effektiv Muster und Strukturen in großen, hochdimensionalen Datensätzen visualisieren, jedoch ist es anfällig für Instabilität bei kleinen Änderungen der Parameter.