Dimensionsreduktion

Dimensionsreduktion wird verwendet, um hochdimensionale Daten zu visualisieren und die Nachbarschaftsbeziehungen der Punkte zu erhalten.

Abstandserhaltende Projektion

Eine abstandserhaltende Projektion ist ein Verfahren, das eine Menge von Datenpunkten aus einem hochdimensionalen Raum auf einen Raum mit geringerer Dimension abbildet, wobei die Abstände zwischen den Punkten möglichst erhalten bleiben sollen. Das bedeutet.

Datenpunkte, die im Ausgangsraum weit auseinanderliegen, sollen auch im Zielraum weit auseinanderentfernt liegen.
Datenpunkte, die im Ausgangsraum nahe beieinanderliegen, sollen auch im Zielraum nahe beieinanderliegen.

Ziel einer abstandserhaltenden Projektion

die Nachbarschaftsbeziehungen der Punkte zu erhalten.

Beispiel

Daten aus 2D auf eine Gerade 1D projizieren
Einfache Projektion zerstört Nachbarschaftsinformationen
Abstandserhaltende Projektion bewahrt relative Abständde → Dimensionsrekution von 2 auf 1

MDS und t-SNE Verfahren für abstandserhaltenden Projektionen

Um Daten visiuell zu analysieren und Muster zu erkennen. dabei versuchen die beide Verfahren, die Abstände bzw. Ähnlichkeitsbeziehungen zwischen den Datenpunkten im dochdimensionalen Raum möglichst gu im niedrigdiemsionalen Raum zu erhalten.

Multi-Dimensional Scaling (MDS)

MDS ist ein robustes Verfahren , das gut für kleine bis mittelgroße Datensätze geeignet ist.
Es liefert eine klare Darstellung der Daten und ermöglicht es, Cluster und andere Strukturen zu erkennen.
Es verwendet den SMACOF-Algorithmus.
- Eingabe: Unähnlichkeitsmatrix mit paarweisen Abständen der Punkte im Ausgangsraum.
- Ziel: Punkte im 2D-Raum so anordnen, dass ihre Abstände die Unähnlichkeiten im Ausgangsraum widerspiegeln.
- Ablauf: Minimierung einer Abweichungsfunktion, die die Differenz zwischen Abständen im Ausgangs- und Zielraum misst. Dies geschieht durch schrittweises Bewegen der Punkte.
- Ergebnis: Eine 2D-Anordnung, die die Struktur der Daten im hochdimensionalen Raum möglichst gut erhält.

Nachteile

Sehr rechenintensiv und lagsam bei großen Datensätze
Bei Daten mit höherer Dimension liefert es oft keine otimale Ergebnisse

Python

MDS arbeitet mit Abständen, man muss die Daten also vorab erst mal skalieren…

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_transformed = scaler.fit_transform(X)

Transformation aus $R^{7}$ nach $R^{2}$ . n_componnts ist die Dimension des Zielraums.

from sklearn.manifold import MDS
mds = MDS(n_components=2, random_state=0)
X_2d = mds.fit_tranform(X_tranformed)

t-Distributed Stochastic Neighbor Embedding (t-SNE)

Alternatives Verfahren zur Dimensionsreduktion
eignet sich sehr gut für große hochdimensionale Datensätze (Einsatz oft im Big-Data-Umfeld)

Funktionsweise

t-SNE arbeitet mit Wahrscheinlichkeiten. Der Algorithmus berechnet zunächst für jeden Datenpunkt die Wahrscheinlichkeit, dass ein anderer Datenpunkt sein Nachbar ist. Diese Wahrscheinlichkeit basiert auf der Normalverteilung und nimmt mit zunehmendem Abstand zwischen den Punkten ab
Anschließend werden die Punkte im niedrigdimensionalen Raum zufällig verteilt. Für diese Punkte im niedrigdimensionalen Raum wird dann ebenfalls die Wahrscheinlichkeit berechnet, dass sie Nachbarn sind, diesmal basierend auf der Student-t-Verteilung
Der Algorithmus verschiebt dann die Punkte im niedrigdimensionalen Raum so lange, bis die Wahrscheinlichkeitsverteilungen im hochdimensionalen und niedrigdimensionalen Raum möglichst gut übereinstimmen.

Nachteile

funktioniert nicht sehr stabil
kleine Änderungen an den Parametern führen zu sehr unterschiedlichen Ergebnissen.
daher ist das Ergebnis schwierig einzuschätzen.

Python

from sklearn.manifold import TSNE
tsne = TSNE(n_components=2, randomw_state=0, perplexity=50) # perplexity -> hat Auwirkungen auf die Skalierung im Ausgangsraum
X_2d = tsne.fit_tranform(X)

Je größer die Datenmenge desto höher die Perplexity

Zusammenfassung

Sowohl MDS als auch t-SNE sind nützliche Verfahren zur Dimensionsreduktion. MDS ist robust und gut für kleinere Datensätze geeignet, während t-SNE besonders gut mit großen, hochdimensionalen Datensätzen zurechtkommt. Die Wahl des geeigneten Verfahrens hängt von der Größe und Struktur des Datensatzes sowie von den Zielen der Analyse ab.

Frage 1: Wozu kann man abstandserhaltende Projektionen verwenden?

a) Zur Reduktion der Datenmenge
b) Zur Visualisierung hochdimensionaler Daten
c) Zur Verbesserung der Klassifikationsgenauigkeit
d) Zur Erkennung von Ausreißern

Lösung

b) Zur Visualisierung hochdimensionaler Daten
Erläuterung: Abstandserhaltende Projektionen werden verwendet, um hochdimensionale Daten in einem niedrigdimensionalen Raum darzustellen, wobei die Beziehungen zwischen den Datenpunkten erhalten bleiben.

Frage 2: Was ist das Hauptziel abstandserhaltender Projektionen?

a) Punkte, die sich im Ausgangsraum nahe sind, sollen sich auch im Zielraum nahe sein.
b) Punkte, die sich im Ausgangsraum fern sind, sollen sich auch im Zielraum fern sein.
c) Alle Punkte sollen im Zielraum gleich weit voneinander entfernt sein.
d) Punkte sollen zufällig im Zielraum verteilt werden.

Lösung

a) Punkte, die sich im Ausgangsraum nahe sind, sollen sich auch im Zielraum nahe sein.
b) Punkte, die sich im Ausgangsraum fern sind, sollen sich auch im Zielraum fern sein.
Erläuterung: Das Hauptziel abstandserhaltender Projektionen ist es, die Distanzen zwischen den Punkten im Ausgangsraum so gut wie möglich im Zielraum zu bewahren.

Frage 3: Was ist das Hauptziel von abstandserhaltenden Projektionen?

a) Die Reduktion der Datenmenge
b) Die Visualisierung von hochdimensionalen Daten
c) Die Erhaltung der Nachbarschaftsbeziehungen zwischen Datenpunkten
d) Die Verbesserung der Genauigkeit von Klassifikationsmodellen

Lösung

b) Die Visualisierung von hochdimensionalen Daten
c) Die Erhaltung der Nachbarschaftsbeziehungen zwischen Datenpunkten
Erläuterung: Das Hauptziel von abstandserhaltenden Projektionen besteht darin, hochdimensionale Daten in einer niedrigdimensionalen Darstellung so zu visualisieren, dass die Beziehungen zwischen den Datenpunkten möglichst gut erhalten bleiben.

Frage 4: Welche der folgenden Aussagen über Multi-Dimensional Scaling (MDS) ist/sind korrekt?

a) MDS basiert auf einer Unähnlichkeitsmatrix, die die paarweisen Abstände aller Datenpunkte im hochdimensionalen Raum enthält.
b) MDS ist besonders gut für große Datensätze mit Millionen von Datenpunkten geeignet.
c) MDS versucht, die Punkte im niedrigdimensionalen Raum so anzuordnen, dass die euklidischen Distanzen zwischen den Punkten möglichst gut mit den Abständen in der Unähnlichkeitsmatrix übereinstimmen.
d) MDS verwendet die Student-t-Verteilung, um die Wahrscheinlichkeit zu berechnen, dass zwei Punkte Nachbarn sind.

Lösung

a) MDS basiert auf einer Unähnlichkeitsmatrix, die die paarweisen Abstände aller Datenpunkte im hochdimensionalen Raum enthält.
c) MDS versucht, die Punkte im niedrigdimensionalen Raum so anzuordnen, dass die euklidischen Distanzen zwischen den Punkten möglichst gut mit den Abständen in der Unähnlichkeitsmatrix übereinstimmen.
Erläuterung: MDS verwendet eine Unähnlichkeitsmatrix, um die Abstände zwischen den Datenpunkten zu erfassen und die Punkte im niedrigdimensionalen Raum so anzuordnen, dass diese Abstände erhalten bleiben.

Frage 5: Welche der folgenden Aussagen über t-Distributed Stochastic Neighbor Embedding (t-SNE) ist/sind korrekt?

a) t-SNE ist ein deterministisches Verfahren, das bei gleichen Parametern immer die gleichen Ergebnisse liefert.
b) t-SNE ist besonders gut für große, hochdimensionale Datensätze geeignet.
c) t-SNE verwendet die Normalverteilung, um die Wahrscheinlichkeit zu berechnen, dass zwei Punkte im niedrigdimensionalen Raum Nachbarn sind.
d) t-SNE versucht, die Wahrscheinlichkeitsverteilungen der Nachbarschaftsbeziehungen im hochdimensionalen und niedrigdimensionalen Raum möglichst gut in Übereinstimmung zu bringen.

Lösung

b) t-SNE ist besonders gut für große, hochdimensionale Datensätze geeignet.
d) t-SNE versucht, die Wahrscheinlichkeitsverteilungen der Nachbarschaftsbeziehungen im hochdimensionalen und niedrigdimensionalen Raum möglichst gut in Übereinstimmung zu bringen.
Erläuterung: t-SNE ist ein stochastisches Verfahren, das gut geeignet ist, um hochdimensionale Daten auf niedrigdimensionalen Raum zu projizieren, dabei jedoch die Nachbarschaftsbeziehungen zu bewahren.

Frage 6: Welche der beiden Verfahren, MDS oder t-SNE, ist im Allgemeinen robuster gegenüber Parameteränderungen?

a) t-SNE
b) MDS

Lösung

b) MDS
Erläuterung: MDS ist im Allgemeinen robuster gegenüber Änderungen der Parameter als t-SNE, welches empfindlicher auf Parameter wie “Perplexity” reagiert und daher instabiler sein kann.

Frage 7: Welches Verfahren ist wahrscheinlich besser geeignet, um Cluster in einem Datensatz mit 10.000 Datenpunkten und 50 Dimensionen zu visualisieren?

a) MDS
b) t-SNE

Lösung

b) t-SNE
Erläuterung: t-SNE ist besser geeignet, um Cluster in hochdimensionalen Datensätzen zu visualisieren, da es besonders gut mit großen Datensätzen und hochdimensionalen Daten umgehen kann.

Frage 8: Was ist ein "perplexity" Parameter in t-SNE und was beeinflusst er?

Lösung

Der “perplexity” Parameter in t-SNE ist ein Maß für die lokale Nachbarschaftsgröße. Er beeinflusst die Anzahl der Nachbarn, die bei der Berechnung der Ähnlichkeitswahrscheinlichkeiten für jeden Datenpunkt berücksichtigt werden. Ein höherer Wert für “perplexity” führt zu einer größeren Nachbarschaft und kann die Visualisierung glätten.
Erläuterung: Der “perplexity”-Wert spielt eine entscheidende Rolle bei der Steuerung der lokalen Struktur und der Glättung der Visualisierung in t-SNE. Höhere Werte führen zu einer breiteren Nachbarschaft.

Frage 9: Nennen Sie je einen Vorteil und einen Nachteil von MDS.

Lösung

Vorteil: Robust und liefert oft leicht interpretierbare Ergebnisse.
Nachteil: Rechenintensiv bei großen Datensätzen und kann bei hochdimensionalen Daten zu suboptimalen Ergebnissen führen.
Erläuterung: MDS bietet eine robuste Visualisierung und ist relativ einfach zu interpretieren, hat jedoch bei großen Datensätzen und hoher Dimensionalität mit Rechenaufwand zu kämpfen.

Frage 10: Nennen Sie je einen Vorteil und einen Nachteil von t-SNE.

Lösung

Vorteil: Gut geeignet für große, hochdimensionale Datensätze und kann komplexe Strukturen aufdecken.
Nachteil: Instabil und kann bei kleinen Parameteränderungen zu unterschiedlichen Ergebnissen führen.
Erläuterung: t-SNE kann sehr effektiv Muster und Strukturen in großen, hochdimensionalen Datensätzen visualisieren, jedoch ist es anfällig für Instabilität bei kleinen Änderungen der Parameter.

Tiger103 ˚₊‧🐯.𖥔 ݁

Explorer

Dimensionsreduktion

Abstandserhaltende Projektion

Beispiel

Multi-Dimensional Scaling (MDS)

Nachteile

Python

t-Distributed Stochastic Neighbor Embedding (t-SNE)

Funktionsweise

Nachteile

Python

Zusammenfassung

Graph View

Table of Contents

Backlinks