Dimensionsreduktion wird verwendet, um hochdimensionale Daten zu visualisieren und die Nachbarschaftsbeziehungen der Punkte zu erhalten.

Abstandserhaltende Projektion

Eine abstandserhaltende Projektion ist ein Verfahren, das eine Menge von Datenpunkten aus einem hochdimensionalen Raum auf einen Raum mit geringerer Dimension abbildet, wobei die Abstände zwischen den Punkten möglichst erhalten bleiben sollen. Das bedeutet.

  • Datenpunkte, die im Ausgangsraum weit auseinanderliegen, sollen auch im Zielraum weit auseinanderentfernt liegen.
  • Datenpunkte, die im Ausgangsraum nahe beieinanderliegen, sollen auch im Zielraum nahe beieinanderliegen.

Ziel einer abstandserhaltenden Projektion

die Nachbarschaftsbeziehungen der Punkte zu erhalten.

Beispiel

  • Daten aus 2D auf eine Gerade 1D projizieren
  • Einfache Projektion zerstört Nachbarschaftsinformationen
  • Abstandserhaltende Projektion bewahrt relative Abständde Dimensionsrekution von 2 auf 1

MDS und t-SNE Verfahren für abstandserhaltenden Projektionen

Um Daten visiuell zu analysieren und Muster zu erkennen. dabei versuchen die beide Verfahren, die Abstände bzw. Ähnlichkeitsbeziehungen zwischen den Datenpunkten im dochdimensionalen Raum möglichst gu im niedrigdiemsionalen Raum zu erhalten.

Multi-Dimensional Scaling (MDS)

  • MDS ist ein robustes Verfahren , das gut für kleine bis mittelgroße Datensätze geeignet ist.

  • Es liefert eine klare Darstellung der Daten und ermöglicht es, Cluster und andere Strukturen zu erkennen.

  • Es verwendet den SMACOF-Algorithmus.

    • Eingabe: Unähnlichkeitsmatrix mit paarweisen Abständen der Punkte im Ausgangsraum.
    • Ziel: Punkte im 2D-Raum so anordnen, dass ihre Abstände die Unähnlichkeiten im Ausgangsraum widerspiegeln.
    • Ablauf: Minimierung einer Abweichungsfunktion, die die Differenz zwischen Abständen im Ausgangs- und Zielraum misst. Dies geschieht durch schrittweises Bewegen der Punkte.
    • Ergebnis: Eine 2D-Anordnung, die die Struktur der Daten im hochdimensionalen Raum möglichst gut erhält.

Nachteile

  • Sehr rechenintensiv und lagsam bei großen Datensätze
  • Bei Daten mit höherer Dimension liefert es oft keine otimale Ergebnisse

Python

  • MDS arbeitet mit Abständen, man muss die Daten also vorab erst mal skalieren…
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_transformed = scaler.fit_transform(X)
  • Transformation aus nach . n_componnts ist die Dimension des Zielraums.
from sklearn.manifold import MDS
mds = MDS(n_components=2, random_state=0)
X_2d = mds.fit_tranform(X_tranformed)

t-Distributed Stochastic Neighbor Embedding (t-SNE)

  • Alternatives Verfahren zur Dimensionsreduktion
  • eignet sich sehr gut für große hochdimensionale Datensätze (Einsatz oft im Big-Data-Umfeld)

Funktionsweise

  • t-SNE arbeitet mit Wahrscheinlichkeiten. Der Algorithmus berechnet zunächst für jeden Datenpunkt die Wahrscheinlichkeit, dass ein anderer Datenpunkt sein Nachbar ist. Diese Wahrscheinlichkeit basiert auf der Normalverteilung und nimmt mit zunehmendem Abstand zwischen den Punkten ab
  • Anschließend werden die Punkte im niedrigdimensionalen Raum zufällig verteilt. Für diese Punkte im niedrigdimensionalen Raum wird dann ebenfalls die Wahrscheinlichkeit berechnet, dass sie Nachbarn sind, diesmal basierend auf der Student-t-Verteilung
  • Der Algorithmus verschiebt dann die Punkte im niedrigdimensionalen Raum so lange, bis die Wahrscheinlichkeitsverteilungen im hochdimensionalen und niedrigdimensionalen Raum möglichst gut übereinstimmen.

Nachteile

  • funktioniert nicht sehr stabil
  • kleine Änderungen an den Parametern führen zu sehr unterschiedlichen Ergebnissen.
  • daher ist das Ergebnis schwierig einzuschätzen.

Python

from sklearn.manifold import TSNE
tsne = TSNE(n_components=2, randomw_state=0, perplexity=50) # perplexity -> hat Auwirkungen auf die Skalierung im Ausgangsraum
X_2d = tsne.fit_tranform(X)

Je größer die Datenmenge desto höher die Perplexity

Zusammenfassung

Sowohl MDS als auch t-SNE sind nützliche Verfahren zur Dimensionsreduktion. MDS ist robust und gut für kleinere Datensätze geeignet, während t-SNE besonders gut mit großen, hochdimensionalen Datensätzen zurechtkommt. Die Wahl des geeigneten Verfahrens hängt von der Größe und Struktur des Datensatzes sowie von den Zielen der Analyse ab.

Frage 1: Wozu kann man abstandserhaltende Projektionen verwenden?

a) Zur Reduktion der Datenmenge
b) Zur Visualisierung hochdimensionaler Daten
c) Zur Verbesserung der Klassifikationsgenauigkeit
d) Zur Erkennung von Ausreißern

Frage 2: Was ist das Hauptziel abstandserhaltender Projektionen?

a) Punkte, die sich im Ausgangsraum nahe sind, sollen sich auch im Zielraum nahe sein.
b) Punkte, die sich im Ausgangsraum fern sind, sollen sich auch im Zielraum fern sein.
c) Alle Punkte sollen im Zielraum gleich weit voneinander entfernt sein.
d) Punkte sollen zufällig im Zielraum verteilt werden.

Frage 3: Was ist das Hauptziel von abstandserhaltenden Projektionen?

a) Die Reduktion der Datenmenge
b) Die Visualisierung von hochdimensionalen Daten
c) Die Erhaltung der Nachbarschaftsbeziehungen zwischen Datenpunkten
d) Die Verbesserung der Genauigkeit von Klassifikationsmodellen

Frage 4: Welche der folgenden Aussagen über Multi-Dimensional Scaling (MDS) ist/sind korrekt?

a) MDS basiert auf einer Unähnlichkeitsmatrix, die die paarweisen Abstände aller Datenpunkte im hochdimensionalen Raum enthält.
b) MDS ist besonders gut für große Datensätze mit Millionen von Datenpunkten geeignet.
c) MDS versucht, die Punkte im niedrigdimensionalen Raum so anzuordnen, dass die euklidischen Distanzen zwischen den Punkten möglichst gut mit den Abständen in der Unähnlichkeitsmatrix übereinstimmen.
d) MDS verwendet die Student-t-Verteilung, um die Wahrscheinlichkeit zu berechnen, dass zwei Punkte Nachbarn sind.

Frage 5: Welche der folgenden Aussagen über t-Distributed Stochastic Neighbor Embedding (t-SNE) ist/sind korrekt?

a) t-SNE ist ein deterministisches Verfahren, das bei gleichen Parametern immer die gleichen Ergebnisse liefert.
b) t-SNE ist besonders gut für große, hochdimensionale Datensätze geeignet.
c) t-SNE verwendet die Normalverteilung, um die Wahrscheinlichkeit zu berechnen, dass zwei Punkte im niedrigdimensionalen Raum Nachbarn sind.
d) t-SNE versucht, die Wahrscheinlichkeitsverteilungen der Nachbarschaftsbeziehungen im hochdimensionalen und niedrigdimensionalen Raum möglichst gut in Übereinstimmung zu bringen.

Frage 6: Welche der beiden Verfahren, MDS oder t-SNE, ist im Allgemeinen robuster gegenüber Parameteränderungen?

a) t-SNE
b) MDS

Frage 7: Welches Verfahren ist wahrscheinlich besser geeignet, um Cluster in einem Datensatz mit 10.000 Datenpunkten und 50 Dimensionen zu visualisieren?

a) MDS
b) t-SNE

Frage 8: Was ist ein "perplexity" Parameter in t-SNE und was beeinflusst er?

Frage 9: Nennen Sie je einen Vorteil und einen Nachteil von MDS.

Frage 10: Nennen Sie je einen Vorteil und einen Nachteil von t-SNE.