Konfusionsmatrix

Die Konfusionsmatrix ist ein wichtiges Werkzeug zur Bewertung von Klassifikationsmodellen im maschinellen Lernen. Sie bietet eine detaillierte Darstellung der Leistung eines Klassifikators, indem sie aufzeigt, wie viele Datenpunkte korrekt und fälschlicherweise den verschiedenen Klassen zugeordnet wurden.

Aufbau und Interpretation der Kunfusionsmatrix

Die Konfusionsmatrix ist eine Tabelle, die die vier möglichen Ergebnisse einer Klassifizierung darstellt:

Richtig Positiv (TP): Der Klassifikator sagt “positiv” voraus, und der wahre Wert ist auch “positiv”.
Falsch Positiv (FP): Der Klassifikator sagt “positiv” voraus, aber der wahre Wert ist “negativ”.
Falsch Negativ (FN): Der Klassifikator sagt “negativ” voraus, aber der wahre Wert ist “positiv”.
Richtig Negativ (TN): Der Klassifikator sagt “negativ” voraus, und der wahre Wert ist auch “negativ”.

Beispiel: Klassifizierung von Spritzgießzyklen

Bei der Klassifizierung von Spritzgießzyklen als “Gutteil” (positiv) oder “Schlechtteil” (negativ) könnten die vier Möglichkeiten wie folgt interpretiert werden:

TP (True Positive): Der Klassifikator sagt “Gutteil” voraus, und es ist tatsächlich ein Gutteil.
FP (False Positive): Der Klassifikator sagt “Gutteil” voraus, aber es ist tatsächlich ein Schlechtteil.
FN (False Negative): Der Klassifikator sagt “Schlechtteil” voraus, aber es ist tatsächlich ein Gutteil.
TN (True Negative): Der Klassifikator sagt “Schlechtteil” voraus, und es ist tatsächlich ein Schlechtteil.

Anwendung der Konfusionsmatrix

Die Konfusionsmatrix ermöglicht die Berechnung verschiedener Gütemaße, die über die reine Trefferquote hinausgehen.

Wichtige Gütemaße, die aus der Konfusionsmatrix abgeleitet werden können, sind:

1. Sensitivität (Recall)

Gibt an, wie viele der tatsächlich positiven Datenpunkte korrekt als positiv klassifiziert wurden.

R ec a ll = \frac{TP}{TP + FN}

Anwendung

Wichtig, wenn alle positiven Fälle erkannt werden sollen (z.B. Krebszellenerkennung).

2. Spezifizität

Misst den Anteil der tatsächlich negativen Datenpunkte, die korrekt als negativ klassifiziert wurden.

Sp ez i f i z i t \overset{a}{¨} t = \frac{TN}{TN + FP}

Anwendung

Wenn falsch-positive Klassifizierungen vermieden werden sollen (z.B. Vermeidung unnötiger Vernichtung von Produkten).

3. Trefferquote (Accuracy)

Gibt den Anteil der korrekt klassifizierten Datenpunkte an.

T re ff er q u o t e = \frac{TP + TN}{TP + FP + TN + FN}

4. Fehlerrate

Gibt den Anteil der falsch klassifizierten Datenpunkte an.

F e h l err a t e = \frac{FP + FN}{TP + FP + TN + FN}

5. Balancierte Fehlerrate (BER)

Wenn man mit stark unbalancierte Datensätzen arbeitet, wird häufig die BER verwendet.
Diese Methode berehent die Trefferquoute für jede Klasse separat.
BER ergibt sich als arithmetisches Mittel der einzelnen Trefferquoten.
Es berechnet, wieviel Prozent der tatsächlich positiven Datensätze richtig klassifizier werden und wieviel Prozent der tatsächlich negativen Datensätze.
Der Durchschnitt dieser zwei Werte ist dann die BER.

Zusammenfassung

Zusammenfassend lässt sich sagen, dass die Konfusionsmatrix ein unverzichtbares Werkzeug zur Bewertung von Klassifikationsmodellen ist. Sie bietet detaillierte Einblicke in die Leistung eines Klassifikators und ermöglicht die Berechnung verschiedener Gütemaße, die je nach Anwendungsfall relevant sind.