Die Konfusionsmatrix ist ein wichtiges Werkzeug zur Bewertung von Klassifikationsmodellen im maschinellen Lernen. Sie bietet eine detaillierte Darstellung der Leistung eines Klassifikators, indem sie aufzeigt, wie viele Datenpunkte korrekt und fälschlicherweise den verschiedenen Klassen zugeordnet wurden.
Aufbau und Interpretation der Kunfusionsmatrix
Die Konfusionsmatrix ist eine Tabelle, die die vier möglichen Ergebnisse einer Klassifizierung darstellt:
- Richtig Positiv (TP): Der Klassifikator sagt “positiv” voraus, und der wahre Wert ist auch “positiv”.
- Falsch Positiv (FP): Der Klassifikator sagt “positiv” voraus, aber der wahre Wert ist “negativ”.
- Falsch Negativ (FN): Der Klassifikator sagt “negativ” voraus, aber der wahre Wert ist “positiv”.
- Richtig Negativ (TN): Der Klassifikator sagt “negativ” voraus, und der wahre Wert ist auch “negativ”.
Beispiel: Klassifizierung von Spritzgießzyklen
Bei der Klassifizierung von Spritzgießzyklen als “Gutteil” (positiv) oder “Schlechtteil” (negativ) könnten die vier Möglichkeiten wie folgt interpretiert werden:
- TP (True Positive): Der Klassifikator sagt “Gutteil” voraus, und es ist tatsächlich ein Gutteil.
- FP (False Positive): Der Klassifikator sagt “Gutteil” voraus, aber es ist tatsächlich ein Schlechtteil.
- FN (False Negative): Der Klassifikator sagt “Schlechtteil” voraus, aber es ist tatsächlich ein Gutteil.
- TN (True Negative): Der Klassifikator sagt “Schlechtteil” voraus, und es ist tatsächlich ein Schlechtteil.
Anwendung der Konfusionsmatrix
Die Konfusionsmatrix ermöglicht die Berechnung verschiedener Gütemaße, die über die reine Trefferquote hinausgehen.
Wichtige Gütemaße, die aus der Konfusionsmatrix abgeleitet werden können, sind:
1. Sensitivität (Recall)
- Gibt an, wie viele der tatsächlich positiven Datenpunkte korrekt als positiv klassifiziert wurden.
Anwendung
Wichtig, wenn alle positiven Fälle erkannt werden sollen (z.B. Krebszellenerkennung).
2. Spezifizität
- Misst den Anteil der tatsächlich negativen Datenpunkte, die korrekt als negativ klassifiziert wurden.
Anwendung
Wenn falsch-positive Klassifizierungen vermieden werden sollen (z.B. Vermeidung unnötiger Vernichtung von Produkten).
3. Trefferquote (Accuracy)
- Gibt den Anteil der korrekt klassifizierten Datenpunkte an.
4. Fehlerrate
- Gibt den Anteil der falsch klassifizierten Datenpunkte an.
5. Balancierte Fehlerrate (BER)
- Wenn man mit stark unbalancierte Datensätzen arbeitet, wird häufig die BER verwendet.
- Diese Methode berehent die Trefferquoute für jede Klasse separat.
- BER ergibt sich als arithmetisches Mittel der einzelnen Trefferquoten.
- Es berechnet,
wieviel Prozent
der tatsächlichpositiven Datensätze
richtig klassifizier werden und wieviel Prozent der tatsächlichnegativen Datensätze
. - Der Durchschnitt dieser zwei Werte ist dann die BER.
Zusammenfassung
Zusammenfassend lässt sich sagen, dass die Konfusionsmatrix ein unverzichtbares Werkzeug zur Bewertung von Klassifikationsmodellen ist. Sie bietet detaillierte Einblicke in die Leistung eines Klassifikators und ermöglicht die Berechnung verschiedener Gütemaße, die je nach Anwendungsfall relevant sind.
Konfusionsmatrix in Python erstellen
Die Konfusionsmatrix gibt uns wichtige Informationen darüber, welche Klassen unser Klassifikator derzeit miteinander verwechselt.
from sklearn import metrics
# Wir berechnen alle Vorhersagen mit einem Methodenaufruf
vorhersagen = model.predict(X_test)
confusion_matrix = metrics.confusion_matrix(y_test, vorhersagen)
print(confusion_matrix)
Konfusionsmatrix visualisieren
Mit der Grafikbibliothek matplotlib können wir uns die Konfusionsmatrix anschaulicher ausgeben lassen. Dabei können wir die Label auch benennen.
import matplotlib.pyplot as plt
import numpy
from sklearn import metrics
cm_display = metrics.ConfusionMatrixDisplay(confusion_matrix = confusion_matrix, display_labels = ["gut", "schlecht"])
cm_display.plot()
plt.show()
Quiz Konfusionsmatrix
Hier ist das Quiz im gewünschten Format:
Frage 1: Was ist der Zweck einer Konfusionsmatrix?
a) Darstellung der Verteilung der Datenpunkte in einem Datensatz
b) Visualisierung der Entscheidungsgrenzen eines Klassifikators
c) Berechnung der Präzision eines Regressionsmodells
d) Analyse der Leistung eines Klassifikationsmodells durch Darstellung der Anzahl richtiger und falscher ZuordnungenLösung
d)
Analyse der Leistung eines Klassifikationsmodells durch Darstellung der Anzahl richtiger und falscher Zuordnungen
Erläuterung: Die Konfusionsmatrix gibt an, wie gut ein Klassifikator arbeitet, indem sie die Anzahl der richtigen und falschen Vorhersagen zeigt.
Frage 2: Welche vier grundlegenden Ergebnisse werden in einer Konfusionsmatrix dargestellt?
a) Richtig Positiv, Richtig Negativ, Falsch Positiv, Falsch Negativ
b) Mittelwert, Median, Standardabweichung, Varianz
c) Trainingsdaten, Testdaten, Validierungsdaten, Ausreißer
d) Überanpassung, Unteranpassung, Bias, VarianzLösung
a)
Richtig Positiv, Richtig Negativ, Falsch Positiv, Falsch Negativ
Erläuterung: Diese vier Ergebnisse werden in einer Konfusionsmatrix dargestellt, um die Leistung eines Klassifikators zu bewerten.
Frage 3: Was bedeutet "Falsch Positiv" (FP) im Kontext einer Konfusionsmatrix?
a) Der Klassifikator hat einen positiven Wert korrekt vorhergesagt
b) Der Klassifikator hat einen negativen Wert korrekt vorhergesagt
c) Der Klassifikator hat einen positiven Wert vorhergesagt, obwohl der wahre Wert negativ ist
d) Der Klassifikator hat einen negativen Wert vorhergesagt, obwohl der wahre Wert positiv istLösung
c)
Der Klassifikator hat einen positiven Wert vorhergesagt, obwohl der wahre Wert negativ ist
Erläuterung: Ein Falsch Positiv tritt auf, wenn das Modell einen positiven Wert für ein negatives Ergebnis prognostiziert.
Frage 4: Welche Metrik gibt den Anteil der korrekt klassifizierten positiven Datenpunkte an?
a) Spezifität
b) Präzision
c) Sensitivität (Recall)
d) Genauigkeit (Accuracy)Lösung
c)
Sensitivität (Recall)
Erläuterung: Sensitivität (oder Recall) gibt an, wie gut der Klassifikator die relevanten positiven Datenpunkte erkannt hat.
Frage 5: Welche Metrik ist besonders relevant bei der Bewertung von Klassifikatoren, die auf unausgeglichenen Datensätzen trainiert wurden?
a) Trefferquote (Accuracy)
b) Balancierte Fehlerrate (BER)
c) F1-Score
d) Logistische VerlustfunktionLösung
b)
Balancierte Fehlerrate (BER)
Erläuterung: Die balancierte Fehlerrate (BER) ist besonders nützlich bei unausgeglichenen Datensätzen, da sie die Fehlklassifikationsrate für jede Klasse separat misst.
Frage 6: Ein Klassifikator zur Betrugserkennung soll möglichst alle betrügerischen Transaktionen erkennen, auch wenn dies zu einigen fälschlicherweise als betrügerisch eingestuften Transaktionen führt. Welche Metrik sollte in diesem Fall priorisiert werden?
a) Spezifität
b) Sensitivität (Recall)
c) Präzision
d) Genauigkeit (Accuracy)Lösung
b)
Sensitivität (Recall)
Erläuterung: Bei der Betrugserkennung ist es wichtiger, alle echten Betrugsfälle zu identifizieren, selbst wenn dies zu falsch positiven Ergebnissen führt.
Frage 7: Wie kann die Konfusionsmatrix in Python mithilfe von Scikit-learn berechnet werden?
a) Mit der Funktion
confusion_matrix
b) Mit der Funktionclassification_report
c) Mit der Funktionaccuracy_score
d) Mit der Funktioncross_val_score
Lösung
a)
Mit der Funktionconfusion_matrix
Erläuterung: Die Funktionconfusion_matrix
in Scikit-learn berechnet die Konfusionsmatrix, um die Vorhersageleistung eines Klassifikators zu bewerten.
Frage 8: Was kann man aus der Konfusionsmatrix NICHT direkt ablesen?
a) Die Anzahl der richtig positiven Vorhersagen
b) Die Anzahl der falsch negativen Vorhersagen
c) Die Präzision des Modells
d) Die optimale Anzahl von Clustern in den DatenLösung
d)
Die optimale Anzahl von Clustern in den Daten
Erläuterung: Die Konfusionsmatrix hilft bei der Evaluierung von Klassifikatoren, aber die Bestimmung der Clusteranzahl ist eine andere Art von Analyse, die typischerweise mit Clustering-Algorithmen durchgeführt wird.
Frage 9: Welche Aussage zur Konfusionsmatrix ist FALSCH?
a) Die Konfusionsmatrix liefert detailliertere Informationen als die reine Trefferquote
b) Aus der Konfusionsmatrix lassen sich verschiedene Gütemaße wie Sensitivität und Spezifität berechnen
c) Die Konfusionsmatrix kann nur für binäre Klassifikationsprobleme verwendet werden
d) Die Konfusionsmatrix ist ein wichtiges Werkzeug zur Bewertung von KlassifikationsmodellenLösung
c)
Die Konfusionsmatrix kann nur für binäre Klassifikationsprobleme verwendet werden
Erläuterung: Die Konfusionsmatrix kann auch für Mehrklassen-Klassifikationen verwendet werden, wobei sie einfach für jede Klasse eine eigene Zeile und Spalte enthält.
Frage 10: Ein Unternehmen entwickelt ein System zur automatischen Erkennung von defekten Produkten. Es ist wichtig, dass möglichst wenige defekte Produkte als "gut" klassifiziert werden, auch wenn dies dazu führt, dass einige gute Produkte fälschlicherweise als "defekt" eingestuft werden. Welche Metrik sollte in diesem Fall priorisiert werden?
a) Sensitivität
b) Spezifität
c) Genauigkeit
d) PräzisionLösung
b)
Spezifität
Erläuterung: Die Spezifität misst, wie gut der Klassifikator negative Beispiele (nicht defekte Produkte) korrekt identifiziert, und ist daher wichtig, wenn es darum geht, falsche positive Klassifikationen zu vermeiden.