Naiver Bayes-Klassifikator

Der naive Bayes-Klassifikator ist ein einfacher und schneller Klassifikator, der auf dem Satz von Bayes basiert. Er verwendet Wahrscheinlichkeiten, um neue Datenpunkte einer Klasse zuzuordnen.

Grundidee

  • Der naive Bayes-Klassifikator berechnet die Wahrscheinlichkeit, dass ein neuer Datenpunkt zu jeder Klasse gehört.
  • Der Datenpunkt wird der Klasse mit der höchsten Wahrscheinlichkeit zugeordnet.
  • Um die Berechnungen zu vereinfachen, geht der naive Bayes-Klassifikator davon aus, dass alle Merkmale eines Datenpunkts stochastisch unabhängig voneinander sind. Diese Annahme ist oft nicht erfüllt, daher der Name “naiv”.
  • Zusätzlich wird angenommen, dass die Werte der Merkmale durch eine Verteilung, wie z. B. die Normalverteilung, beschrieben werden können.

Naiver Bayes

Um zu berechnen, wie wahrscheinlich der neue Punkt zu einer Klasser gehört, wird die Bedingte Wahrscheinlichkeit benötigt. Der Satz von Bayes besagt

Funktionsweise (am Beispiel der Fischklassifizierung)

  1. Problem: Ein Fischverarbeitungsbetrieb möchte Wolfsbarsch und Lachs automatisch anhand von Kamerabildern sortieren.
  2. Merkmale: Länge und Helligkeit der Fische werden als Merkmale für die Klassifizierung ausgewählt.
    • Die gegebene Beobachtung:
  3. Neue Messung: Für einen neuen Fisch wird die Helligkeit mit 7 und die Länge mit 10 gemessen.
  1. Bedingte Wahrscheinlichkeiten: Der naive Bayes-Klassifikator berechnet die bedingten Wahrscheinlichkeiten, dass der Fisch ein Lachs oder ein Barsch ist, gegeben sind die gemessene Helligkeit und Länge.

  2. Satz von Bayes: Der Satz von Bayes wird verwendet, um die bedingten Wahrscheinlichkeiten zu berechnen.

    • Lachs
    • Barsch
  3. Vereinfachung: Der Nenner im Satz von Bayes ist für beide Klassen gleich und kann daher ignoriert werden.

    • Lachs
    • Barsch
  4. Wie wird das alles berechnet?

      1. Schätzung der Wahrscheinlichkeiten: Die Wahrscheinlichkeiten für und werden aus den Trainingsdaten geschätzt.
      • Lachs
      • Barsch
      1. Naive Annahme: Die Wahrscheinlichkeit
      • und

      • lässt sich nicht so einfach berechnen, weil sie ja gleich von zwei Zufallsvariablen abhängit. Der naive Bayes-Klassifikator geht davon aus, dass Helligkeit und Länge unabhängig voneinander sind, was die Berechnung der Wahrscheinlichkeit vereinfacht.
  5. Klassifizierung: Die Klasse mit der höheren Wahrscheinlichkeit wird ausgewählt.

Vorteile

  • Einfach und schnell.
  • Funktioniert gut mit wenigen Trainingsdaten.
  • Geeignet für hochdimensionale Daten.

Nachteile

  • Die vereinfachenden Grundannahmen sind oft nicht gegeben

Naiver Bayes in Python

from sklearn.naive_bayes import GaussianNB
 
model = GaussianNB()
model.fit(X_train, y_train)
 
print(model.score(X_test, y_test))

Quiz Naiver Bayes

Frage 1: Was ist die zentrale Annahme des naiven Bayes-Klassifikators, die ihm seinen Namen gibt?

a) Dass alle Merkmale eines Datensatzes normalverteilt sind.
b) Dass alle Merkmale eines Datensatzes voneinander stochastisch unabhängig sind.
c) Dass die Trainingsdaten vollständig und fehlerfrei sind.

Frage 2: Welche Wahrscheinlichkeit berechnet der naive Bayes-Klassifikator, um einen neuen Datenpunkt zu klassifizieren?

a) Die Wahrscheinlichkeit, dass der Datenpunkt zu einer bestimmten Klasse gehört, gegeben seine Merkmale.
b) Die Wahrscheinlichkeit, dass der Datenpunkt bestimmte Merkmale hat, gegeben seine Klasse.
c) Die Wahrscheinlichkeit, dass der Datenpunkt zufällig ausgewählt wird.

Frage 3: Welchen mathematischen Satz nutzt der naive Bayes-Klassifikator, um die bedingte Wahrscheinlichkeit zu berechnen?

a) Den Satz des Pythagoras
b) Den Satz von Bayes
c) Den zentralen Grenzwertsatz

Frage 4: In den Quellen wird das Beispiel der Fischklassifizierung verwendet, um den naiven Bayes-Klassifikator zu erklären. Welche Merkmale werden in diesem Beispiel zur Unterscheidung von Wolfsbarsch und Lachs herangezogen?

a) Gewicht und Farbe
b) Länge und Breite
c) Länge und Helligkeit

Frage 5: Nennen Sie zwei Vorteile des naiven Bayes-Klassifikators.

a) Er ist robust gegenüber Ausreißern und verrauschten Daten.
b) Er ist einfach zu implementieren und schnell in der Ausführung.
c) Er kann mit sehr vielen Trainingsdaten umgehen.

Frage 6: Was ist ein wesentlicher Nachteil des naiven Bayes-Klassifikators?

a) Er benötigt eine große Menge an Trainingsdaten.
b) Er ist anfällig für Überanpassung.
c) Die Annahme der Unabhängigkeit der Merkmale ist oft nicht realistisch.