Wichtige statistische Grundlage für das maschinelle Lernen, insbesondere in Bezug auf die Bewertung und das Verständnis von Modellen.
Stichproben
In der Statistik arbeitet man oft mit Stichproben, um auf die Grundgesamtheit
zu schließen.
Die Stichprobe ist eine Teilmenge von der Grundgesamtheit. z.B.
- Sonntagsfrage vor einer Wahl
- Mehrfaches Würfeln mit einem Würfel
- Statistisches Prüfen in der Fertigung
Histogramme
Histogramme visualisieren die Häufigkeitsverteilung eines Merkmals.
- Sie teilen metrische Daten in Klassen ein.
- Zeigen, wie oft Werte in jeder Klasse auftreten.
Erwartungswert
Der Erwartungswert einer Zufallsvariable ist die Zahl, die die Zufallsvariable im Mittel annimmt.
- Mit steigender Stichprobengröße konvergiert das arithmetische Mittel zum Erwartungswert.
Arithmetisches Mittel
Das arithemtische Mittel, auch als Durchschnitt bekannt, berechnet sich wie folgt:
In Python kann man das arithmetische Mittel aller Werte eines numpy-Arrays leicht berechnen:
import numpy as np
x = np.random.randint(1,7,10000)
x.mean() # Durchschnitt
Varianz
Die Varianz misst die Streuung der Werte einer Zufallsvariablen um ihren Erwartungswert.
- Die Varainz s ist ein Maß für die Streuung einer Zufallsvariablen.
- Definiert durch:
- Das ist der mittlere quadratische Abstand der Einzelwerte zum Durchschnitt
Nachteil
Die Varianz s ist ein gutes Maß für die Sreuung einer Zufallsvariablen, aber schwer zu interpretieren. Deshalb wird oft die Standardabweichung verwendet.
Standardabweichung
Die Standardabweichung ist die Wurzel der Varianz und kann als durchschnittliche Abweichung der Einzelwerte vom arithmetischen Mittel
interpretiert werden.
Wahrscheinlichkeiten
In der Wahrscheinlichkeitstheorie ist ein mögliches Ergebnis eines Zufallsexpermients.
- Dieses Ereignis kann eintreten oder auch nicht.
- Die Wahrscheinlichkeit eines Ereignisses ist
- Zu jedem Ereignis gibt es ein Gegenereignis , dieses tritt immer dann ein, wenn nicht eintritt.
- Da immer eines von beiden erfüllt ist, gilt:
Bedingte Warhscheinlichkeit
Idee
Gibt es Zusatzinformationen, dann können die Wahrscheinlichkeiten besser angegeben werden.
Die bedingte Wahrscheinlichkeit beschreibt die Wahrscheinlichkeit, dass ein Ereignis A eintritt, unter der Bedingung
, dass ein anderes Ereignis B bereits eingetreten ist.
Beispiel:
Nehmen wir an, Sie möchten die Wahrscheinlichkeit berechnen, dass eine Person die Klausur “Mathe 1” besteht (Ereignis ), gegeben, dass diese Person auf die Klausur gelernt hat (Ereignis ). Sie befragen eine Gruppe von Studenten, die für “Mathe 1” gelernt haben, und stellen fest, dass 85% von ihnen die Klausur bestanden haben. In diesem Fall wäre die bedingte Wahrscheinlichkeit:
Wichtige Formeln:
-
Bedingte Wahrscheinlichkeit:
- (P(A|B)): die Wahrscheinlichkeit von A, gegeben B
- (P(A \land B)): die Wahrscheinlichkeit, dass sowohl A als auch B eintreten (gemeinsame Wahrscheinlichkeit)
- (P(B)): die Wahrscheinlichkeit von B
-
Satz von Bayes:
Der Satz von Bayes erlaubt es, bedingte Wahrscheinlichkeiten “umzudrehen”. Wenn Sie die Gesamtwahrscheinlichkeiten (P(A)) und (P(B)) sowie die bedingte Wahrscheinlichkeit (P(B|A)) kennen, können Sie (P(A|B)) berechnen.
Anwendung:
Bedingte Wahrscheinlichkeiten und der Satz von Bayes finden in vielen Bereichen Anwendung, z. B. in der medizinischen Diagnostik, der Risikobewertung und der Spam-Filterung.
Wahrscheinlichkeitsdichte
Die Wahrscheinlichkeitsdichte beschreibt die Verteilung von Zufallsvariablen als stetige Funktion
.
Die häufig verwendete Wahrscheinlichkeitsdichte ist die Normalverteilung (auch Gauß-Verteilung genannt).
- Damit kann man die Wahrscheinlchkeit berechnen, mit der eine Zufallsvariable einen bestimmten Wert annimmt.
Normalverteilung
Die Normalverteilung → ist eine Funktion, die zu einem Eingabewert die Wahrscheinlichkeit zurückgibt, mit der unsere Zufallsvariable diesen Wert annimmt. Die Eingabe und Parameter sind:
- Erwartungswert
- Standardabweichung
Entropie
Die Shannon’sche Informationsentropie findet in Entscheidungsbäumen Anwendung, um die Homogenität von Daten in Bezug auf die Zielvaraible zu quantifizieren. Sie misst die Unordnung in einem Zufallsexperiment und beeinflusst die Vorhersagbarkei.
Niedrigere Entropie deutet auf höhere Vorhersagbarkeit hin
Zusammenfassung
Diese statistischen Grundlagen sind essentiell, um die Funktionsweise und die Ergebnisse von Machine-Learning-Modellen zu verstehen und zu bewerten. Sie helfen bei der Auswahl geeigneter Modelle, der Interpretation der Ergebnisse und der Verbesserung der Modellleistung.
Quiz Statistische Grundlage
Frage 1: Was ist der Zweck einer Stichprobe in der Statistik?
a) Um den Mittelwert einer Population zu berechnen
b) Um eine zufällige Auswahl von Datenpunkten zu erhalten
c) Um auf die Eigenschaften der Grundgesamtheit zu schließen
d) Um ein Histogramm zu erstellenLösung
c)
Um auf die Eigenschaften der Grundgesamtheit zu schließen
Erläuterung: Eine Stichprobe wird verwendet, um aus einer Teilmenge der Daten Rückschlüsse auf die gesamte Population zu ziehen.
Frage 2: Was visualisieren Histogramme?
a) Die Standardabweichung eines Datensatzes
b) Die Korrelation zwischen zwei Variablen
c) Die Häufigkeitsverteilung eines Merkmals
d) Die Wahrscheinlichkeit eines EreignissesLösung
c)
Die Häufigkeitsverteilung eines Merkmals
Erläuterung: Histogramme zeigen, wie oft verschiedene Werte in einem Datensatz vorkommen und sind ein wichtiges Werkzeug zur Datenanalyse.
Frage 3: Was ist der Erwartungswert einer Zufallsvariable?
a) Der höchste Wert, den die Variable annehmen kann
b) Der Wert, der am häufigsten in einer Stichprobe vorkommt
c) Der Wert, den die Variable im Mittel annimmt
d) Die Differenz zwischen dem höchsten und dem niedrigsten Wert der VariableLösung
c)
Der Wert, den die Variable im Mittel annimmt
Erläuterung: Der Erwartungswert repräsentiert den durchschnittlichen Wert, den man bei unendlich vielen Wiederholungen eines Zufallsexperiments erwarten würde.
Frage 4: Wie berechnet man das arithmetische Mittel einer Zahlenreihe?
a) Man addiert alle Zahlen und teilt die Summe durch 2
b) Man addiert alle Zahlen und teilt die Summe durch die Anzahl der Zahlen
c) Man multipliziert alle Zahlen und zieht die Wurzel aus dem Produkt
d) Man findet die größte und die kleinste Zahl und berechnet die DifferenzLösung
b)
Man addiert alle Zahlen und teilt die Summe durch die Anzahl der Zahlen
Erläuterung: Das arithmetische Mittel ist ein Maß für den zentralen Wert eines Datensatzes.
Frage 5: Was misst die Varianz?
a) Die durchschnittliche Abweichung der Einzelwerte vom arithmetischen Mittel
b) Die Streuung der Werte einer Zufallsvariablen um ihren Erwartungswert
c) Die Wahrscheinlichkeit, dass ein Ereignis eintritt
d) Die Beziehung zwischen zwei VariablenLösung
b)
Die Streuung der Werte einer Zufallsvariablen um ihren Erwartungswert
Erläuterung: Die Varianz gibt an, wie stark die Werte einer Zufallsvariablen um den Mittelwert streuen.
Frage 6: Was ist die Standardabweichung?
a) Die Wurzel aus der Varianz
b) Der Kehrwert des Erwartungswertes
c) Die Summe aller Werte geteilt durch die Anzahl der Werte
d) Die Differenz zwischen dem größten und kleinsten Wert in einem DatensatzLösung
a)
Die Wurzel aus der Varianz
Erläuterung: Die Standardabweichung ist ein Maß für die Streuung oder Variabilität eines Datensatzes.
Frage 7: Was beschreibt die bedingte Wahrscheinlichkeit P(A|B)?
a) Die Wahrscheinlichkeit von A, unabhängig von B
b) Die Wahrscheinlichkeit von A, unter der Bedingung, dass B eingetreten ist
c) Die Wahrscheinlichkeit, dass A und B gleichzeitig eintreten
d) Die Wahrscheinlichkeit von B, unter der Bedingung, dass A eingetreten istLösung
b)
Die Wahrscheinlichkeit von A, unter der Bedingung, dass B eingetreten ist
Erläuterung: Bedingte Wahrscheinlichkeiten beschreiben Zusammenhänge zwischen zwei Ereignissen.
Frage 8: Was ist die Funktion des Satzes von Bayes?
a) Die Berechnung des Erwartungswertes einer Zufallsvariablen
b) Die Ermittlung der Standardabweichung eines Datensatzes
c) Die Umkehrung bedingter Wahrscheinlichkeiten
d) Die Erstellung eines HistogrammsLösung
c)
Die Umkehrung bedingter Wahrscheinlichkeiten
Erläuterung: Der Satz von Bayes ermöglicht es, von einer bekannten bedingten Wahrscheinlichkeit auf eine unbekannte zu schließen.
Frage 9: Welche Aussage zur Normalverteilung ist korrekt?
a) Sie ist eine diskrete Wahrscheinlichkeitsverteilung
b) Sie hat die Form einer Glockenkurve
c) Sie wird nur für negative Werte verwendet
d) Sie ist ein Maß für die Unordnung in einem SystemLösung
b)
Sie hat die Form einer Glockenkurve
Erläuterung: Die Normalverteilung ist eine kontinuierliche Wahrscheinlichkeitsverteilung mit einer charakteristischen Glockenform.
Frage 10: Was ist die Shannon'sche Informationsentropie?
a) Ein Maß für die Genauigkeit eines Klassifikationsmodells
b) Ein statistisches Maß für die Unordnung in einem Zufallsexperiment
c) Ein Algorithmus zur Dimensionsreduktion
d) Eine Methode zur Berechnung bedingter WahrscheinlichkeitenLösung
b)
Ein statistisches Maß für die Unordnung in einem Zufallsexperiment
Erläuterung: Die Shannon’sche Entropie misst die Unsicherheit oder Informationsmenge in einem System.