Maschinelles Lernen (ML)

Überwachtes Lernen

BegriffBeschreibung
RegressionVorhersage von kontinuierlichen Werten (meistens Kommazahlen).
Lineare RegressionAnpassung einer linearen Funktion an die Daten, um Vorhersagen zu treffen.
Bestimmtheitsmaß (R²)Ein statistisches Maß, das angibt, wie gut die Vorhersagen eines Regressionsmodells mit den tatsächlichen Werten übereinstimmen.
KlassifikationZuordnung von Datenpunkten zu verschiedenen Klassen.
EntscheidungsbäumeEin Klassifikationsalgorithmus, der eine Baumstruktur verwendet, um Entscheidungen zu treffen.
Shannon’sche InformationsentropieEin statistisches Maß für die Unordnung in einem Zufallsexperiment.
ÜberanpassungWenn sich ein Modell zu stark an die Trainingsdaten anpasst und dadurch schlecht auf neue Daten verallgemeinert.
Ensemble LearningKombination mehrerer Lernalgorithmen, um die Prognosegüte zu verbessern.
BaggingZufällige Auswahl von Teilmengen der Trainingsdaten für jeden Lerner.
BoostingSukzessive Erzeugung von Lernern, wobei die Lerndatenmenge für einen neuen Lerner so gewählt wird, dass Datensätze, die von den bereits vorhandenen Lernern falsch vorhergesagt werden, mit höherer Wahrscheinlichkeit berücksichtigt werden.
Random ForestsEnsemble Learning-Methode, die mehrere Entscheidungsbäume verwendet und den Bagging-Ansatz nutzt.
AdaBoostEin Boosting-Verfahren.
LogitBoostEin Boosting-Verfahren.
Naiver Bayes-KlassifikatorEin Klassifikationsalgorithmus, der auf dem Satz von Bayes basiert und die Annahme trifft, dass die Merkmale eines Datensatzes voneinander unabhängig sind.

Support Vector Machines (SVMs)

BegriffBeschreibung
EntscheidungsgrenzeDie Grenze, die den Eingaberaum in Bereiche unterteilt, die später unterschiedlich klassifiziert werden.
StützvektorenDie Datenpunkte, die am nächsten zur Entscheidungsgrenze liegen und deren Position die Lage der Trennebene bestimmt.
Parameter CEin Parameter bei SVMs, der die Gewichtung von Fehlklassifikationen steuert.
KernelEine Funktion, die Daten in einen höherdimensionalen Raum transformiert, um sie linear trennbar zu machen.
Polynomialer KernelEin Kernel, der eine polynomiale Transformation der Daten durchführt.
Radial Basis Function Kernel (RBF)Ein Kernel, der Gauß’sche radiale Basisfunktionen verwendet, um Datenpunkte in einen höherdimensionalen Raum abzubilden.
Parameter γEin Parameter im RBF-Kernel, der die Breite der Gauß’schen Hügel steuert.

Neuronale Netze

BegriffBeschreibung
AktivierungsfunktionEine Funktion, die auf die gewichtete Summe der Eingänge eines Neurons angewendet wird, um die Ausgabe des Neurons zu berechnen.
Sigmoid-FunktionEine häufig verwendete Aktivierungsfunktion, die Werte zwischen 0 und 1 ausgibt.
Feedforward-NetzeNeuronale Netze ohne Rückkopplungen.
Rekurrente Neuronale NetzeNeuronale Netze mit Rückkopplungen, geeignet für sequenzielle Daten.
TrainingDer Prozess, bei dem die Gewichte eines neuronalen Netzes angepasst werden, um die gewünschte Ausgabe zu erzeugen.
KostenfunktionEine Funktion, die die Abweichung zwischen der tatsächlichen Ausgabe eines neuronalen Netzes und der gewünschten Ausgabe misst.
GradientenabstiegsverfahrenEin Verfahren zur Optimierung der Gewichte eines neuronalen Netzes, indem die Kostenfunktion minimiert wird.
Stochastic Gradient DescentEine Variante des Gradientenabstiegsverfahrens, bei der in jedem Schritt nur ein Teil der Trainingsdaten verwendet wird.
BatchEine Teilmenge der Trainingsdaten, die in einem Schritt des Stochastic Gradient Descent verwendet wird.
EpocheEin Durchlauf durch die gesamte Trainingsdatenmenge.
BackpropagationEin Algorithmus zur effizienten Berechnung des Gradienten der Kostenfunktion in neuronalen Netzen.

Unüberwachtes Lernen

Clustering

BegriffBeschreibung
k-MeansEin Clustering-Algorithmus, der Datenpunkte dem nächstgelegenen Cluster-Zentrum zuordnet.
EllbogenmethodeEine Methode zur Bestimmung der optimalen Anzahl von Clustern in k-Means.

Dimensionsreduktion

BegriffBeschreibung
Abstandserhaltende ProjektionEine Projektion, die die Abstände zwischen Datenpunkten so gut wie möglich erhält.
Multi-Dimensional Scaling (MDS)Ein Verfahren zur Dimensionsreduktion, das die Abstände zwischen Datenpunkten in einem niedrigerdimensionalen Raum so gut wie möglich erhält.
t-SNEEin Verfahren zur Dimensionsreduktion, das die Nachbarschaftsbeziehungen zwischen Datenpunkten in einem niedrigdimensionalen Raum so gut wie möglich erhält.
PerplexityEin Parameter in t-SNE, der die Größe der Nachbarschaft steuert.

Reinforcement Learning

Q-Learning

BegriffBeschreibung
Q-LearningEin Reinforcement Learning-Algorithmus, der eine Q-Tabelle verwendet, um die beste Aktion für jeden Zustand zu speichern.
ZustandDie aktuelle Situation des Agenten in der Umgebung.
AktionEine Handlung, die der Agent in der Umgebung ausführen kann.
BelohnungEin Wert, der dem Agenten für das Ausführen einer Aktion in einem bestimmten Zustand zugewiesen wird.
Q-TabelleEine Tabelle, die für jeden Zustand und jede Aktion den erwarteten zukünftigen Belohnungswert speichert.
EpisodenEine Abfolge von Zuständen, Aktionen und Belohnungen, die der Agent durchläuft.
Diskontierungsfaktor γEin Wert zwischen 0 und 1, der die Bedeutung zukünftiger Belohnungen im Vergleich zu aktuellen Belohnungen steuert.
Lernrate αEin Wert, der steuert, wie stark die Q-Werte in jeder Runde aktualisiert werden.

Deep Learning

Convolutional Neural Networks (CNNs)

BegriffBeschreibung
FilterIn CNNs verwendete Matrizen, die bestimmte Merkmale in einem Bild erkennen.
FaltungEin mathematischer Operator, der in CNNs verwendet wird, um Filter auf ein Bild anzuwenden.
Feature MapDie Ausgabe eines Filters nach der Faltung mit einem Bild.
Max PoolingEin Verfahren, bei dem aus einem Bereich eines Bildes der maximale Wert ausgewählt wird.
DropoutEin Verfahren, bei dem während des Trainings zufällig Neuronen deaktiviert werden, um eine Überanpassung zu verhindern.
PaddingHinzufügen von zusätzlichen Pixeln am Rand eines Bildes, um die Dimensionen des Bildes nach der Faltung zu erhalten.

Recurrent Neural Networks (RNNs)

BegriffBeschreibung
Long Short-Term Memory (LSTM)Eine spezielle Art von RNN, die langfristige Abhängigkeiten in Daten lernen und speichern kann.

Transfer Learning

BegriffBeschreibung
Model ZooEine Sammlung von vortrainierten Machine Learning Modellen.
ImageNetEin großer Datensatz mit Millionen von Bildern, der für die Objekterkennung verwendet wird.
VGG16Ein vortrainiertes CNN-Modell, das für die Objekterkennung verwendet werden kann.

Weitere Begriffe

BegriffBeschreibung
StichprobenEine Teilmenge einer größeren Grundgesamtheit, die zur Analyse verwendet wird.
HistogrammeGrafische Darstellung der Häufigkeitsverteilung von Daten.
Arithmetisches MittelDer Durchschnitt aller Werte in einem Datensatz.
VarianzEin Maß für die Streuung von Daten um den Mittelwert.
StandardabweichungDie Quadratwurzel der Varianz, ein Maß für die Streuung der Daten.
KonfusionsmatrixEine Matrix, die die Leistung eines Klassifikationsmodells zeigt, indem sie die tatsächlichen und vorhergesagten Klassen vergleicht.