Vorhersage von kontinuierlichen Werten (meistens Kommazahlen).
Lineare Regression
Anpassung einer linearen Funktion an die Daten, um Vorhersagen zu treffen.
Bestimmtheitsmaß (R²)
Ein statistisches Maß, das angibt, wie gut die Vorhersagen eines Regressionsmodells mit den tatsächlichen Werten übereinstimmen.
Klassifikation
Zuordnung von Datenpunkten zu verschiedenen Klassen.
Entscheidungsbäume
Ein Klassifikationsalgorithmus, der eine Baumstruktur verwendet, um Entscheidungen zu treffen.
Shannon’sche Informationsentropie
Ein statistisches Maß für die Unordnung in einem Zufallsexperiment.
Überanpassung
Wenn sich ein Modell zu stark an die Trainingsdaten anpasst und dadurch schlecht auf neue Daten verallgemeinert.
Ensemble Learning
Kombination mehrerer Lernalgorithmen, um die Prognosegüte zu verbessern.
Bagging
Zufällige Auswahl von Teilmengen der Trainingsdaten für jeden Lerner.
Boosting
Sukzessive Erzeugung von Lernern, wobei die Lerndatenmenge für einen neuen Lerner so gewählt wird, dass Datensätze, die von den bereits vorhandenen Lernern falsch vorhergesagt werden, mit höherer Wahrscheinlichkeit berücksichtigt werden.
Random Forests
Ensemble Learning-Methode, die mehrere Entscheidungsbäume verwendet und den Bagging-Ansatz nutzt.
AdaBoost
Ein Boosting-Verfahren.
LogitBoost
Ein Boosting-Verfahren.
Naiver Bayes-Klassifikator
Ein Klassifikationsalgorithmus, der auf dem Satz von Bayes basiert und die Annahme trifft, dass die Merkmale eines Datensatzes voneinander unabhängig sind.
Support Vector Machines (SVMs)
Begriff
Beschreibung
Entscheidungsgrenze
Die Grenze, die den Eingaberaum in Bereiche unterteilt, die später unterschiedlich klassifiziert werden.
Stützvektoren
Die Datenpunkte, die am nächsten zur Entscheidungsgrenze liegen und deren Position die Lage der Trennebene bestimmt.
Parameter C
Ein Parameter bei SVMs, der die Gewichtung von Fehlklassifikationen steuert.
Kernel
Eine Funktion, die Daten in einen höherdimensionalen Raum transformiert, um sie linear trennbar zu machen.
Polynomialer Kernel
Ein Kernel, der eine polynomiale Transformation der Daten durchführt.
Radial Basis Function Kernel (RBF)
Ein Kernel, der Gauß’sche radiale Basisfunktionen verwendet, um Datenpunkte in einen höherdimensionalen Raum abzubilden.
Parameter γ
Ein Parameter im RBF-Kernel, der die Breite der Gauß’schen Hügel steuert.
Neuronale Netze
Begriff
Beschreibung
Aktivierungsfunktion
Eine Funktion, die auf die gewichtete Summe der Eingänge eines Neurons angewendet wird, um die Ausgabe des Neurons zu berechnen.
Sigmoid-Funktion
Eine häufig verwendete Aktivierungsfunktion, die Werte zwischen 0 und 1 ausgibt.
Feedforward-Netze
Neuronale Netze ohne Rückkopplungen.
Rekurrente Neuronale Netze
Neuronale Netze mit Rückkopplungen, geeignet für sequenzielle Daten.
Training
Der Prozess, bei dem die Gewichte eines neuronalen Netzes angepasst werden, um die gewünschte Ausgabe zu erzeugen.
Kostenfunktion
Eine Funktion, die die Abweichung zwischen der tatsächlichen Ausgabe eines neuronalen Netzes und der gewünschten Ausgabe misst.
Gradientenabstiegsverfahren
Ein Verfahren zur Optimierung der Gewichte eines neuronalen Netzes, indem die Kostenfunktion minimiert wird.
Stochastic Gradient Descent
Eine Variante des Gradientenabstiegsverfahrens, bei der in jedem Schritt nur ein Teil der Trainingsdaten verwendet wird.
Batch
Eine Teilmenge der Trainingsdaten, die in einem Schritt des Stochastic Gradient Descent verwendet wird.
Epoche
Ein Durchlauf durch die gesamte Trainingsdatenmenge.
Backpropagation
Ein Algorithmus zur effizienten Berechnung des Gradienten der Kostenfunktion in neuronalen Netzen.
Unüberwachtes Lernen
Clustering
Begriff
Beschreibung
k-Means
Ein Clustering-Algorithmus, der Datenpunkte dem nächstgelegenen Cluster-Zentrum zuordnet.
Ellbogenmethode
Eine Methode zur Bestimmung der optimalen Anzahl von Clustern in k-Means.
Dimensionsreduktion
Begriff
Beschreibung
Abstandserhaltende Projektion
Eine Projektion, die die Abstände zwischen Datenpunkten so gut wie möglich erhält.
Multi-Dimensional Scaling (MDS)
Ein Verfahren zur Dimensionsreduktion, das die Abstände zwischen Datenpunkten in einem niedrigerdimensionalen Raum so gut wie möglich erhält.
t-SNE
Ein Verfahren zur Dimensionsreduktion, das die Nachbarschaftsbeziehungen zwischen Datenpunkten in einem niedrigdimensionalen Raum so gut wie möglich erhält.
Perplexity
Ein Parameter in t-SNE, der die Größe der Nachbarschaft steuert.
Reinforcement Learning
Q-Learning
Begriff
Beschreibung
Q-Learning
Ein Reinforcement Learning-Algorithmus, der eine Q-Tabelle verwendet, um die beste Aktion für jeden Zustand zu speichern.
Zustand
Die aktuelle Situation des Agenten in der Umgebung.
Aktion
Eine Handlung, die der Agent in der Umgebung ausführen kann.
Belohnung
Ein Wert, der dem Agenten für das Ausführen einer Aktion in einem bestimmten Zustand zugewiesen wird.
Q-Tabelle
Eine Tabelle, die für jeden Zustand und jede Aktion den erwarteten zukünftigen Belohnungswert speichert.
Episoden
Eine Abfolge von Zuständen, Aktionen und Belohnungen, die der Agent durchläuft.
Diskontierungsfaktor γ
Ein Wert zwischen 0 und 1, der die Bedeutung zukünftiger Belohnungen im Vergleich zu aktuellen Belohnungen steuert.
Lernrate α
Ein Wert, der steuert, wie stark die Q-Werte in jeder Runde aktualisiert werden.
Deep Learning
Convolutional Neural Networks (CNNs)
Begriff
Beschreibung
Filter
In CNNs verwendete Matrizen, die bestimmte Merkmale in einem Bild erkennen.
Faltung
Ein mathematischer Operator, der in CNNs verwendet wird, um Filter auf ein Bild anzuwenden.
Feature Map
Die Ausgabe eines Filters nach der Faltung mit einem Bild.
Max Pooling
Ein Verfahren, bei dem aus einem Bereich eines Bildes der maximale Wert ausgewählt wird.
Dropout
Ein Verfahren, bei dem während des Trainings zufällig Neuronen deaktiviert werden, um eine Überanpassung zu verhindern.
Padding
Hinzufügen von zusätzlichen Pixeln am Rand eines Bildes, um die Dimensionen des Bildes nach der Faltung zu erhalten.
Recurrent Neural Networks (RNNs)
Begriff
Beschreibung
Long Short-Term Memory (LSTM)
Eine spezielle Art von RNN, die langfristige Abhängigkeiten in Daten lernen und speichern kann.
Transfer Learning
Begriff
Beschreibung
Model Zoo
Eine Sammlung von vortrainierten Machine Learning Modellen.
ImageNet
Ein großer Datensatz mit Millionen von Bildern, der für die Objekterkennung verwendet wird.
VGG16
Ein vortrainiertes CNN-Modell, das für die Objekterkennung verwendet werden kann.
Weitere Begriffe
Begriff
Beschreibung
Stichproben
Eine Teilmenge einer größeren Grundgesamtheit, die zur Analyse verwendet wird.
Histogramme
Grafische Darstellung der Häufigkeitsverteilung von Daten.
Arithmetisches Mittel
Der Durchschnitt aller Werte in einem Datensatz.
Varianz
Ein Maß für die Streuung von Daten um den Mittelwert.
Standardabweichung
Die Quadratwurzel der Varianz, ein Maß für die Streuung der Daten.
Konfusionsmatrix
Eine Matrix, die die Leistung eines Klassifikationsmodells zeigt, indem sie die tatsächlichen und vorhergesagten Klassen vergleicht.