Lineare Regression

Problemstellung

Mit der Regression sagt man kontinuierliche Werte (meistens Kommazahlen) vorher

Lineare Regression

Die lineare Regression ist ein grundlegendes Verfahren im - maschinellen Lernen, das zur Vorhersage kontinuierlicher Werte (meist Kommazahlen) verwendet wird.

Lineare Regression

In zweidimensionalen Raum → eine Gerade

In höheren Dimensionen → Hyperebene

Lineare Regression versucht, eine Beziehung herzustellen zwischen:

einer abhängigen Variable (die vorhergesagt werden soll) und
einer oder mehreren unabhängigen Variablen (die zur Vorhersage verwendet werden)

Grundidee

Lineare Funktion durch Messwerte legen, um dann Werte voerherzusagen.

Lineare Funktion sucht die Gerade, die am besten zu den Daten passt.

E = i = 1 \sum n (y_{i} - \overset{y}{^}_{i})^{2}

$E$ ist quadratischer Fehler (d.h. wenn man die Abstände aller Punkte zur Regressionsgerade quadirert und aufsummiert)
$y_{i}$ Echter Wert des Datenpunktes
$\overset{y}{^}_{i}$ Schätzung des Modells

Die beste Gerade finden

Um die beste Gerade zu finden, verwendet die lineare Regression Optimierungsverfahren, die sog. Methoden der kleisten Quadrate

Methoden der kleisten Quadrate

berechnet die Abstände aller Punkte zur Regressionsgerade, quadriert diese Abstände und sumiiert sie auf

→ die Gerade, die diesen quadratischen Fehler $E$ minimiert, ist als die beste Anpassung an die Daten betrachtet.

Anwendungsbeispiele für die lineare Regression

Vorhersage von Wohnungspreisen basierend auf der Wohnungsgröße
Analyse des Zusammenhangs zwischen dem Gewicht eines Fahrzeugs und dessen Kraftstoffverbrauch
Prognose von Aktienkursen (wie in unserem vorherigen Gespräch) Vorhersage von Verkaufszahlen basierend auf Werbeausgaben
Abschätzung der Lebenserwartung basierend auf Faktoren wie Ernährung und Bewegung

Beispielaufgabe

Wir sollen nun auf Basis der Größe einer uns unbekannten Wohnung voraussagen können, welchen Verkaufspreis sie in etwa erzielt.
Esscheint einen annähernd linearen Zusammenhang zwischen der Wohnungsgröße und dem Kaufpreis zu geben, wir verwenden daher die Lineare Regression.

Implementierung

Das Python Maschine Learning Toolkit wird verwendet, welche mehrere Hilfsfunktionen für das Training solcher Algorithmen bietet, z.B. train_test_split

diese teilt die Trainingsdaten in eine Trainings- und eine Verifikationsdatenmenge auf.

Nie ein Modell mit den Daten verifizieren, mit denen es trainiert wurde.

70-80 % der vorhandenen Trainingsdaten tatäschlich zum Training des Modells verwenden. Mit den Restlichen Daten (meistens 25 %) wird geprüft, wie gut das trainierte Modell passt.

Wir teilen unsere Daten in Trainingsdaten und Testdaten auf. Mit den Trainingsdaten erstellen wir unsere Modell. Mit den Testdaten schauen wir, wie gut es verallgemeinert.

from sklearn.model_selection import train_test_split
X = df[["Quadratmeter"]].values # df steht für dataframe
Y = df[["Kaltmiete"]].values # Daten werden aus der CSV Datei ausgelesen und in Y gespeichert.
X_train, X_test, Y_train, Y_test=train_test_split(X,Y, random_state =0) # bei jeder Ausführung -> Gleiche Ausführung
# Eingangsdaten von X in train und test

random_state gibt einen festen Wert für zufällige Aufteilung an

Ohne random_state wird bei jedem Aufruf der Funktion eine andere Aufteilung vorgenommen → somit anderes Ergebnis als zuvor

Mit random_state=0bleibt die Aufteilug jdes Mal gleich

Empfohlende Werte 0, 42, 123

Training des Datenmodells

Wir erstellen ein Modell und trainieren es mit den Testdaten.

from sklearn.linear_model import LinearRegression # das ist ein Modell für die Lineare Regression
model = LinearRegression() 
model.fit(X_train, Y_train) # Hier wird das Modell trainiert, die Trainingsdaten werden als Params eingegeben
 
print ("Achsenabschnitt b: " + str(model.intercept_))
print ("Steigung a: " + str(model.coef_))

Vorhersagen

predicted = model.predict(X_test) # oder Werte wie [[55]] eingeben
print(predicted)

Visualisierung der Daten anhand eines Scatters

%matplotlib inline
import matplotlib.pyplot as plt
plt.scatter(X_test, Y_test, color = "red")
plt.plot(X_test, predicted, color = "blue")
plt.show()

Bestimmtheitsmaß

Wenn man die Qualität von Modellen vergleichen möchte, braucht man ein Maß, das die Prognosegüte beschreibt.

Bestimmtheitsmaß $R^{2}$

R^{2} := 1 - \frac{\sum ( y _{i} - y ^ _{i} ) ^{2}}{\sum ( y _{i} - y ) ^{2}} = 1 - \frac{E _{m o d e ll}}{E _{v er g l e i c h}}

$E_{v er g l e i c h}$ Quadratischer Fehler des Vergleichsmodells, das immer den `Durchschnitt aller Zielwerte in den Testdaten vorhersagt.
$E_{m o d e ll}$ Quadratischer Fehler des Regressionsmodells, das traininiert wurde, um die Zielwerte auf Basis der Eingabedaten vorherzusagen.

Je näher $R^{2}$ an der 1 ist, desto besser ist das Modell

Übungsaufgabe zur Berechnung von Bestimmtheitsmaß

Variante 1

from sklearn.metrics import r2_score
 
r2 = r2_score(Y_test, y_test_predicted)
print(r2)

Variante 2

Hier wird die Methode “score” verwendet:

model.score(X_test, Y_test)

Quitz

Frage 1: Was ist das Hauptziel der linearen Regression?

a) Klassifizierung von Datenpunkten in verschiedene Kategorien.
b) Vorhersage von kontinuierlichen Werten.
c) Gruppierung ähnlicher Datenpunkte in Cluster.
d) Reduktion der Dimensionalität von Datensätzen.

Lösung

b) Vorhersage von kontinuierlichen Werten.
Erläuterung: Die lineare Regression wird verwendet, um eine lineare Funktion zu finden, die den Zusammenhang zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen beschreibt. Diese Funktion kann dann verwendet werden, um kontinuierliche Werte vorherzusagen, z.B. den Preis einer Wohnung basierend auf ihrer Größe.

Frage 2: Welches Optimierungsverfahren wird in der linearen Regression verwendet, um die beste Gerade zu finden?

a) Gradientenabstieg
b) Methode der kleinsten Quadrate
c) Backpropagation
d) k-fache Kreuzvalidierung

Lösung

b) Methode der kleinsten Quadrate.
Erläuterung: Die Methode der kleinsten Quadrate minimiert den quadratischen Fehler zwischen den tatsächlichen Werten der Datenpunkte und den durch die lineare Funktion vorhergesagten Werten. Dies geschieht durch Berechnung der Abstände aller Punkte zur Regressionsgerade, Quadrieren dieser Abstände und Summieren der quadrierten Abstände. Die Gerade, die diesen quadratischen Fehler minimiert, ist die beste Anpassung an die Daten.

Frage 3: Wie nennt man den Fehler, der bei der linearen Regression minimiert wird?

a) Absoluter Fehler
b) Quadratischer Fehler
c) Mittlerer quadratischer Fehler
d) Kreuzentropie

Lösung

b) Quadratischer Fehler.
Erläuterung: Der quadratische Fehler ist die Summe der quadrierten Abstände zwischen den tatsächlichen Werten der Datenpunkte und den durch die lineare Funktion vorhergesagten Werten. Durch die Quadrierung der Abstände werden große Abweichungen stärker gewichtet als kleine Abweichungen.

Frage 4: Welche Aussage über das Bestimmtheitsmaß $R^{2}$ ist falsch?

a) $R^{2}$ ist ein Maß für die Güte der Anpassung eines Regressionsmodells an die Daten.
b) Ein $R^{2}$ von 1 bedeutet, dass das Modell die Daten perfekt vorhersagt.
c) Ein $R^{2}$ von 0 bedeutet, dass das Modell genauso gut ist wie ein Modell, das immer den Durchschnitt der Zielwerte vorhersagt.
d) Ein $R^{2}$ kann Werte zwischen -1 und 1 annehmen.

Lösung

d) Ein $R^{2}$ kann Werte zwischen -1 und 1 annehmen.
Erläuterung: Das Bestimmtheitsmaß $R^{2}$ kann Werte zwischen 0 und 1 annehmen. Ein $R^{2}$ von 1 bedeutet eine perfekte Vorhersage, während ein $R^{2}$ von 0 bedeutet, dass das Modell nicht besser ist als ein Modell, das immer den Durchschnitt der Zielwerte vorhersagt.

Frage 5: Welche der folgenden Anwendungen ist ein Beispiel für die lineare Regression?

a) Erkennung von Objekten auf Bildern
b) Gruppierung von Kunden in verschiedene Segmente
c) Vorhersage der Wahrscheinlichkeit, dass ein Kunde ein Produkt kauft.
d) Vorhersage des Verkaufspreises eines Hauses basierend auf seiner Größe und Lage.

Lösung

d) Vorhersage des Verkaufspreises eines Hauses basierend auf seiner Größe und Lage.
Erläuterung: Die Vorhersage des Verkaufspreises eines Hauses, der ein kontinuierlicher Wert ist, basierend auf Merkmalen wie Größe und Lage, ist eine typische Anwendung der linearen Regression. Die anderen Optionen beschreiben Aufgaben der Bildverarbeitung (a), des unüberwachten Lernens (b) und der Klassifikation (c), für die andere Verfahren des maschinellen Lernens besser geeignet sind.

Frage 6: In welchen Fällen ist die lineare Regression nicht geeignet?

a) Wenn die Daten viele Ausreißer enthalten.
b) Wenn der Zusammenhang zwischen den Variablen nicht linear ist.
c) Wenn die Daten nicht normalverteilt sind.
d) Wenn es mehr als eine unabhängige Variable gibt.

Lösung

b) Wenn der Zusammenhang zwischen den Variablen nicht linear ist. Erläuterung: Die lineare Regression basiert auf der Annahme eines linearen Zusammenhangs zwischen den Variablen. Wenn dieser Zusammenhang nicht linear ist, liefert die lineare Regression keine zuverlässigen Ergebnisse. In solchen Fällen sollten andere Verfahren des maschinellen Lernens, wie z.B. polynomiale Regression oder Support Vector Machines, in Betracht gezogen werden.

Quitz zu Bestimmheitsmaß

Frage 1: Was repräsentiert das Bestimmtheitsmaß ( $R^{2}$ )?

a) Den durchschnittlichen Fehler des Modells.
b) Die Anzahl der korrekt vorhergesagten Datenpunkte.
c) Den Grad der Linearität zwischen den Variablen.
d) Den Anteil der Varianz in den Daten, der durch das Modell erklärt wird.

Lösung

d) Den Anteil der Varianz in den Daten, der durch das Modell erklärt wird.
Erläuterung: Das Bestimmtheitsmaß, auch bekannt als $R^{2}$ , quantifiziert, wie gut ein Regressionsmodell die Variabilität der Zielvariable (die Variable, die vorhergesagt werden soll) erklärt. Ein $R^{2}$ von 1 bedeutet, dass das Modell die gesamte Varianz der Zielvariable erklärt, während ein $R^{2}$ von 0 bedeutet, dass das Modell keine Varianz erklärt und nicht besser ist als ein Modell, das einfach den Mittelwert der Zielvariable vorhersagt.

Frage 2: Wie wird das Bestimmtheitsmaß $R^{2}$ berechnet?

a) $R^{2}$ = $E_{m o d e ll}$ / $E_{v er g l e i c h}$
b) $R^{2}$ = 1 - ( $E_{m o d e ll}$ / $E_{v er g l e i c h}$ )
c) $R^{2}$ = $E_{v er g l e i c h}$ - $E_{m o d e ll}$
d) $R^{2}$ = 1 + ( $E_{m o d e ll}$ / $E_{v er g l e i c h}$ )

Lösung

b) $R^{2}$ = 1 - ( $E_{m o d e ll}$ / $E_{v er g l e i c h}$ )
Erläuterung: Das Bestimmtheitsmaß $R^{2}$ wird berechnet, indem man 1 minus den Quotienten aus dem quadratischen Fehler des Modells ( $E_{m o d e ll}$ ) und dem quadratischen Fehler des Vergleichsmodells ( $E_{v er g l e i c h}$ ) berechnet. Das Vergleichsmodell ist ein einfaches Modell, das immer den Durchschnitt der Zielwerte vorhersagt.

Frage 3: Ein Regressionsmodell hat ein $R^{2}$ von 0,8. Was bedeutet das?

a) Das Modell macht 80% Fehler bei den Vorhersagen.
b) Das Modell erklärt 80% der Varianz in den Daten.
c) Das Modell ist 80% besser als ein Zufallsmodell.
d) Das Modell hat 80% der Datenpunkte korrekt vorhergesagt.

Lösung

b) Das Modell erklärt 80% der Varianz in den Daten.
Erläuterung: Ein $R^{2}$ von 0,8 bedeutet, dass das Modell 80% der Varianz der Zielvariable durch die unabhängigen Variablen erklärt. Dies zeigt eine gute Anpassung des Modells an die Daten an.

Frage 4: Welcher $R^{2}$ -Wert zeigt die beste Modellanpassung an die Daten an?

a) 0
b) 0,5
c) 1
d) -1

Lösung

c) 1
Erläuterung: Ein $R^{2}$ von 1 bedeutet, dass das Modell die Daten perfekt vorhersagt und die gesamte Varianz der Zielvariable erklärt. Je näher der $R^{2}$ an 1 liegt, desto besser ist die Modellanpassung.

Frage 5: In welchem Bereich liegt der $R^{2}$ -Wert typischerweise?

a) -1 bis 1
b) 0 bis 1
c) 0 bis unendlich
d) -unendlich bis unendlich

Lösung

b) 0 bis 1
Erläuterung: Der $R^{2}$ -Wert kann nur Werte zwischen 0 und 1 annehmen. Ein Wert von 0 bedeutet, dass das Modell keine Erklärungskraft hat, während ein Wert von 1 eine perfekte Vorhersage anzeigt.

Tiger103 ˚₊‧🐯.𖥔 ݁

Explorer

Lineare Regression

Problemstellung