Klausur: Methoden und Theorien der Künstlichen Intelligenz
Aufgabe 1 (12 Punkte)
a) Welche Aussagen treffen zu? (4 Punkte)
- ☐ Die Vorhersage, ob ein produziertes Teil ein Gutteil oder ein Schlechtteil ist, ist eine Regressionsaufgabe.
- ⊠ Für eine Klassifikation braucht man gelabelte Daten.
- ⊠ Ihr Auto schätzt anhand des Füllstands seines Treibstofftanks und anhand Ihres Fahrstils die verbleibende Reichweite. Hierbei handelt es sich um eine Regression.
- ☐ Die Vorhersage der Niederschlagswahrscheinlichkeit auf Basis von Wetterdaten ist eine Clustering-Aufgabe.
b) Nennen Sie die drei Aufgaben des maschinellen Lernens. (3 Punkte)
- Regression
- Klassifikation
- Clustering
c) Beschreiben Sie kurz den Unterschied zwischen einem überwachten und einem unüberwachten maschinellen Lernverfahren. (2 Punkte)
- Beim überwachten maschinellen Lernen werden die Modelle mit Trainingsdaten trainiert, die sowohl Eingabewerte als auch die zugehörigen Ausgabewerte enthalten.
- Beim unüberwachten Lernen bekommen die Algorithmen nur die Eingabewerte, die Ausgabewerte fehlen.
d) Nennen Sie ein Beispiel für eine Klassifikationsaufgabe, das nicht in den Quellen enthalten ist. (3 Punkte)
…
- Lösung
- Die Aufgaben des maschinellen Lernens sind: Regression, Klassifikation und Clustering. Beim überwachten Lernen werden sowohl Eingabe- als auch Ausgabewerte benötigt, im Gegensatz zum unüberwachten Lernen, bei dem nur Eingabewerte vorliegen.
Aufgabe 2 (14 Punkte)
a) Welche Aussagen treffen zu? (4 Punkte)
- ☐ Der Train/Test Split entfernt alle fehlerhaften Datensätze aus den Trainings- und Testdaten.
- ⊠ Der Train/Test Split ist nur bei überwachtem Lernen relevant und wird bei unüberwachtem Lernen nicht angewendet.
- ⊠ Bei der k-fachen Kreuzvalidierung steht das k für die Anzahl der verwendeten Train/Test-Aufteilungen.
- ⊠ Ordinale Daten werden bei der Datenaufbereitung üblicherweise durch passende Zahlenwerte ersetzt.
b) Gegeben ist ein Datensatz, der sich im ScatterPlot wie folgt darstellt:
(Abbildung einfügen. Die Abbildung sollte eine Punktwolke zeigen, bei der die Punkte annähernd auf einer Geraden liegen.)
Wir möchten den Wert B auf Basis von Wert A vorhersagen. Eignet sich dafür die lineare Regression? Begründen Sie Ihre Antwort. (4 Punkte)
Ja, die lineare Regression eignet sich gut. Die Datenpunkte liegen annähernd auf einer Geraden.
c) Ein Unternehmen möchte auf Basis der Anzahl aufgewendeter Arbeitsstunden die Produktionsmenge eines Produktes vorhersagen. Es liegen folgende Daten vor:
Arbeitsstunden Produktionsmenge 1 1 2 3 3 5 7 13 10 19 Welche Steigung a und welchen Achsenabschnitt b hat die Regressionsgerade, die diese Daten beschreibt? (4 Punkte)
Es gilt y = 2x − 1. Also ist a = 2 und b = −1.
Wie groß ist die Produktionsmenge nach 12 Arbeitsstunden? (2 Punkte)
Nach 12 Stunden ist die Produktionsmenge 2 · 12 − 1 = 23.
- Lösung
- Die Steigung der Regressionsgeraden ist a = 2 und der Achsenabschnitt b = −1. Die Produktionsmenge nach 12 Arbeitsstunden beträgt 23.
Aufgabe 3 (12 Punkte)
Ein Automobilhersteller fertigt seine Autos an drei Standorten. Dabei wurden in einige Autos fehlerhafte Sitze eingebaut. Konkret gilt folgendes:
- Am Standort A wurden 15000 Autos produziert. Davon haben 5% fehlerhafte Sitze.
- Am Standort B wurden 40000 Autos produziert. Davon haben 15% fehlerhafte Sitze.
- Am Standort C wurden 45000 Autos produziert. Davon haben 10% fehlerhafte Sitze.
a) Wie groß ist die Wahrscheinlichkeit, dass ein zufällig gewähltes Auto dieses Herstellers einen fehlerhaften Sitz hat? (6 Punkte)
Wir betrachten folgende Ereignisse:
- A: Auto kommt von Standort A
- B: Auto kommt von Standort B
- C: Auto kommt von Standort C
- F: Sitz ist fehlerhaft
Die Wahrscheinlichkeiten, ein Auto von einem bestimmten Standort zu erwischen, sind:
- P(A) = 15000 / 100000 = 0,15
- P(B) = 40000 / 100000 = 0,4
- P(C) = 45000 / 100000 = 0,45
Die Wahrscheinlichkeit ein fehlerhaftes Auto zu bekommen ist:
P(F) = P(A) ⋅ P(F|A) + P(B) ⋅ P(F|B) + P(C) ⋅ P(F|C) = 0,1125 = 11,25%.
b) Ein zufällig gewähltes Auto des Herstellers hat einen fehlerhaften Sitz. Wie groß ist die Wahrscheinlichkeit, dass dieses Auto am Standort C produziert wurde? (6 Punkte)
Wir suchen P(C|F). Nach dem Satz von Bayes gilt:
P(C|F) = P(C) ⋅ P(F|C) / P(F) = 0,45 ⋅ 0,1 / 0,1125 = 0,40 = 40%.
- Lösung
- Die Wahrscheinlichkeit, dass ein zufällig gewähltes Auto einen fehlerhaften Sitz hat, beträgt 11,25%. Wenn das Auto einen fehlerhaften Sitz hat, beträgt die Wahrscheinlichkeit, dass es am Standort C produziert wurde, 40%.
Aufgabe 4 (14 Punkte)
a) In einem zweidimensionalen Eingangsraum möchten wir folgende Entscheidungsgrenze haben:
(Abbildung einfügen. Die Abbildung sollte eine Punktwolke mit zwei Klassen zeigen. Die Klassen sollten durch eine “Treppe” getrennt sein.)
Zeichnen Sie einen Entscheidungsbaum, der diese Entscheidungsgrenze liefert. (6 Punkte)
…
b) Welche Aussagen treffen zu? (8 Punkte)
☐ In Entscheidungsbäumen kann man die Überanpassung reduzieren, indem man beim Training die minimal erlaubten Beispiele pro Blattknoten reduziert.
⊠ In Entscheidungsbäumen kann man die Überanpassung reduzieren, indem man die Tiefe des Baumes beschränkt.
⊠ Jede Entscheidung im Entscheidungsbaum entspricht einer senkrechten oder waagerechten Trenn-(hyper-)ebene.
☐ Entscheidungsbäume liefern wesentlich bessere Ergebnisse, wenn die Trainings- und Testdaten vor der Verwendung skaliert werden.
⊠ Es gibt Algorithmen, die aus Lerndaten automatisch Entscheidungsbäume erstellen.
☐ Entscheidungsbäume klassifizieren nur dann genau, wenn die Entscheidungsgrenze durch senkrechte und waagerechte Trennebenen beschrieben werden kann.
☐ Bei der Klassifikation mit einem Entscheidungsbaum kann man das Risiko einer Überanpassung verringern, indem man die erlaubte Tiefe des Entscheidungsbaums erhöht.
☐ Das Ensemble Learning hat den Vorteil, dass man diese Lernmodelle nicht man nicht trainieren muss.
- Lösung
- In Entscheidungsbäumen kann die Überanpassung durch Beschränkung der Tiefe und die Verwendung von senkrechten und waagerechten Trennebenen reduziert werden.
Aufgabe 5 (12 Punkte)
a) Welche Aussagen treffen zu? (4 Punkte)
- ☐ In einem Random Forest erzeugt man an jedem Knotenpunkt eines Entscheidungsbaums weitere Entscheidungsbäume, die jeweils ein Merkmal nicht berücksichtigen.
- ⊠ Vor der Verwendung eines Random-Forest-Models müssen die Daten nicht aufbereitet werden. Man kann den Klassifikator daher leicht für einen ersten Versuch verwenden.
- ☐ Der Rechenaufwand in Random Forests ist geringer als bei einfachen Entscheidungsbäumen.
- ☐ In einem Random Forest trainiert man mehrere identische Entscheidungsbäume, die die Klasse eines Datensatzes per Mehrheitsentscheidung bestimmen.
b) Wir haben Klassifikationsdaten aus einem zweidimensionalen Eingangsraum. Nach der Skalierung stellen sich die Daten im ScatterPlot wie folgt dar.
(Abbildung einfügen. Die Abbildung sollte eine Punktwolke mit zwei Klassen zeigen. Die Klassen sollten nicht linear trennbar sein.)
Lassen sich die Daten prinzipiell mit einer Support Vector Machine trennen? Falls ja, welchen Kernel stellt man im sklearn hierzu am besten ein? Begründen Sie Ihre Antwort. (4 Punkte)
Ja, die Daten lassen sich mit einer SVM trennen. Da die Daten nicht linear trennbar sind, eignet sich der RBF-Kernel am besten.
c) Support Vector Machines verwenden Hyperebenen, um die Datenpunkte zu trennen. In einem dreidimensionalen Eingangsraum ist diese Hyperebene… (4 Punkte)
- ☐ … ein Punkt.
- ☐ … eine Gerade.
- ⊠ … eine Ebene.
- ☐ … ein Würfel.
Kreuzen Sie die richtige Antwort an.
- Lösung
- Die SVM kann durch den RBF-Kernel Daten trennen, wenn diese nicht linear trennbar sind. In einem dreidimensionalen Raum ist die Hyperebene eine Ebene.