Typische Aufteilung der Daten:
- 75 % der vorhandenen Daten für das
Training des Modells
- 25 % für den
Test
des trainierten Modells
Da die Trainingsdaten nur einen Teil der möglichen Eingabewerte abdecken, muss das Modell auch für unbekannte Eingaben sinnvolle Ergebnisse liefern. Diese Fähigkeit nennt man Verallgemeinerung.
Verallgemeinerung
Die Verallgemeinerungsfähigkeit eines Modells beschreibt seine Fähigkeit, präzise Vorhersagen für neue, unbekannte Daten zu treffen, die nicht Teil des Trainingsdatensatzes waren.