Typische Aufteilung der Daten:

  • 75 % der vorhandenen Daten für das Training des Modells
  • 25 % für den Test des trainierten Modells

Da die Trainingsdaten nur einen Teil der möglichen Eingabewerte abdecken, muss das Modell auch für unbekannte Eingaben sinnvolle Ergebnisse liefern. Diese Fähigkeit nennt man Verallgemeinerung.

Verallgemeinerung

Die Verallgemeinerungsfähigkeit eines Modells beschreibt seine Fähigkeit, präzise Vorhersagen für neue, unbekannte Daten zu treffen, die nicht Teil des Trainingsdatensatzes waren.