Looking up at skyscraper

Modellvalidierung und Overfitting

Veröffentlicht:

|

Lesezeit (Minuten):

|

Thema:

Das Verfahren der Modellvalidierung beschreibt die Methode, ein statistisches oder datenanalytisches Modell auf Performance zu überprüfen.

A common method for validating neural networks is k-fold cross-validation. In doing so one divides the training data set into k subsets. One of the subsets represents the test set. The remaining subsets then serve as the training set. The training set is used to teach the model. By the ratio of the correct results on the test set, it is possible to determine the degree of generalization of the model. The test set is then swapped with a training set and the performance is determined again until each set has finally functioned as a test set. At the end of the process, the average degree of generalization is calculated to estimate the performance of the model. The advantage of this method is that you get a relatively variant-free performance estimate. The reason for this is to prevent important structures in the training data from being excluded. This procedure is basically an extension of the holdout method.

Dieses Verfahren ist im Grunde eine Erweiterung der Holdout Methode. Die Holdout Methode teilt den Datensatz allerdings schlicht in eine Trainings- und in eine Testmenge auf. Gefahr bei dieser Methode ist im Gegensatz zur k-fold Cross Validation, dass wichtige Daten nicht zum Training zur Verfügung stehen könnten. Dies kann dazu führen, dass das Modell nicht ausreichend in der Lage zu generalisieren ist.

Exemplary representation k-fold Cross Validation
Beispielhafte Darstellung k-fold Cross Validation

Overfitting

Von Overfitting (deutsch: „Überanpassung“) spricht man, wenn ein Modell zu speziell an einen Trainingssatz angepasst ist. Bei neuronalen Netzen zum Beispiel, würde das bedeuten, dass ein Netz für Inputs aus dem Trainingsdatensatz sehr genau ist, für einen Testsatz allerdings nicht. Daraus folgt zwar, dass das Modell die trainierten Daten sehr genau abbilden kann, es aber nicht in der Lage ist, generalisierte Ergebnisse zu erzielen. 

In der Regel tritt Overfitting dann auf, wenn der Trainingsdatensatz relativ klein und das Modell relativ komplex ist. Denn ein komplexes Modell kann die Trainingsdaten genauer abbilden, umgekehrt bildet ein simples Modell die Trainingsdaten nicht so genau ab (Underfitting). Also ist es allgemein sinnvoll, je nach dem vorhandenen Datensatz, das Modell so simpel wie möglich und gleichzeitig nicht zu simpel zu halten. Ein perfektes Modell, das heißt ein Modell, bei dem es weder zu Over, noch zu Underfitting kommt ist nahe zu unmöglich zu erstellen.

Um das Problem des Overfitting zu reduzieren und gleichzeitig das Underfitting gering zu halten, wurden mehrere Verfahren eingführt. So unter anderem das von Google patentierte Dropout. Das Prinzip des Dropout ist recht simpel. Es deaktiviert lediglich eine gewisse Anzahl, in der Regel zwischen 20% und 50%, je nach festgelegtem Faktor, der Neuronen zufällig. Diese Methode erreicht trotz ihrer Einfachheit eine signifikante Reduzierung von Overfitting.

Beispielhafte Darstellung für Overfitting
Beispielhafte Darstellung für Overfitting

Teile diesen Artikel mit Deinem Netzwerk

Teilen am facebook
Facebook
Teilen am reddit
Reddit
Teilen am twitter
Twitter
Teilen am whatsapp
WhatsApp
Teilen am linkedin
LinkedIn
Teilen am email
Email
Teilen am telegram
Telegram

Haben Sie fragen zu unserem Artikel?
Kontaktieren Sie uns!

Danke!

Wir haben Deine Nachricht erhalten und werden uns schnellstmöglich bei Dir melden!

Beginnen wir noch heute,
Ihre Erfolgsstory zu schreiben!

Sind Sie bereit, mit der Entwicklung Ihres Produkts zu starten? Warten Sie nicht länger! Geben Sie hier Ihre E-Mail-Adresse ein und wir setzen uns umgehend mit Ihnen in Verbindung!

This Website Uses Cookies

We use cookies to provide social media features and to analyze our traffic. You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice, or by continuing to browse otherwise. You can read more about our cookie consent policy here.