StartseiteKNN - Was ist das?Biologische GrundlagenMathematischer HintergrundNetzstrukturenLernverfahrenAnwendungen

Lernverfahren:

Überwachtes Lernen

Bestärkendes Lernen

Unüberwachtes Lernen

Überwachtes Lernen:

Hebbsche Lernregel

Delta Regel

Backpropagation

Allgemein:

Startseite

Unser Team

Quellenangabe

Haftungsausschluss

Motivation

Das Backpropagation-Verfahren (auch Back-Propagation und Error backpropagation, zu deutsch Fehlerrückführung) wurde in den 70er Jahren von mehren Autoren vorgeschlagen, u.a. von Paul Werbos 1974. Allerdings geriet das Verfahren für über 10 Jahre in Vergessenheit, bis es von verschiedenen Autoren wieder entdeckt wurde. Es ist eines der wichtigsten Verfahren zum Einlernen von künstlichen neuronalen Netzen. Zur Gruppe der überwachten Lernverfahren gehörend, wird es als Verallgemeinerung der Delta-Regel auf mehrschichtige Netze angewandt.

Das Perzeptron wird stark durch das Kriterium der linearen Separierbarkeit in seiner Leistungsfähigkeit eingeschränkt. Durch die Einführung verborgener Schichten kann dies erhöht werden. Um ein Netz mit verborgenen Schichten sinnvoll trainieren zu können, wird jedoch die erwünschte Ausgabe für die verborgene Schicht benötigt, wobei zu jedem Trainingsmuster lediglich die gewünschte Ausgabe bekannt ist. Mit der Entdeckung des Backpropagation-Verfahrens, war eine Rechenvorschrift bekannt, mit der die Verbindungen zu den verborgenen Schichten modifiziert werden können.

Das Backpropagation-Verfahren ist ein iteratives Verfahren. Es ermittelt eine Konfiguration der Gewichte im Netz, bei der die Fehlersumme über alle Trainingsmuster minimal ist. Künstliche Neuronale Netze werden auf der Basis von Backpropagation zum jetzigen Zeitpunkt für praktische Anwendungen am häufigsten verwendet.

Der Algorithmus

Der Backpropagation-Algorithmus läuft in folgenden Phasen:

Das Gradientenabstiegsverfahren

GradientenabstiegsverfahrenMinimum

Um die Fehlerrate F zu minimieren, muss nun der Gewichtsvektor ω derartig verändert werden, dass ein möglichst globales Minimum gefunden wird. Mithilfe des Gradientenabstiegverfahrens (engl.: Gradient-Descent Method) wird nun versucht, beginnend bei einem zufälligen Gewicht ω1 durch die Bestimmung des Gradienten und die Herabsetzung um eine vorgegebene Länge, der Lernrate, einen weiteren Gewichtvektor ω2 zu bestimmen, solange, bis das lokale Minimum erreicht ist.

Anhand der folgenden Animation beispielhaft dargestellt.

Gradientenabstiegsverfahren

Probleme bei Backpropagation

Wie zuvor erwähnt, basiert das Backpropagation-Verfahren auf dem Gradientenabstiegverfahren. Bei der Bestimmung des Gradienten kann es, obwohl das Verfahren relativ einfach ist, zu einer Reihe von Problemen kommen. Das Problem ist das festlegen des Minimum. Man kann nie eindeutig festlegen, ob das Verfahren in einem lokalen oder globalen Minimum endet, begründet durch die zufällige Wahl des Gewichtsvektors ω, mit dem man den Gradientenabstieg beginnt.
Liegt ω zufällig in der Nähe eines absoluten, also globalen Minimums, dann endet das Verfahren in dem optimalen Minimum, wohingegen aber die Wahl des zufälligen Gewichtsvektors ω, nahe liegend einem lokalen Maximums, zu keinem optimalen Minimum führt. Die wird an folgender Animation versucht zu verdeutlichen.

lokalesMinimum

Dieser Effekt des lokalen bzw. globalen Minimums wird durch die Dimension des Netzes, beschreibbar durch die Anzahl der Verbindungen zwischen den Neuronen, beeinflusst. Mit wachsender Dimension des Netzwerkes wird die Fehleroberfläche immer größer und die Bestimmung des globalen Minimums erschwert.
Weiterhin können tiefe Täler in der Fehleroberfläche liegen, die eine relativ geringe Ausdehnung besitzen. Hier besteht die Gefahr, dass in einem dieser Täler das absolute Minimum liegt und durch eine zu große bzw. ungeschickt gewählte Lernrate ή übersprungen wird.

Dieses Problem kann durch die Wahl der Lernrate beeinflusst werden, das diese beim Gradientenabstieg von entscheidender Bedeutung ist. Die Wahl der optimalen Lernrate ist von vielen Faktoren abhängig, z.B. das Problem selbst, die Wahl der Trainingsdaten und die Größe und Topologie des Netzes. Eine zu hohe Veränderung des Wertes kann ein Verfehlen des Minimum zur Folge haben, hingegen eine zu kleine Lernrate das Einlernen unnötig verlansamen.

Optimierungsverfahren zur Backpropagation

Weiter zu » Bestärkendes Lernen