Datenbestand vom 21. August 2025
Verlag Dr. Hut GmbH Sternstr. 18 80538 München Tel: 0175 / 9263392 Mo - Fr, 9 - 12 Uhr
aktualisiert am 21. August 2025
978-3-8439-5638-3, Reihe Mathematik
Selina Katharina Drews Zur statistischen Analyse überparametrisierter tiefer neuronaler Netze trainiert durch Gradientenabstieg
303 Seiten, Dissertation Technische Universität Darmstadt (2024), Hardcover, A5
Der Erfolg des Deep Learnings ist unübersehbar, insbesondere bei großen neuronalen Netzen wie ChatGPT-3 mit 175 Mrd. und BERT-Large mit 340 Mio. Parametern. Dies zeigt den Trend zur Überparametrisierung, bei der die Anzahl der Parameter die der Trainingsdaten übersteigt. Klassische Theorien erwarten hier eine Überanpassung und damit eine schlechte Generalisierung auf neuen Daten. Dennoch liefern solche Netze oft sehr gute Ergebnisse. Diese Arbeit untersucht überparametrisierte neuronale Netze, die durch den Gradientenabstieg trainiert werden, im Rahmen der nichtparametrischen Regression, insbesondere in Bezug auf universelle Konsistenz und Konvergenzraten. Dabei zeigt sich, dass die gängige Überanpassungshypothese in diesem Kontext nicht zutrifft. Unser theoretischer Ansatz verbindet die drei zentralen Aspekte des Deep Learnings: Optimierung, Approximation und Generalisierung. Die Optimierung erfolgt, wie in der Praxis üblich, mittels Gradientenabstieg, wobei kein zusätzlicher Regularisierungsterm verwendet wird. Im Bereich der Approximation zeigen wir, dass geeignete Netzwerktopologien eine präzise Annäherung an komplexe Funktionen ermöglichen. Die Generalisierung beschreibt die Leistungsfähigkeit auf neuen Daten. Unsere Untersuchungen zeigen, dass überparametrisierte neuronale Netze trotz der großen Anzahl von Parametern in der Lage sind, zuverlässige Vorhersagen zu treffen. Die theoretischen Ergebnisse dieser Arbeit verdeutlichen das Potenzial überparametrisierter neuronaler Netze in mehrfacher Hinsicht. So lässt sich mit der sigmoidalen Aktivierungsfunktion die Eigenschaft der universellen Konsistenz nachweisen. Für glatte Regressionsfunktionen können zudem nahezu optimale Konvergenzraten abgeleitet werden. Besonders bemerkenswert ist, dass sich für ReLU-Netze unter kompositionellen Annahmen sogar dimensionsunabhängige Raten erzielen lassen und damit der Fluch der Dimensionalität umgangen werden kann.