Datenbestand vom 21. August 2025

Impressum Warenkorb Datenschutzhinweis Dissertationsdruck Dissertationsverlag Institutsreihen     Preisrechner

aktualisiert am 21. August 2025

ISBN 978-3-8439-5638-3

96,00 € inkl. MwSt, zzgl. Versand


978-3-8439-5638-3, Reihe Mathematik

Selina Katharina Drews
Zur statistischen Analyse überparametrisierter tiefer neuronaler Netze trainiert durch Gradientenabstieg

303 Seiten, Dissertation Technische Universität Darmstadt (2024), Hardcover, A5

Zusammenfassung / Abstract

Der Erfolg des Deep Learnings ist unübersehbar, insbesondere bei großen neuronalen Netzen wie ChatGPT-3 mit 175 Mrd. und BERT-Large mit 340 Mio. Parametern. Dies zeigt den Trend zur Überparametrisierung, bei der die Anzahl der Parameter die der Trainingsdaten übersteigt. Klassische Theorien erwarten hier eine Überanpassung und damit eine schlechte Generalisierung auf neuen Daten. Dennoch liefern solche Netze oft sehr gute Ergebnisse. Diese Arbeit untersucht überparametrisierte neuronale Netze, die durch den Gradientenabstieg trainiert werden, im Rahmen der nichtparametrischen Regression, insbesondere in Bezug auf universelle Konsistenz und Konvergenzraten. Dabei zeigt sich, dass die gängige Überanpassungshypothese in diesem Kontext nicht zutrifft. Unser theoretischer Ansatz verbindet die drei zentralen Aspekte des Deep Learnings: Optimierung, Approximation und Generalisierung. Die Optimierung erfolgt, wie in der Praxis üblich, mittels Gradientenabstieg, wobei kein zusätzlicher Regularisierungsterm verwendet wird. Im Bereich der Approximation zeigen wir, dass geeignete Netzwerktopologien eine präzise Annäherung an komplexe Funktionen ermöglichen. Die Generalisierung beschreibt die Leistungsfähigkeit auf neuen Daten. Unsere Untersuchungen zeigen, dass überparametrisierte neuronale Netze trotz der großen Anzahl von Parametern in der Lage sind, zuverlässige Vorhersagen zu treffen. Die theoretischen Ergebnisse dieser Arbeit verdeutlichen das Potenzial überparametrisierter neuronaler Netze in mehrfacher Hinsicht. So lässt sich mit der sigmoidalen Aktivierungsfunktion die Eigenschaft der universellen Konsistenz nachweisen. Für glatte Regressionsfunktionen können zudem nahezu optimale Konvergenzraten abgeleitet werden. Besonders bemerkenswert ist, dass sich für ReLU-Netze unter kompositionellen Annahmen sogar dimensionsunabhängige Raten erzielen lassen und damit der Fluch der Dimensionalität umgangen werden kann.