Stummel GPUs können beim Training tiefer neuronaler Netze besser und nicht nur schneller sein – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

GPUs sind beim Training tiefer neuronaler Netze möglicherweise besser und nicht nur schneller

mm
Aktualisiert on

Forscher aus Polen und Japan haben in Zusammenarbeit mit Sony Hinweise darauf gefunden, dass maschinelle Lernsysteme, die auf GPUs statt auf CPUs trainiert werden, während des Trainingsprozesses möglicherweise weniger Fehler enthalten und bessere Ergebnisse liefern, was im Widerspruch zur allgemeinen Auffassung steht, dass GPUs solche Vorgänge einfach schneller ausführen als alles andere besser.

Das Forschungsprojekte, Betitelt Einfluss der GPU-Unsicherheit auf das Training prädiktiver tiefer neuronaler Netze, kommt von der Fakultät für Psychologie und Kognitionswissenschaften der Adam-Mickiewicz-Universität und zwei japanischen Universitäten, zusammen mit SONY Computer Science Laboratories.

Darauf deutet die Studie hin 'Unsicherheiten' welche tiefen neuronalen Netze angesichts verschiedener Hardware- und Softwarekonfigurationen aufweisen, begünstigen teurere (und immer knapper) Grafikprozessoren und stellte in Tests fest, dass ein tiefes neuronales Netzwerk, das ausschließlich auf der CPU trainiert wurde, über die gleiche Anzahl von Epochen (die Häufigkeit, mit der das System die Trainingsdaten im Verlauf einer Sitzung erneut verarbeitet) höhere Fehlerraten erzeugte.

In diesem ergänzenden Beispiel aus dem Papier sehen wir (die beiden unteren Reihen) eine ähnliche Ergebnisqualität, die mit verschiedenen GPUs erzielt wurde, und (erste Reihe) die schlechteren Ergebnisse, die mit einer Reihe ansonsten sehr leistungsfähiger CPUs erzielt wurden. Quelle: https://arxiv.org/pdf/2109.01451.pdf

In diesem ergänzenden Beispiel aus dem Papier sehen wir (die beiden unteren Reihen) eine ähnliche Ergebnisqualität, die mit verschiedenen GPUs erzielt wurde, und (erste Reihe) die schlechteren Ergebnisse, die mit einer Reihe ansonsten sehr leistungsfähiger CPUs erzielt wurden. Quelle: https://arxiv.org/pdf/2109.01451.pdf

Seltsame Phänomene

Diese vorläufigen Erkenntnisse gelten nicht einheitlich für gängige Algorithmen für maschinelles Lernen, und bei einfachen Autoencoder-Architekturen tritt das Phänomen nicht auf.

Dennoch deutet die Arbeit auf eine mögliche „Fluchtgeschwindigkeit“ für die Wirksamkeit des Trainings in komplexen neuronalen Netzen hin, bei der die Abdeckung derselben Operationen bei geringerer Geschwindigkeit und längeren Trainingszeiten nicht die gleiche Leistung erzielt, die man von mathematischen Iterationsroutinen erwarten würde.

Die Forscher vermuten, dass dieser Leistungsunterschied speziell für bestimmte Arten neuronaler Netze gelten könnte und dass die unbestimmten Aspekte der GPU-spezifischen Verarbeitung, die häufig als Hindernis angesehen werden, das schließlich überwunden werden muss, möglicherweise nicht nur bemerkenswerte Vorteile bieten, sondern letztendlich auch beabsichtigt sein könnten in spätere Systeme integriert. Das Papier legt auch nahe, dass die Ergebnisse tiefere Einblicke in die gehirnbezogene Rechenverarbeitung bieten könnten.

Die Identifizierung der Besonderheiten, die auf GPUs auf diese Weise die Effizienz und Qualität der Ergebnisse steigern, birgt das Potenzial, einen tieferen Einblick in „Black-Box“-KI-Architekturen zu erhalten und sogar die CPU-Leistung zu verbessern – obwohl die zugrunde liegenden Ursachen derzeit unklar sind.

Autoencoder vs. PredNet

Bei der Untersuchung der Anomalien verwendeten die Forscher einen einfachen Autoencoder und auch das Predictive Neural Network der Harvard University PredNet, Forschung aus dem Jahr 2016, die darauf abzielte, das Verhalten der menschlichen Großhirnrinde zu erforschen und zu reproduzieren.

Bei beiden Systemen handelt es sich um tiefe neuronale Netze, die darauf ausgelegt sind, durch unüberwachtes Lernen passende Bilder zu synthetisieren (mit Daten, bei denen Beschriftungen weggelassen wurden), obwohl der Autoencoder linear mit einem Bild pro Stapel umgeht, das dann eine Ausgabe als nächstes Bild in einer wiederkehrenden Pipeline erzeugen würde. Der Autoencoder wurde darauf trainiert MNIST Handschriftendatenbank.

Der Autoencoder in den Tests der Forscher wurde auf der MNIST-Datenbank trainiert, die 60,000 Trainingsbilder mit 28 x 28 Pixeln, Antialiasing für Graustufeninduktion, sowie 10,000 Testbilder umfasst.

Der Autoencoder in den Tests der Forscher wurde auf der MNIST-Datenbank trainiert, die 60,000 Trainingsbilder mit 28 x 28 Pixeln, Anti-Aliasing für Graustufeninduktion, sowie 10,000 Testbilder umfasst.

Im Gegensatz dazu wertet PredNet komplexe Videoeingaben aus und wurde im Fall dieser Untersuchung darauf trainiert FPSI-Datensatz, das umfangreiche am Körper getragene Videoaufnahmen eines Tages in Disney World in Orlando, Florida, zeigt (Disney war einer der wissenschaftlichen Mitarbeiter der Veröffentlichung von 2012).

Bildsequenzen von FPSI, die Ansichten aus der ersten Person an einem Tag in Disney World zeigen.

Bildsequenzen von FPSI, die Ansichten aus der ersten Person an einem Tag in Disney World zeigen.

Die beiden Architekturen unterscheiden sich hinsichtlich der Komplexität stark. Der Autoencoder ist darauf ausgelegt, Bilder zu rekonstruieren, anstatt Zielwerte vorherzusagen. Im Gegensatz dazu verfügt PredNet über vier Schichten, von denen jede aus Repräsentationsneuronen besteht, die das Convolutional Long Short-Term Memory (LSTM) nutzen.

Die Schichten geben kontextbezogene Vorhersagen aus, die dann mit einem Ziel verglichen werden, um einen Fehlerterm zu erzeugen, der sich im gesamten Netzwerk ausbreitet. Jedes der beiden Modelle nutzt unüberwachtes Lernen.

Die einfache, lineare Architektur des Autoencoders und das labyrinthischere und rekursivere Netzwerk von PredNet.

Die einfache, lineare Architektur des Autoencoders und das labyrinthischere und rekursivere Netzwerk von PredNet.

Beide Systeme wurden auf einer Reihe von Hardware- und Softwarekonfigurationen getestet, darunter CPUs ohne GPUs (Intel i5-4590, i7-6800K, i5-7600K oder AMD Ryzen-5-3600) und CPUs mit GPUs (Intel i5-7600K + NVIDIA). GTX-750Ti, i5-7600K + GTX-970, i7-6700K + GTX-1080, i7-7700K + GTX-1080Ti, i7-9700 + RTX-2080Ti, i5-7600K + RTX-2060 super, AMD Ryzen-5- 3600 + RTX-2070 super oder i5-9400 + Titan-RTX).

Der interaktive Prozessviewer htop wurde verwendet, um sicherzustellen, dass das gesamte Training entweder in einem einzelnen Thread (auf einem Intel i7-6800K), in vier Threads (auf einem Intel i5-4590 und i5-7600K) oder sechs Threads (auf einem AMD Ryzen-5-3600) stattfand ).

Sattelpunkte

Beim Autoencoder war der mittlere Unterschied zwischen allen Konfigurationen, mit und ohne cuDNN, nicht signifikant. Für PredNet waren die Ergebnisse überraschender, da es deutliche Unterschiede in der Verlustbewertung und Qualität zwischen CPU- und GPU-Training gab.

Die durchschnittlichen Verlustergebnisse für das PredNet-Training auf vier CPUs und acht GPUs, wobei das Netzwerk auf 5000 Videobildern in 250 Stapeln trainiert wurde, wobei der durchschnittliche Verlust für die letzten 1000 Bilder (50 Stapel) dargestellt ist. cuDNN wurde ausgeschaltet.

Die durchschnittlichen Verlustergebnisse für das PredNet-Training auf vier CPUs und acht GPUs, wobei das Netzwerk auf 5000 Videobildern in 250 Stapeln trainiert wurde, wobei der durchschnittliche Verlust für die letzten 1000 Bilder (50 Stapel) dargestellt ist. cuDNN wurde ausgeschaltet.

Daraus schließen die Forscher „Obwohl der Mechanismus unklar ist, scheint die GPU-Hardware in der Lage zu sein, das Training von DNNs voranzutreiben.“

Die Ergebnisse deuten darauf hin, dass GPUs möglicherweise besser in der Lage sind, Sattelpunkte zu vermeiden – die Bereiche in einem Gefälle, die den Boden eines Hangs beschreiben.

Der Tiefpunkt der Hänge bei einer Steigungsabfahrt ist der „Sattelpunkt“, der aus offensichtlichen Gründen so genannt wird. Quelle: https://www.pinterest.com.au/pin/436849232581124086/

Der Tiefpunkt der Hänge bei einer Steigungsabfahrt ist der „Sattelpunkt“, der aus offensichtlichen Gründen so genannt wird. Quelle: https://www.pinterest.com.au/pin/436849232581124086/

Obwohl Sattelpunkte ein Hindernis darstellen, wurden sie in den jüngsten Überlegungen zur Optimierung des stochastischen Gradientenabstiegs (SGD) weitgehend als leicht zu umgehen abgetan, doch das neue Papier legt nicht nur nahe, dass GPUs möglicherweise speziell dafür ausgestattet sind, sie zu vermeiden, sondern auch, dass der Einfluss von Sattelpunkte sollten vielleicht noch einmal überdacht werden.