Intelligence artificielle
Nouvelle bibliothèque de tangentes neuronales de Google offre aux data scientists une “insight sans précédent” dans les modèles

Google a conçu une nouvelle bibliothèque open-source destinée à ouvrir la boîte noire de l’apprentissage automatique et à donner aux ingénieurs plus d’insight sur la façon dont leurs systèmes d’apprentissage automatique fonctionnent. Comme le rapporte VentureBeat, l’équipe de recherche de Google affirme que la bibliothèque pourrait offrir une “insight sans précédent” sur la façon dont les modèles d’apprentissage automatique fonctionnent.
Les réseaux de neurones fonctionnent par des neurones contenant des fonctions mathématiques qui transforment les données de diverses manières. Les neurones du réseau sont joints ensemble en couches, et les réseaux de neurones ont une profondeur et une largeur. La profondeur d’un réseau de neurones est contrôlée par le nombre de couches qu’il possède, et les différentes couches du réseau ajustent les connexions entre les neurones, impactant la façon dont les données sont traitées lorsqu’elles se déplacent entre les couches. Le nombre de neurones dans la couche est la largeur de la couche. Selon l’ingénieur de recherche de Google, Roman Novak, et le scientifique principal de la recherche de Google, Samuel S. Schoenholz, la largeur des modèles est étroitement corrélée avec un comportement régulier et répétitif. Dans un billet de blog, les deux chercheurs ont expliqué que rendre les réseaux de neurones plus larges rend leur comportement plus régulier et plus facile à interpréter.
Il existe un autre type de modèle d’apprentissage automatique appelé processus gaussien. Un processus gaussien est un processus stochastique qui peut être représenté comme une distribution normale multivariée. Avec un processus gaussien, chaque ensemble/combinaison linéaire finie de variables sera distribué de manière normale. Cela signifie qu’il est possible de représenter des interactions extrêmement complexes entre les variables sous la forme d’équations d’algèbre linéaire interprétables, et qu’il est donc possible d’étudier le comportement d’un IA à travers cette lentille. Comment les modèles d’apprentissage automatique sont-ils liés aux processus gaussiens ? Les modèles d’apprentissage automatique qui sont infiniment larges en largeur convergent vers un processus gaussien.
Cependant, même si il est possible d’interpréter les modèles d’apprentissage automatique à travers la lentille d’un processus gaussien, cela nécessite de dériver la limite de largeur infinie d’un modèle. Il s’agit d’une série complexe de calculs qui doivent être effectués pour chaque architecture séparée. Pour rendre ces calculs plus faciles et plus rapides, l’équipe de recherche de Google a conçu les Neural Tangents. Les Neural Tangents permettent à un data scientist d’utiliser seulement quelques lignes de code et d’entraîner plusieurs réseaux de neurones de largeur infinie en même temps. Plusieurs réseaux de neurones sont souvent entraînés sur les mêmes jeux de données et leurs prédictions sont moyennées, afin d’obtenir une prédiction plus robuste et moins sensible aux problèmes qui pourraient survenir dans chaque modèle. Une telle technique est appelée apprentissage d’ensemble. L’un des inconvénients de l’apprentissage d’ensemble est qu’il est souvent coûteux en termes de calcul. Cependant, lorsque un réseau qui est infiniment large est entraîné, l’ensemble est décrit par un processus gaussien et la variance et la moyenne peuvent être calculées.
Trois différentes architectures de réseaux de neurones de largeur infinie ont été comparées à titre de test, et les résultats de la comparaison ont été publiés dans le billet de blog. En général, les résultats des réseaux d’ensemble pilotés par des processus gaussiens sont similaires à la performance des réseaux de neurones finis :
Comme l’explique l’équipe de recherche dans un billet de blog :
« Nous constatons que, à l’instar des réseaux de neurones finis, les réseaux de neurones de largeur infinie suivent une hiérarchie de performance similaire, les réseaux entièrement connectés ayant de moins bonnes performances que les réseaux convolutionnels, qui à leur tour ont de moins bonnes performances que les réseaux résiduels larges. Cependant, contrairement à l’entraînement régulier, la dynamique d’apprentissage de ces modèles est complètement traçable en forme fermée, ce qui permet de nouvelles insights sur leur comportement. »
La sortie des Neural Tangents semble coïncider avec la conférence des développeurs TensorFlow. La conférence des développeurs voit les ingénieurs d’apprentissage automatique qui utilisent la plate-forme TensorFlow de Google se réunir. L’annonce des Neural Tangents intervient peu de temps après l’annonce de TensorFlow Quantum.
Les Neural Tangents sont disponibles via GitHub et il existe un notebook et un didacticiel Google Colaboratory que les intéressés peuvent accéder.












