Intelligence Artificielle

Suralimenter les réseaux de neurones graphiques avec de grands modèles de langage : le guide ultime

Publié May 8, 2024

Le kit de préparation mis à jour 15 novembre 2024

Ayush Mittal mital

graphique réseau neuronal grand modèle de langage

Les graphiques sont des structures de données qui représentent des relations complexes dans un large éventail de domaines, notamment les réseaux sociaux, les bases de connaissances, les systèmes biologiques et bien d'autres encore. Dans ces graphiques, les entités sont représentées par des nœuds et leurs relations sont représentées par des arêtes.

La capacité de représenter et de raisonner efficacement sur ces structures relationnelles complexes est cruciale pour permettre des progrès dans des domaines tels que la science des réseaux, la chemininformatique et les systèmes de recommandation.

Les réseaux de neurones graphiques (GNN) sont devenus un puissant cadre d'apprentissage profond pour les tâches d'apprentissage automatique graphique. En incorporant la topologie du graphe dans l'architecture du réseau neuronal via une agrégation de voisinage ou des convolutions de graphe, les GNN peuvent apprendre des représentations vectorielles de basse dimension qui codent à la fois les caractéristiques des nœuds et leurs rôles structurels. Cela permet aux GNN d'atteindre des performances de pointe sur des tâches telles que la classification des nœuds, la prédiction des liens et la classification des graphiques dans divers domaines d'application.

Même si les GNN ont permis des progrès substantiels, certains défis majeurs demeurent. L'obtention de données étiquetées de haute qualité pour la formation de modèles GNN supervisés peut être coûteuse et prendre du temps. De plus, les GNN peuvent avoir des difficultés avec des structures de graphiques hétérogènes et des situations dans lesquelles la distribution des graphiques au moment du test diffère considérablement des données d'entraînement (généralisation hors distribution).

En parallèle, les grands modèles linguistiques (LLM) comme GPT-4, et Lama ont conquis le monde grâce à leurs incroyables capacités de compréhension et de génération du langage naturel. Formés sur des corpus de textes massifs comportant des milliards de paramètres, les LLM présentent des capacités d'apprentissage remarquables en quelques étapes, une généralisation à travers les tâches et des compétences de raisonnement de bon sens qui étaient autrefois considérées comme extrêmement difficiles pour les systèmes d'IA.

L’énorme succès des LLM a catalysé les explorations visant à exploiter leur puissance pour les tâches d’apprentissage automatique des graphes. D'une part, les connaissances et les capacités de raisonnement des LLM offrent des opportunités d'améliorer les modèles GNN traditionnels. À l’inverse, les représentations structurées et les connaissances factuelles inhérentes aux graphiques pourraient contribuer à remédier à certaines limites clés des LLM, telles que les hallucinations et le manque d’interprétabilité.

Réseaux de neurones graphiques et apprentissage auto-supervisé

Pour fournir le contexte nécessaire, nous passerons d'abord brièvement en revue les concepts et méthodes de base des réseaux de neurones graphiques et de l'apprentissage auto-supervisé des représentations graphiques.

Architectures de réseaux neuronaux graphiques

Architecture de réseau neuronal graphique – source

La principale distinction entre les réseaux de neurones profonds traditionnels et les GNN réside dans leur capacité à fonctionner directement sur des données structurées sous forme de graphes. Les GNN suivent un schéma d'agrégation de quartier, dans lequel chaque nœud regroupe les vecteurs de caractéristiques de ses voisins pour calculer sa propre représentation.

De nombreuses architectures GNN ont été proposées avec différentes instanciations des fonctions de message et de mise à jour, telles que Représentation graphique des réseaux convolutionnels (GCN), GraphiqueSAGE, Réseaux d'attention graphique (GAT), et Réseaux d'isomorphisme graphique (GIN) entre autres.

Plus récemment, les transformateurs graphiques ont gagné en popularité en adaptant le mécanisme d'auto-attention des transformateurs de langage naturel pour fonctionner sur des données structurées sous forme de graphiques. Quelques exemples incluent GraphormerTransformateur GraphFormers. Ces modèles sont capables de mieux capturer les dépendances à longue portée sur le graphique que les GNN purement basés sur le quartier.

Apprentissage auto-supervisé sur des graphiques

Bien que les GNN soient de puissants modèles de représentation, leurs performances sont souvent entravées par le manque de grands ensembles de données étiquetées nécessaires à la formation supervisée. L'apprentissage auto-supervisé est apparu comme un paradigme prometteur pour pré-entraîner les GNN sur des données graphiques non étiquetées en exploitant des tâches prétextes qui ne nécessitent que la structure intrinsèque du graphique et les fonctionnalités des nœuds.

Graphique auto-supervisé

Certaines tâches prétextes courantes utilisées pour la pré-formation GNN auto-supervisée comprennent :

Prédiction des propriétés du nœud: masquer ou corrompre de manière aléatoire une partie des attributs/caractéristiques du nœud et charger le GNN de les reconstruire.
Prédiction de bord/lien: Apprendre à prédire si un bord existe entre une paire de nœuds, souvent basé sur un masquage aléatoire des bords.
Apprentissage contrasté: Maximiser les similitudes entre les vues graphiques du même échantillon de graphique tout en séparant les vues de différents graphiques.
Maximisation mutuelle des informations: Maximiser les informations mutuelles entre les représentations de nœuds locaux et une représentation cible comme l'intégration de graphe global.

Des tâches de prétexte comme celles-ci permettent au GNN d'extraire des modèles structurels et sémantiques significatifs à partir des données graphiques non étiquetées pendant la pré-formation. Le GNN pré-entraîné peut ensuite être affiné sur des sous-ensembles étiquetés relativement petits pour exceller dans diverses tâches en aval telles que la classification des nœuds, la prédiction des liens et la classification des graphiques.

En tirant parti de l'autosupervision, les GNN pré-entraînés sur de grands ensembles de données non étiquetés présentent une meilleure généralisation, une meilleure robustesse aux changements de distribution et une meilleure efficacité par rapport à une formation à partir de zéro. Cependant, certaines limites clés des méthodes auto-supervisées traditionnelles basées sur GNN demeurent, que nous explorerons ensuite en tirant parti des LLM pour les résoudre.

Améliorer Graph ML avec de grands modèles de langage

Intégration de graphiques et LLM – source

Les capacités remarquables des LLM en matière de compréhension du langage naturel, du raisonnement et de l'apprentissage en quelques étapes offrent des opportunités d'améliorer de multiples aspects des pipelines d'apprentissage automatique des graphes. Nous explorons quelques orientations de recherche clés dans cet espace :

L’un des principaux défis de l’application des GNN consiste à obtenir des représentations de caractéristiques de haute qualité pour les nœuds et les arêtes, en particulier lorsqu’ils contiennent des attributs textuels riches tels que des descriptions, des titres ou des résumés. Traditionnellement, de simples sacs de mots ou des modèles d'intégration de mots pré-entraînés ont été utilisés, qui ne parviennent souvent pas à capturer la sémantique nuancée.

Des travaux récents ont démontré la puissance de l'exploitation de grands modèles de langage en tant qu'encodeurs de texte pour construire de meilleures représentations de fonctionnalités de nœuds/bords avant de les transmettre au GNN. Par exemple, Chen et coll. utilisez des LLM comme GPT-3 pour coder les attributs de nœuds textuels, montrant des gains de performances significatifs par rapport aux intégrations de mots traditionnelles sur les tâches de classification de nœuds.

Au-delà de meilleurs encodeurs de texte, les LLM peuvent être utilisés pour générer des informations augmentées à partir des attributs du texte d'origine de manière semi-supervisée. RUBAN génère des étiquettes/explications potentielles pour les nœuds à l'aide d'un LLM et les utilise comme fonctionnalités augmentées supplémentaires. KEA extrait les termes des attributs de texte à l'aide d'un LLM et obtient des descriptions détaillées de ces termes pour augmenter les fonctionnalités.

En améliorant la qualité et l'expressivité des fonctionnalités d'entrée, les LLM peuvent transmettre leurs capacités supérieures de compréhension du langage naturel aux GNN, améliorant ainsi les performances des tâches en aval.

Réduire la dépendance aux données étiquetées

Un avantage clé des LLM est leur capacité à effectuer raisonnablement bien de nouvelles tâches avec peu ou pas de données étiquetées, grâce à leur pré-formation sur de vastes corpus de textes. Cette capacité d’apprentissage en quelques étapes peut être exploitée pour alléger la dépendance des GNN à l’égard de grands ensembles de données étiquetés.

Une approche consiste à utiliser les LLM pour faire directement des prédictions sur les tâches graphiques en décrivant la structure du graphique et les informations sur les nœuds dans des invites en langage naturel. Des méthodes comme InstruireGLM et d’une GPT4Graphique affinez les LLM tels que LLaMA et GPT-4 à l'aide d'invites soigneusement conçues qui intègrent des détails de topologie de graphique tels que les connexions de nœuds, les quartiers, etc. Les LLM optimisés peuvent ensuite générer des prédictions pour des tâches telles que la classification des nœuds et la prédiction des liens de manière zéro pendant l'inférence.

Bien que l'utilisation des LLM comme prédicteurs de boîte noire se soit révélée prometteuse, leurs performances se dégradent pour des tâches graphiques plus complexes où une modélisation explicite de la structure est bénéfique. Certaines approches utilisent ainsi les LLM en conjonction avec les GNN : le GNN code la structure du graphe tandis que le LLM fournit une compréhension sémantique améliorée des nœuds à partir de leurs descriptions textuelles.

Compréhension des graphiques avec le framework LLM – Source

GraphLLM explore deux stratégies : 1) LLM-as-Enhancers où les LLM encodent les attributs de nœud de texte avant de les transmettre au GNN, et 2) LLM-as-Predictors où le LLM prend les représentations intermédiaires du GNN comme entrée pour faire des prédictions finales.

GLEM va plus loin en proposant un algorithme EM variationnel qui alterne entre la mise à jour des composants LLM et GNN pour une amélioration mutuelle.

En réduisant la dépendance à l'égard des données étiquetées grâce à des capacités à quelques tirs et à une augmentation semi-supervisée, les méthodes d'apprentissage de graphes améliorées par LLM peuvent débloquer de nouvelles applications et améliorer l'efficacité des données.

Améliorer les LLM avec des graphiques

Bien que les LLM aient connu un énorme succès, ils souffrent toujours de limitations clés telles que les hallucinations (générant des déclarations non factuelles), le manque d'interprétabilité dans leur processus de raisonnement et l'incapacité de maintenir des connaissances factuelles cohérentes.

Les graphiques, en particulier les graphiques de connaissances qui représentent des informations factuelles structurées provenant de sources fiables, présentent des pistes prometteuses pour remédier à ces lacunes. Nous explorons quelques approches émergentes dans cette direction :

Pré-formation LLM améliorée Knowledge Graph

De la même manière que les LLM sont pré-formés sur de grands corpus de textes, travaux récents ont exploré la pré-formation sur les graphiques de connaissances pour leur donner une meilleure conscience factuelle et des capacités de raisonnement.

Certaines approches modifient les données d'entrée en concaténant ou en alignant simplement des triplets KG factuels avec du texte en langage naturel pendant la pré-formation. E-BERT aligne les vecteurs d'entités KG avec les intégrations de mots de BERT, tandis que K-BERT construit des arbres contenant la phrase originale et les triplets KG pertinents.

Le rôle des LLM dans l'apprentissage automatique des graphiques :

Les chercheurs ont exploré plusieurs façons d’intégrer les LLM dans le pipeline d’apprentissage des graphes, chacune ayant ses avantages et ses applications uniques. Voici quelques-uns des rôles importants que les LLM peuvent jouer :

LLM comme exhausteur: Dans cette approche, les LLM sont utilisés pour enrichir les attributs textuels associés aux nœuds dans un TAG. La capacité du LLM à générer des explications, des entités de connaissances ou des pseudo-étiquettes peut augmenter les informations sémantiques disponibles pour le GNN, conduisant à de meilleures représentations de nœuds et aux performances des tâches en aval.

Par exemple, le modèle TAPE (Text Augmented Pre-trained Encoders) exploite ChatGPT pour générer des explications et des pseudo-étiquettes pour les articles du réseau de citations, qui sont ensuite utilisés pour affiner un modèle de langage. Les intégrations résultantes sont introduites dans un GNN pour les tâches de classification des nœuds et de prédiction de liens, obtenant ainsi des résultats de pointe.

LLM comme prédicteur: Plutôt que d'améliorer les fonctionnalités d'entrée, certaines approches utilisent directement les LLM comme composant prédicteur pour les tâches liées aux graphiques. Cela implique de convertir la structure du graphique en une représentation textuelle pouvant être traitée par le LLM, qui génère ensuite le résultat souhaité, tel que des étiquettes de nœuds ou des prédictions au niveau du graphique.

Un exemple notable est le modèle GPT4Graph, qui représente des graphiques à l'aide du langage de modélisation graphique (GML) et exploite le puissant LLM GPT-4 pour les tâches de raisonnement graphique sans tir.

Alignement GNN-LLM: Un autre axe de recherche se concentre sur l'alignement des espaces d'intégration des GNN et des LLM, permettant une intégration transparente des informations structurelles et sémantiques. Ces approches traitent le GNN et le LLM comme des modalités distinctes et emploient des techniques telles que l'apprentissage contrastif ou la distillation pour aligner leurs représentations.

Les MoléculeSTM Le modèle, par exemple, utilise un objectif contrastif pour aligner les intégrations d'un GNN et d'un LLM, permettant au LLM d'incorporer les informations structurelles du GNN tandis que le GNN bénéficie des connaissances sémantiques du LLM.

Défis et solutions

Bien que l’intégration des LLM et de l’apprentissage des graphes soit extrêmement prometteuse, plusieurs défis doivent être relevés :

Efficacité et évolutivité: Les LLM sont notoirement gourmands en ressources, nécessitant souvent des milliards de paramètres et une immense puissance de calcul pour la formation et l'inférence. Cela peut constituer un goulot d'étranglement important pour le déploiement de modèles d'apprentissage de graphes améliorés par LLM dans des applications du monde réel, en particulier sur des appareils aux ressources limitées.

Une solution prometteuse est distillation des connaissances, où les connaissances d'un grand LLM (modèle d'enseignant) sont transférées à un GNN (modèle d'étudiant) plus petit et plus efficace.

Fuite de données et évaluation: Les LLM sont pré-entraînés sur de grandes quantités de données accessibles au public, qui peuvent inclure des ensembles de tests provenant d'ensembles de données de référence communs, conduisant à des fuites potentielles de données et à des performances surestimées. Les chercheurs ont commencé à collecter de nouveaux ensembles de données ou à échantillonner des données de test à partir de périodes postérieures à la fin de la formation du LLM pour atténuer ce problème.

De plus, l'établissement de critères d'évaluation justes et complets pour les modèles d'apprentissage de graphes améliorés par LLM est crucial pour mesurer leurs véritables capacités et permettre des comparaisons significatives.

Transférabilité et explicabilité: Bien que les LLM excellent dans l'apprentissage à zéro et à quelques coups, leur capacité à transférer des connaissances à travers divers domaines et structures de graphes reste un défi ouvert. Améliorer la transférabilité de ces modèles est une direction de recherche essentielle.

En outre, l’amélioration de l’explicabilité des modèles d’apprentissage de graphes basés sur LLM est essentielle pour instaurer la confiance et permettre leur adoption dans des applications à enjeux élevés. Tirer parti des capacités de raisonnement inhérentes aux LLM grâce à des techniques telles que incitation à la chaîne de pensée peut contribuer à une meilleure explicabilité.

Intégration multimodale: Les graphiques contiennent souvent plus que de simples informations textuelles, avec des nœuds et des bords potentiellement associés à diverses modalités, telles que des images, de l'audio ou des données numériques. L’extension de l’intégration des LLM à ces paramètres de graphiques multimodaux présente une opportunité passionnante pour les recherches futures.

Applications du monde réel et études de cas

L'intégration des LLM et de l'apprentissage automatique des graphes a déjà donné des résultats prometteurs dans diverses applications du monde réel :

Prédiction des propriétés moléculaires: Dans le domaine de la chimie computationnelle et de la découverte de médicaments, les LLM ont été utilisés pour améliorer la prédiction des propriétés moléculaires en incorporant des informations structurelles provenant de graphiques moléculaires. Le Modèle LLM4Mol, par exemple, exploite ChatGPT pour générer des explications pour les représentations SMILES (Simplified Molecular-Input Line-Entry System) de molécules, qui sont ensuite utilisées pour améliorer la précision des tâches de prédiction des propriétés.
Achèvement et raisonnement du Knowledge Graph: Les graphes de connaissances sont un type spécial de structure graphique qui représente les entités du monde réel et leurs relations. Les LLM ont été explorés pour des tâches telles que la réalisation de graphes de connaissances et le raisonnement, où la structure du graphe et les informations textuelles (par exemple, les descriptions d'entités) doivent être considérées conjointement.
Systèmes de recommandation: Dans le domaine des systèmes de recommandation, les structures graphiques sont souvent utilisées pour représenter les interactions utilisateur-élément, avec des nœuds représentant les utilisateurs et les éléments, et des arêtes désignant des interactions ou des similitudes. Les LLM peuvent être exploités pour améliorer ces graphiques en générant des informations côté utilisateur/élément ou en renforçant les bords d'interaction.

Conclusion

La synergie entre les grands modèles linguistiques et l'apprentissage automatique graphique présente une frontière passionnante dans la recherche sur l'intelligence artificielle. En combinant le biais inductif structurel des GNN avec les puissantes capacités de compréhension sémantique des LLM, nous pouvons ouvrir de nouvelles possibilités dans les tâches d'apprentissage des graphes, en particulier pour les graphes attribués au texte.

Même si des progrès significatifs ont été réalisés, des défis subsistent dans des domaines tels que l'efficacité, l'évolutivité, la transférabilité et l'explicabilité. Des techniques telles que la distillation des connaissances, des critères d'évaluation équitables et l'intégration multimodale ouvrent la voie au déploiement pratique de modèles d'apprentissage de graphes améliorés par LLM dans des applications du monde réel.

Rubriques connexes:BERT GNN Graphique ML Graphiques de réseaux de neurones LLM compréhension du langage naturel

Qu’est-ce qu’AlphaFold 3 ? Le modèle d’IA prêt à transformer la biologie

Ne manquez pas

SIMA : faire évoluer les agents d'IA dans des mondes virtuels pour diverses applications

Ayush Mittal

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.