Diagramme sind Datenstrukturen, die komplexe Beziehungen in einem breiten Spektrum von Bereichen darstellen, darunter soziale Netzwerke, Wissensdatenbanken, biologische Systeme und viele mehr. In diesen Diagrammen werden Entitäten als Knoten und ihre Beziehungen als Kanten dargestellt.
Die Fähigkeit, diese komplexen Beziehungsstrukturen effektiv darzustellen und zu begründen, ist entscheidend für Fortschritte in Bereichen wie Netzwerkwissenschaft, Cheminformatik und Empfehlungssystemen.
Graph Neural Networks (GNNs) haben sich zu einem leistungsstarken Deep-Learning-Framework für grafische maschinelle Lernaufgaben entwickelt. Durch die Integration der Graphentopologie in die neuronale Netzwerkarchitektur durch Nachbarschaftsaggregation oder Graphenfaltung können GNNs niedrigdimensionale Vektordarstellungen lernen, die sowohl die Knotenmerkmale als auch ihre strukturellen Rollen kodieren. Dies ermöglicht es GNNs, bei Aufgaben wie der Knotenklassifizierung, der Linkvorhersage und der Diagrammklassifizierung in verschiedenen Anwendungsbereichen eine Spitzenleistung zu erzielen.
Obwohl GNNs zu erheblichen Fortschritten geführt haben, bleiben einige wichtige Herausforderungen bestehen. Das Erhalten qualitativ hochwertiger, gekennzeichneter Daten für das Training überwachter GNN-Modelle kann teuer und zeitaufwändig sein. Darüber hinaus können GNNs mit heterogenen Diagrammstrukturen und Situationen zu kämpfen haben, in denen die Diagrammverteilung zum Testzeitpunkt erheblich von den Trainingsdaten abweicht (Verallgemeinerung außerhalb der Verteilung).
Parallel dazu werden Large Language Models (LLMs) wie GPT-4 und Lama haben die Welt mit ihrem unglaublichen Verständnis und der Generierung natürlicher Sprache im Sturm erobert. LLMs werden auf riesigen Textkorpora mit Milliarden von Parametern trainiert und weisen bemerkenswerte Lernfähigkeiten mit wenigen Schüssen, Verallgemeinerung über Aufgaben hinweg und Fähigkeiten zum vernünftigen Denken auf, die einst als äußerst herausfordernd für KI-Systeme galten.
Der enorme Erfolg von LLMs hat Untersuchungen zur Nutzung ihrer Leistungsfähigkeit für grafische maschinelle Lernaufgaben vorangetrieben. Einerseits bieten das Wissen und die Argumentationsfähigkeiten von LLMs Möglichkeiten zur Verbesserung traditioneller GNN-Modelle. Umgekehrt könnten die strukturierten Darstellungen und das Faktenwissen, die Diagrammen innewohnen, dazu beitragen, einige wichtige Einschränkungen von LLMs zu beseitigen, wie etwa Halluzinationen und mangelnde Interpretierbarkeit.
Graphische neuronale Netze und selbstüberwachtes Lernen
Um den notwendigen Kontext bereitzustellen, werden wir zunächst kurz die Kernkonzepte und Methoden in graphischen neuronalen Netzen und dem selbstüberwachten Lernen von Graphdarstellungen besprechen.
Der Hauptunterschied zwischen traditionellen tiefen neuronalen Netzen und GNNs liegt in ihrer Fähigkeit, direkt mit graphstrukturierten Daten zu arbeiten. GNNs folgen einem Nachbarschaftsaggregationsschema, bei dem jeder Knoten Merkmalsvektoren seiner Nachbarn aggregiert, um seine eigene Darstellung zu berechnen.
In jüngerer Zeit haben Graphtransformatoren an Popularität gewonnen, indem sie den Selbstaufmerksamkeitsmechanismus von Natural-Language-Transformatoren an die Arbeit mit graphstrukturierten Daten angepasst haben. Einige Beispiele umfassen GraphformerTransformer und GraphFormers. Diese Modelle sind in der Lage, langfristige Abhängigkeiten im Diagramm besser zu erfassen als rein nachbarschaftsbasierte GNNs.
Selbstüberwachtes Lernen in Diagrammen
Obwohl es sich bei GNNs um leistungsstarke Darstellungsmodelle handelt, wird ihre Leistung häufig durch das Fehlen großer beschrifteter Datensätze, die für überwachtes Training erforderlich sind, beeinträchtigt. Selbstüberwachtes Lernen hat sich als vielversprechendes Paradigma für das Vortraining von GNNs auf unbeschrifteten Diagrammdaten herausgestellt, indem Vorwandaufgaben genutzt werden, die nur die intrinsische Diagrammstruktur und Knotenmerkmale erfordern.
Zu den häufigsten Vorwandaufgaben für das selbstüberwachte GNN-Vortraining gehören:
Vorhersage der Knoteneigenschaft: Zufälliges Maskieren oder Verfälschen eines Teils der Knotenattribute/-merkmale und Beauftragen des GNN mit der Rekonstruktion dieser Knoten.
Edge-/Link-Vorhersage: Lernen, vorherzusagen, ob eine Kante zwischen einem Knotenpaar vorhanden ist, häufig basierend auf zufälliger Kantenmaskierung.
Kontrastives Lernen: Maximierung der Ähnlichkeiten zwischen Diagrammansichten derselben Diagrammprobe, während Ansichten aus verschiedenen Diagrammen auseinandergedrückt werden.
Gegenseitige Informationsmaximierung: Maximierung der gegenseitigen Informationen zwischen lokalen Knotendarstellungen und einer Zieldarstellung wie der globalen Grapheneinbettung.
Vorwandaufgaben wie diese ermöglichen es dem GNN, während des Vortrainings aussagekräftige strukturelle und semantische Muster aus den unbeschrifteten Diagrammdaten zu extrahieren. Das vorab trainierte GNN kann dann auf relativ kleine beschriftete Teilmengen abgestimmt werden, um bei verschiedenen nachgelagerten Aufgaben wie Knotenklassifizierung, Linkvorhersage und Diagrammklassifizierung hervorragende Leistungen zu erbringen.
Durch die Nutzung der Selbstüberwachung weisen GNNs, die auf großen, unbeschrifteten Datensätzen vorab trainiert wurden, eine bessere Generalisierung, Robustheit gegenüber Verteilungsverschiebungen und Effizienz im Vergleich zu einem Training von Grund auf auf. Es bleiben jedoch einige wesentliche Einschränkungen traditioneller GNN-basierter selbstüberwachter Methoden bestehen, die wir als Nächstes mithilfe von LLMs beheben werden.
Verbesserung von Graph ML mit großen Sprachmodellen
Die bemerkenswerten Fähigkeiten von LLMs beim Verstehen natürlicher Sprache, beim Denken und beim Lernen mit wenigen Schüssen bieten Möglichkeiten zur Verbesserung mehrerer Aspekte von Pipelines für maschinelles Graphenlernen. Wir untersuchen einige wichtige Forschungsrichtungen in diesem Bereich:
Eine zentrale Herausforderung bei der Anwendung von GNNs besteht darin, qualitativ hochwertige Merkmalsdarstellungen für Knoten und Kanten zu erhalten, insbesondere wenn diese umfangreiche Textattribute wie Beschreibungen, Titel oder Zusammenfassungen enthalten. Traditionell wurden einfache Wortbeutel oder vorab trainierte Worteinbettungsmodelle verwendet, die häufig nicht in der Lage sind, die nuancierte Semantik zu erfassen.
Jüngste Arbeiten haben die Leistungsfähigkeit der Nutzung großer Sprachmodelle als Textkodierer gezeigt, um bessere Darstellungen von Knoten-/Kantenmerkmalen zu erstellen, bevor sie an das GNN übergeben werden. Zum Beispiel, Chenet al. Verwenden Sie LLMs wie GPT-3, um textuelle Knotenattribute zu kodieren, was bei Knotenklassifizierungsaufgaben erhebliche Leistungssteigerungen gegenüber herkömmlichen Worteinbettungen zeigt.
Über bessere Textkodierer hinaus können LLMs verwendet werden, um auf halbüberwachte Weise erweiterte Informationen aus den ursprünglichen Textattributen zu generieren. BAND generiert potenzielle Beschriftungen/Erklärungen für Knoten mithilfe eines LLM und nutzt diese als zusätzliche erweiterte Funktionen. KEA extrahiert mithilfe eines LLM Begriffe aus Textattributen und erhält detaillierte Beschreibungen für diese Begriffe, um die Funktionen zu erweitern.
Durch die Verbesserung der Qualität und Ausdruckskraft der Eingabemerkmale können LLMs ihre überlegenen Fähigkeiten zum Verstehen natürlicher Sprache an GNNs weitergeben und so die Leistung bei nachgelagerten Aufgaben steigern.
Verringerung der Abhängigkeit von gekennzeichneten Daten
Ein wesentlicher Vorteil von LLMs ist ihre Fähigkeit, neue Aufgaben mit wenigen oder gar keinen gekennzeichneten Daten einigermaßen gut zu bewältigen, dank ihrer Vorschulung an umfangreichen Textkorpora. Diese Fähigkeit zum Lernen mit wenigen Schüssen kann genutzt werden, um die Abhängigkeit von GNNs von großen beschrifteten Datensätzen zu verringern.
Ein Ansatz besteht darin, LLMs zu verwenden, um direkte Vorhersagen zu Diagrammaufgaben zu treffen, indem die Diagrammstruktur und die Knoteninformationen in Eingabeaufforderungen in natürlicher Sprache beschrieben werden. Methoden wie InstructGLM und GPT4Graph Feinabstimmung von LLMs wie LLaMA und GPT-4 mithilfe sorgfältig gestalteter Eingabeaufforderungen, die Details der Diagrammtopologie wie Knotenverbindungen, Nachbarschaften usw. einbeziehen. Die abgestimmten LLMs können dann während der Inferenz Vorhersagen für Aufgaben wie Knotenklassifizierung und Verbindungsvorhersage im Zero-Shot-Verfahren generieren.
Während sich die Verwendung von LLMs als Black-Box-Prädiktoren als vielversprechend erwiesen hat, lässt ihre Leistung bei komplexeren Diagrammaufgaben nach, bei denen eine explizite Modellierung der Struktur von Vorteil ist. Einige Ansätze verwenden daher LLMs in Verbindung mit GNNs – das GNN kodiert die Graphstruktur, während das LLM ein verbessertes semantisches Verständnis von Knoten anhand ihrer Textbeschreibungen ermöglicht.
GraphLLM untersucht zwei Strategien: 1) LLMs als Verstärker, bei denen LLMs Textknotenattribute kodieren, bevor sie an das GNN übergeben werden, und 2) LLMs als Prädiktoren, bei denen das LLM die Zwischendarstellungen des GNN als Eingabe verwendet, um endgültige Vorhersagen zu treffen.
GLEM geht noch einen Schritt weiter und schlägt einen Variations-EM-Algorithmus vor, der zwischen der Aktualisierung der LLM- und GNN-Komponenten zur gegenseitigen Verbesserung wechselt.
Durch die Reduzierung der Abhängigkeit von gekennzeichneten Daten durch Fow-Shot-Funktionen und halbüberwachte Erweiterung können LLM-erweiterte Graph-Learning-Methoden neue Anwendungen erschließen und die Dateneffizienz verbessern.
Verbesserung von LLMs mit Diagrammen
Obwohl LLMs enorm erfolgreich waren, leiden sie immer noch unter wesentlichen Einschränkungen wie Halluzinationen (das Generieren nicht sachlicher Aussagen), mangelnder Interpretierbarkeit in ihrem Argumentationsprozess und der Unfähigkeit, konsistentes Faktenwissen aufrechtzuerhalten.
Diagramme, insbesondere Wissensdiagramme, die strukturierte Sachinformationen aus zuverlässigen Quellen darstellen, bieten vielversprechende Möglichkeiten, diese Mängel zu beheben. Wir untersuchen einige neue Ansätze in dieser Richtung:
Knowledge Graph Enhanced LLM-Vorschulung
Ähnlich wie LLMs auf große Textkorpora vorab trainiert werden, neuere Werke haben versucht, sie vorab mit Wissensgraphen zu trainieren, um ihnen ein besseres Faktenbewusstsein und bessere Denkfähigkeiten zu vermitteln.
Einige Ansätze modifizieren die Eingabedaten, indem sie während des Vortrainings einfach sachliche KG-Tripel mit Text in natürlicher Sprache verketten oder ausrichten. E-BERT richtet KG-Entitätsvektoren mit den Wortstück-Einbettungen von BERT aus, während K-BERT Bäume erstellt, die den Originalsatz und relevante KG-Tripel enthalten.
Die Rolle von LLMs beim maschinellen Lernen von Graphen:
Forscher haben verschiedene Möglichkeiten untersucht, LLMs in die Graph-Learning-Pipeline zu integrieren, jede mit ihren einzigartigen Vorteilen und Anwendungen. Hier sind einige der herausragenden Rollen, die LLMs spielen können:
LLM als Verstärker: Bei diesem Ansatz werden LLMs verwendet, um die mit den Knoten in einem TAG verknüpften Textattribute anzureichern. Die Fähigkeit der LLMs, Erklärungen, Wissensentitäten oder Pseudolabels zu generieren, kann die dem GNN zur Verfügung stehenden semantischen Informationen erweitern und so die Knotendarstellung und die Leistung nachgelagerter Aufgaben verbessern.
Beispielsweise nutzt das TAPE-Modell (Text Augmented Pre-trained Encoders) ChatGPT, um Erklärungen und Pseudobezeichnungen für Zitationsnetzwerkpapiere zu generieren, die dann zur Feinabstimmung eines Sprachmodells verwendet werden. Die resultierenden Einbettungen werden in ein GNN für Knotenklassifizierungs- und Verbindungsvorhersageaufgaben eingespeist, wodurch Ergebnisse auf dem neuesten Stand der Technik erzielt werden.
LLM als Prädiktor: Anstatt die Eingabefunktionen zu verbessern, verwenden einige Ansätze LLMs direkt als Prädiktorkomponente für graphbezogene Aufgaben. Dazu gehört die Konvertierung der Diagrammstruktur in eine Textdarstellung, die vom LLM verarbeitet werden kann, der dann die gewünschte Ausgabe generiert, z. B. Knotenbezeichnungen oder Vorhersagen auf Diagrammebene.
Ein bemerkenswertes Beispiel ist das GPT4Graph-Modell, das Diagramme mithilfe der Graph Modeling Language (GML) darstellt und das leistungsstarke GPT-4 LLM für Zero-Shot-Diagrammbegründungsaufgaben nutzt.
GNN-LLM-Ausrichtung: Eine weitere Forschungsrichtung konzentriert sich auf die Ausrichtung der Einbettungsräume von GNNs und LLMs, um eine nahtlose Integration struktureller und semantischer Informationen zu ermöglichen. Diese Ansätze behandeln GNN und LLM als separate Modalitäten und nutzen Techniken wie kontrastives Lernen oder Destillation, um ihre Darstellungen aufeinander abzustimmen.
Die MolekülSTM Das Modell verwendet beispielsweise ein kontrastives Ziel, um die Einbettungen eines GNN und eines LLM auszurichten, wodurch das LLM strukturelle Informationen aus dem GNN integrieren kann, während das GNN vom semantischen Wissen des LLM profitiert.
Herausforderungen und Lösungen
Während die Integration von LLMs und Graph Learning vielversprechend ist, müssen mehrere Herausforderungen bewältigt werden:
Effizienz und Skalierbarkeit: LLMs sind bekanntermaßen ressourcenintensiv und erfordern oft Milliarden von Parametern und eine immense Rechenleistung für Training und Inferenz. Dies kann ein erheblicher Engpass bei der Bereitstellung von LLM-gestützten Graph-Learning-Modellen in realen Anwendungen sein, insbesondere auf Geräten mit eingeschränkten Ressourcen.
Eine vielversprechende Lösung ist Wissensdestillation, bei dem das Wissen eines großen LLM (Lehrermodell) auf ein kleineres, effizienteres GNN (Schülermodell) übertragen wird.
Datenleck und Auswertung: LLMs werden anhand großer Mengen öffentlich verfügbarer Daten vortrainiert, darunter auch Testdatensätze aus gängigen Benchmark-Datensätzen. Dies kann zu Datenlecks und einer Überschätzung der Leistung führen. Um dieses Problem zu minimieren, sammeln Forscher neue Datensätze oder ziehen Testdaten aus Zeiträumen nach dem Trainingsende des LLMs heran.
Darüber hinaus ist die Festlegung fairer und umfassender Bewertungsmaßstäbe für LLM-gestützte Graph-Learning-Modelle von entscheidender Bedeutung, um deren wahre Fähigkeiten zu messen und aussagekräftige Vergleiche zu ermöglichen.
Übertragbarkeit und Erklärbarkeit: Während sich LLMs durch Zero-Shot- und Few-Shot-Lernen auszeichnen, bleibt ihre Fähigkeit, Wissen über verschiedene Graphdomänen und -strukturen hinweg zu übertragen, eine offene Herausforderung. Die Verbesserung der Übertragbarkeit dieser Modelle ist eine entscheidende Forschungsrichtung.
Darüber hinaus ist die Verbesserung der Erklärbarkeit von LLM-basierten Graph-Learning-Modellen von entscheidender Bedeutung, um Vertrauen aufzubauen und ihre Einführung in anspruchsvollen Anwendungen zu ermöglichen. Nutzung der inhärenten Denkfähigkeiten von LLMs durch Techniken wie Gedankenkette anregen kann zu einer verbesserten Erklärbarkeit beitragen.
Multimodale Integration: Diagramme enthalten oft mehr als nur Textinformationen, wobei Knoten und Kanten möglicherweise mit verschiedenen Modalitäten wie Bildern, Audio oder numerischen Daten verknüpft sind. Die Ausweitung der Integration von LLMs auf diese multimodalen Diagrammeinstellungen bietet eine spannende Gelegenheit für zukünftige Forschung.
Praxisnahe Anwendungen und Fallstudien
Die Integration von LLMs und Graph Machine Learning hat bereits vielversprechende Ergebnisse in verschiedenen realen Anwendungen gezeigt:
Vorhersage molekularer Eigenschaften: Im Bereich der computergestützten Chemie und Arzneimittelentwicklung wurden LLMs eingesetzt, um die Vorhersage molekularer Eigenschaften durch die Einbeziehung von Strukturinformationen aus molekularen Graphen zu verbessern. Der LLM4Mol-ModellBeispielsweise nutzt ChatGPT, um Erklärungen für SMILES-Darstellungen (Simplified Molecular-Input Line-Entry System) von Molekülen zu generieren, die dann zur Verbesserung der Genauigkeit von Eigenschaftenvorhersageaufgaben verwendet werden.
Vervollständigung und Begründung des Wissensgraphen: Wissensgraphen sind eine spezielle Art von Graphstruktur, die reale Entitäten und ihre Beziehungen darstellt. LLMs wurden für Aufgaben wie die Vervollständigung und Argumentation von Wissensgraphen untersucht, bei denen die Graphstruktur und Textinformationen (z. B. Entitätsbeschreibungen) gemeinsam berücksichtigt werden müssen.
Empfehlungssysteme: Im Bereich der Empfehlungssysteme werden Diagrammstrukturen häufig zur Darstellung von Benutzer-Element-Interaktionen verwendet, wobei Knoten Benutzer und Elemente darstellen und Kanten Interaktionen oder Ähnlichkeiten kennzeichnen. LLMs können genutzt werden, um diese Diagramme zu verbessern, indem sie benutzer-/elementseitige Informationen generieren oder Interaktionskanten verstärken.
Fazit
Die Synergie zwischen großen Sprachmodellen und maschinellem Graphenlernen stellt eine spannende Grenze in der Forschung im Bereich der künstlichen Intelligenz dar. Durch die Kombination des strukturellen induktiven Bias von GNNs mit den leistungsstarken semantischen Verständnisfähigkeiten von LLMs können wir neue Möglichkeiten für Graphenlernaufgaben erschließen, insbesondere für textattributierte Graphen.
Obwohl erhebliche Fortschritte erzielt wurden, bleiben Herausforderungen in Bereichen wie Effizienz, Skalierbarkeit, Übertragbarkeit und Erklärbarkeit bestehen. Techniken wie Wissensdestillation, faire Bewertungsbenchmarks und multimodale Integration ebnen den Weg für den praktischen Einsatz von LLM-gestützten Graphenlernmodellen in realen Anwendungen.
Ich habe die letzten fünf Jahre damit verbracht, in die faszinierende Welt des maschinellen Lernens und des Deep Learning einzutauchen. Meine Leidenschaft und mein Fachwissen haben dazu geführt, dass ich an über 50 verschiedenen Software-Engineering-Projekten mitgewirkt habe, mit besonderem Schwerpunkt auf KI/ML. Meine anhaltende Neugier hat mich auch zur Verarbeitung natürlicher Sprache geführt, einem Bereich, den ich gerne weiter erforschen möchte.