Vordenker

Was jeder Data Scientist über Graph-Transformers und ihre Auswirkungen auf strukturierte Daten wissen sollte

Veröffentlicht am 29. August 2025

Aktualisiert am 18. Mai 2026

Von

Dr. Jure Leskovec, Chief Scientist und Co-Founder von Kumo

Ich habe gemeinsam mit anderen Graph-Neuronale-Netze am Stanford entwickelt. Ich erkannte früh, dass diese Technologie unglaublich leistungsfähig war. Jeder Datenpunkt, jede Beobachtung, jedes Stück Wissen existiert nicht in Isolation; es ist Teil eines Graphen, der mit anderen Wissensstücken verbunden ist. Wichtig ist, dass die meisten wertvollen Geschäftsdaten, die oft in Tabellen in Datenbanken und Data-Warenhäusern gespeichert sind, natürlich als Graph dargestellt werden können. Die Nutzung dieser relationalen Struktur ist der Schlüssel zum Bau genauer und nicht-halluzinierender KI-Modelle.

Graph-Neuronale-Netze (GNNs) führten message-passing-Architekturen ein, die über Graphen nachdenken konnten, die Verbindungen zwischen Wissensstücken erfassen.  Aber genau wie Transformer die Sprachverständigung revolutionierten, bringt eine neue Klasse von Modellen, Graph-Transformers, ähnliche Gewinne für graphbasierte Daten. Diese Modelle kombinieren die Flexibilität von Aufmerksamkeitsmechanismen mit strukturellen Graphen-Priorisierungen, um komplexe Beziehungen effektiver als ihre GNN-Vorgänger zu modellieren.

Warum Graphen mehr als Message-Passing benötigen

Traditionelle Graph-Neuronale-Netze (GNNs) verlassen sich auf Message-Passing, ein Prozess, bei dem jeder Knoten seinen internen Zustand aktualisiert, indem er Informationen von seinen Nachbarn aggregiert. Stellen Sie sich vor, dass jeder Knoten Zusammenfassungen mit benachbarten Knoten austauscht und diese Zusammenfassungen verwendet, um sein eigenes Verständnis zu verfeinern. Über mehrere Schichten hinweg ermöglicht dies die Propagation von Informationen durch den Graphen.

Während Message-Passing leistungsstark für das Lernen lokaler Muster ist, hat es wichtige Einschränkungen:

Über-Quetschen: Wenn Informationen über viele Schritte hinweg aggregiert werden, können sie komprimiert werden und wichtige Details verlieren. Dies ist besonders problematisch in tiefen GNNs.
Begrenzter Kontext: Standard-Message-Passing kann nicht leicht lange Abhängigkeiten erfassen, ohne viele Schichten zu verwenden, was die Komplexität und das Rauschen erhöht.
Ausdrucksstärke: Viele Graph-Strukturen können nicht unterschieden werden, indem nur lokale Nachbarschafts-Informationen verwendet werden, was die Modellleistung bei Aufgaben, die feine strukturelle Unterscheidungen erfordern, einschränkt.

Hier kommen Graph-Transformers ins Spiel. Indem sie Message-Passing durch Aufmerksamkeitsmechanismen ersetzen oder ergänzen, ermöglichen sie es jedem Knoten, direkt auf andere Knoten (auch entfernte) zuzugreifen, basierend auf gelernter Bedeutung. Das Ergebnis sind reichere Darstellungen, bessere Skalierbarkeit und die Fähigkeit, über komplexe Strukturen flexibler nachzudenken.

Von GNNs zu Graph-Transformers

Das ursprüngliche Transformer-Modell, das in dem ikonischen Paper Attention Is All You Need vorgestellt wurde, wurde entwickelt, um Beziehungen zwischen Token in einer Sequenz zu modellieren. Sein Erfolg liegt in der Selbst-Aufmerksamkeit, einem Mechanismus, der es jedem Eingabe ermöglicht, jeden anderen Eingabe zu berücksichtigen, gewichtet durch gelernte Relevanz.

Graph-Transformers passen dieses Paradigma an, indem sie es ermöglichen, dass Knoten nicht nur auf ihre Nachbarn, sondern auf jeden Knoten im Graphen achten, entweder durch vollständig verbundene Aufmerksamkeit oder einen hybriden Ansatz, der globale und lokale Signale ausbalanciert. Die Herausforderung besteht darin, eine Vorstellung von Struktur in ein Modell einzuführen, das für unstrukturierte Sequenzen entwickelt wurde.

Graph-spezifische Positionscodierungen

Im Gegensatz zu Texten haben Graphen keine inhärente Reihenfolge, was Positionscodierungen nicht-trivial macht, die sich auf Techniken beziehen, um strukturelle oder ortsbezogene Informationen in ein Modell einzuführen. Graph-Transformers lösen dieses Problem mit verschiedenen Methoden:

Laplacian-Eigenvectors: Abgeleitet aus der Graph-Laplacian-Matrix, bieten sie eine spektrale Einbettung, die die globale Struktur erfasst.
Zufällige Wege: Erfassen die Wahrscheinlichkeit, von einem Knoten zu einem anderen über mehrere Schritte zu gelangen.
Strukturelle Codierungen: Enthalten Abstandsmaße, Knotengrade oder Kantenarten.

Diese Positionscodierungen, ob spektral, wahrscheinlich oder strukturell, geben Graph-Transformers eine Möglichkeit, zu verstehen, wo jeder Knoten im breiteren Graphen sitzt. Dieses strukturelle Bewusstsein ist entscheidend, um Aufmerksamkeitsmechanismen sinnvoll über unregelmäßige, ungeordnete Daten zu betreiben, letztendlich ermöglicht es dem Modell, Beziehungen zu erfassen, die für einfachere, rein lokale Methoden unsichtbar wären.

Reale Implementierungen und Anwendungsfälle

Die Implementierung von Graph-Transformers in der Produktion erfordert eine Infrastruktur, die auf reale Datengrößen skaliert. Bibliotheken wie PyTorch Geometric (PyG) machen dies möglich. PyG bietet ein modulares Framework für die Implementierung von GNNs und Graph-Transformers in einer Vielzahl von Anwendungen, von Molekül-Modellierung bis hin zu Empfehlungssystemen. Es unterstützt Mini-Batch-Training auf vielen kleinen Graphen und einzelnen großen Graphen, mit Multi-GPU- und torch.compile-Unterstützung, was es für Forschung und Unternehmens-Workflows gleichermaßen geeignet macht.

Diese Tools werden bereits in einer Vielzahl von realen Anwendungen eingesetzt. In der Arzneimittelentdeckung helfen Graph-Transformers, molekulare Eigenschaften vorherzusagen, indem sie atomare Wechselwirkungen als Graphen modellieren. In der Logistik und der Lieferkettenerweiterung können sie dynamische Netzwerke von Sendungen, Lagerhäusern und Routen darstellen und darüber nachdenken. E-Commerce-Unternehmen nutzen sie, um Empfehlungen zu verbessern, indem sie Co-Kauf- und Browsing-Verhalten als relationale Graphen verstehen. Und in der Cybersicherheit werden graphbasierte Modelle verwendet, um Anomalien zu erkennen, indem sie Zugriffsmuster, Netzwerktopologie und Ereignissequenzen analysieren.

In jedem dieser Szenarien hat die Fähigkeit, von komplexen, vernetzten Strukturen zu lernen, ohne sich ausschließlich auf handgefertigte Merkmale zu verlassen, sich als bedeutender Vorteil erwiesen.

Technische Überlegungen

Trotz ihres Potenzials haben Graph-Transformers reale technische Kompromisse. Vollständige Selbst-Aufmerksamkeit skaliert quadratisch mit der Anzahl der Knoten, was Speicher- und Recheneffizienz zu einem Top-Anliegen macht, insbesondere für große oder dichte Graphen. Viele reale Graphen haben auch gerichtete Kanten, was Asymmetrien einführt, die die Art und Weise komplizieren, wie strukturelle Informationen kodiert werden. Und in praktischen Bereitstellungen sind Eingaben selten einheitlich: Die Kombination von graphstrukturierten Daten mit Text, Zeitreihen oder Bildern erfordert sorgfältige architektonische Entscheidungen und robuste Daten-Vorverarbeitung.

Diese Herausforderungen sind nicht unüberwindbar, aber sie erfordern eine sorgfältige System-Entwicklung, insbesondere wenn man von Forschungs-Prototypen zu produktionsreifen Modellen wechselt.

Was kommt als Nächstes: LLMs treffen auf Graphen

Eine wichtige Forschungsrichtung ist die Integration von großen Sprachmodellen (LLMs) mit Graph-Strukturen. Diese hybriden Systeme verwenden LLMs, um textuelle Kontexte zu kodieren oder Entitäten zu extrahieren, und verankern dann diese Informationen in einem Graphen für Nachdenken und Entscheidungsfindung.

In der Biologie hat dies Werkzeuge wie AlphaFold ermöglicht. In der Unternehmens-KI ermöglicht es Kundensupport-Systeme, die Dokumentation und Verhaltens-Graphen kombinieren. Graph-Transformers spielen auch eine zunehmend wichtige Rolle bei der Ermöglichung von KI-Agenten, die intelligenter und handlungsfähiger werden, indem sie es ihnen ermöglichen, über strukturierte Zustands-Darstellungen nachzudenken und Interaktionen dynamisch zu priorisieren. Diese Fusion hilft Agenten, hierarchische Beziehungen besser zu verstehen, Abhängigkeiten über die Zeit zu verfolgen und ihr Verhalten in komplexen Umgebungen anzupassen.

Das Feld ist noch im Entstehen, aber das Potenzial ist erheblich.

Schlussfolgerung

Graph-Transformers sind nicht nur die nächste Iteration von GNNs; sie stellen eine Konvergenz von Aufmerksamkeit, Struktur und Skalierbarkeit dar. Egal, ob Sie in der Finanzwirtschaft, der Lebenswissenschaft oder den Empfehlungssystemen arbeiten, die Botschaft ist klar: Ihre Daten bilden einen Graphen, also sollten Ihre Modelle dies auch tun.

Dr. Jure Leskovec, Chief Scientist und Co-Founder von Kumo

Dr. Jure Leskovec ist der Chief Scientist und Co-Founder von Kumo, einem führenden predictiven AI-Unternehmen. Er ist Professor für Informatik an der Stanford University, wo er über 15 Jahre lang unterrichtet hat. Jure hat Graph Neural Networks mitentwickelt und hat seine Karriere der Weiterentwicklung der Fähigkeit von künstlicher Intelligenz gewidmet, aus vernetzten Informationen zu lernen. Zuvor war er als Chief Scientist bei Pinterest tätig und hat preisgekrönte Forschungen bei Yahoo und Microsoft durchgeführt.