Grafiska datastrukturer representerar komplexa relationer inom en mängd olika domäner, inklusive sociala nätverk, kunskapsbaser, biologiska system och många fler. I dessa grafer representeras entiteter som noder och deras relationer som kanter.
Förmågan att effektivt representera och resonera om dessa intrikata relationella strukturer är avgörande för att möjliggöra framsteg inom områden som nätverksvetenskap, kemoinformatik och rekommendationssystem.
Grafneurala nätverk (GNN) har uppstått som en kraftfull djupinlärningsram för grafmaskinlärning. Genom att inkorporera graftopologin i neurala nätverksarkitekturen genom grannsamsammanfogning eller grafkonvolutioner kan GNN lära sig lågdimensionella vektorkompositioner som kodar både nodfunktioner och deras strukturroller. Detta möjliggör för GNN att uppnå toppprestationer på uppgifter som nodklassificering, länkprediktion och grafklassificering över olika tillämpningsområden.
Medan GNN har drivit betydande framsteg, kvarstår vissa nyckelutmaningar. Att erhålla högkvalitativa märkta data för utbildning av övervakade GNN-modeller kan vara dyrt och tidskrävande. Dessutom kan GNN ha svårt med heterogena grafstrukturer och situationer där grafens fördelning vid testtid skiljer sig avsevärt från utbildningsdata (ut-ur-fördelningsgeneralisering).
I samma anda har stora språkmodeller (LLM) som GPT-4 och LLaMA tagit världen med storm med sin otroliga naturliga språkförståelse och genereringsförmåga. Tränade på enorma textkorpusar med miljarder parametrar, uppvisar LLM remarkabla få-skott-lärande-förmågor, generalisering över uppgifter och sunt förnuftsförmågor som tidigare ansågs vara extremt utmanande för AI-system.
Den enorma framgången med LLM har katalyserat undersökningar om att utnyttja deras kraft för grafmaskinlärningsuppgifter. Å ena sidan presenterar LLM:s kunskap och resonemangsförmågor möjligheter att förbättra traditionella GNN-modeller. Å andra sidan kunde de strukturerade representationerna och faktiska kunskapen som är inneboende i grafer vara avgörande för att hantera vissa nyckelbegränsningar hos LLM, såsom hallucinationer och brist på tolkbarhet.
Grafneurala nätverk och självinlärning
För att ge den nödvändiga kontexten kommer vi först att kortfattat gå igenom de centrala begreppen och metoderna i grafneurala nätverk och självinlärning för grafrepresentation.
Den viktigaste skillnaden mellan traditionella djupa neurala nätverk och GNN ligger i deras förmåga att direkt operera på grafstrukturerad data. GNN följer en grannsamsammanfogningsschema, där varje nod sammanslår funktionella vektorer från sina grannar för att beräkna sin egen representation.
Mer nyligen har graftransformatorer blivit populära genom att anpassa självuppmärksamhetsmekanismen från naturliga språktransformatorer för att operera på grafstrukturerad data. Några exempel inkluderar GraphormerTransformer och GraphFormers. Dessa modeller kan fånga långväga beroenden över grafen bättre än renodlade grannbaserade GNN.
Självinlärning på grafer
Medan GNN är kraftfulla representationsmodeller, är deras prestationer ofta flaskhalsade av bristen på stora märkta dataset som krävs för övervakad utbildning. Självinlärning har uppstått som ett lovande paradigm för att förutbilda GNN på omärkta grafdata genom att utnyttja pretextuppgifter som endast kräver den inbyggda grafstrukturen och nodfunktionerna.
Några vanliga pretextuppgifter som används för självinlärning av GNN förutbildning inkluderar:
Nod Egenskapsprediktion: Slumpmässigt maskering eller korruption av en del av nodattributen/funktionerna och uppgiften att rekonstruera dem.
Kant/Länkprediktion: Lärande att förutsäga om en kant existerar mellan ett par noder, ofta baserat på slumpmässig kantmaskering.
Kontrastiv inlärning: Maximera likheter mellan grafvyer av samma grafsample medan man trycker isär vyerna från olika grafer.
Ömsesidig informationsmaximering: Maximera den ömsesidiga informationen mellan lokala nodrepresentationer och en målrepresentation som den globala grafinkapslingen.
Pretextuppgifter som dessa tillåter GNN att extrahera meningsfulla strukturerade och semantiska mönster från de omärkta grafdata under förutbildning. Den förutbildade GNN kan sedan finjusteras på relativt små märkta undermängder för att excellera på olika nedströmsuppgifter som nodklassificering, länkprediktion och grafklassificering.
Genom att utnyttja självinlärning, uppvisar GNN som förutbildats på stora omärkta dataset bättre generalisering, robusthet mot distributionsförändringar och effektivitet jämfört med utbildning från scratch. Men vissa nyckelbegränsningar av traditionella GNN-baserade självinlärningsmetoder kvarstår, vilka vi kommer att undersöka med hjälp av LLM för att hantera nästa.
De remarkabla förmågorna hos LLM i att förstå naturligt språk, resonera och få-skott-lära presenterar möjligheter att förbättra flera aspekter av grafmaskinlärningspipeliner. Vi undersöker några viktiga forskningsriktningar i detta område:
En nyckelutmaning i att tillämpa GNN är att erhålla högkvalitativa funktionsrepresentationer för noder och kanter, särskilt när de innehåller rika textattribut som beskrivningar, titlar eller sammanfattningar. Traditionellt har enkla bag-of-words eller förutbildade ordinbäddningsmodeller använts, som ofta misslyckas med att fånga den nyanserade semantiken.
Nya arbeten har demonstrerat kraften i att utnyttja stora språkmodeller som textkodare för att konstruera bättre nod-/kantfunktionsrepresentationer innan de skickas till GNN. Till exempel använder Chen et al. LLM som GPT-3 för att koda textattribut för noder, visar betydande prestandaförbättringar jämfört med traditionella ordinbäddningar på nodklassificeringsuppgifter.
Utöver bättre textkodare kan LLM användas för att generera förstärkt information från de ursprungliga textattributen på ett semiovervakat sätt. TAPE genererar potentiella etiketter/förklaringar för noder med hjälp av en LLM och använder dessa som ytterligare förstärkta funktioner. KEA extraherar termer från textattribut med hjälp av en LLM och erhåller detaljerade beskrivningar för dessa termer för att förstärka funktioner.
Genom att förbättra kvaliteten och uttrycksfullheten hos ingångsfunktionerna kan LLM förmedla sin överlägsna naturliga språkförståelseförmåga till GNN, vilket förbättrar prestandan på nedströmsuppgifter.
Lindra beroendet av märkt data
En nyckelfördel med LLM är deras förmåga att prestera rimligt väl på nya uppgifter med lite till ingen märkt data, tack vare deras förutbildning på stora textkorpusar. Denna få-skott-lärande-förmåga kan utnyttjas för att lindra GNN:s beroende av stora märkta dataset.
En strategi är att använda LLM för att direkt göra förutsägelser på grafuppgifter genom att beskriva grafstrukturen och nodinformationen i naturliga språkliga prompter. Metoder som InstructGLM och GPT4Graph finjusterar LLM som LLaMA och GPT-4 med hjälp av noggrant utformade prompter som inkorporerar graftopologidetaljer som nodanslutningar, grannskap etc. De justerade LLM kan sedan generera förutsägelser för uppgifter som nodklassificering och länkprediktion på ett noll-skott-sätt under inferens.
Medan att använda LLM som svarta lådor-prediktorer har visat löfte, försämras deras prestanda för mer komplexa grafuppgifter där explicit modellering av strukturen är fördelaktig. Vissa strategier använder därför LLM i kombination med GNN – GNN koder grafstrukturen medan LLM tillhandahåller förbättrad semantisk förståelse av noder från deras textbeskrivningar.
GraphLLM undersöker två strategier: 1) LLM som förstärkare där LLM kodar textattribut för noder innan de skickas till GNN, och 2) LLM som prediktor där LLM tar GNN:s mellanliggande representationer som indata för att göra slutgiltiga förutsägelser.
GLEM går längre genom att föreslå en variational EM-algoritm som alternerar mellan uppdatering av LLM- och GNN-komponenter för ömsesidig förbättring.
Genom att minska beroendet av märkt data genom få-skott-förmåga och semiovervakad förstärkning, kan LLM-förbättrade graf-lärande metoder låsa upp nya tillämpningar och förbättra dataeffektivitet.
Förbättring av LLM med grafer
Medan LLM har varit oerhört framgångsrika, lider de fortfarande av nyckelbegränsningar som hallucinationer (generering av icke-faktiska uttalanden), brist på tolkbarhet i deras resonemang och oförmåga att upprätthålla konsekvent faktisk kunskap.
Grafer, särskilt kunskapsgrafer som representerar strukturerad faktisk information från tillförlitliga källor, presenterar lovande vägar för att hantera dessa brister. Vi undersöker några framväxande tillvägagångssätt i denna riktning:
Kunskapsgraf-förbättrad LLM-förutbildning
Liknande hur LLM förutbildas på stora textkorpusar, har nya arbeten undersökt förutbildning av dem på kunskapsgrafer för att ge bättre faktisk medvetenhet och resonemangsförmågor.
Vissa strategier modifierar indata genom att enkelt konkatenera eller justera faktiska KG-trippar med naturligt språk under förutbildning. E-BERT justerar KG-entitetsvektorer med BERT:s ordstycksinbäddningar, medan K-BERT konstruerar träd som innehåller den ursprungliga meningen och relevanta KG-trippar.
LLM:s roll i grafmaskinlärning:
Forskare har undersökt flera sätt att integrera LLM i graf-lärandepipelinen, var och en med sina unika fördelar och tillämpningar. Här är några av de framträdande rollerna LLM kan spela:
LLM som förstärkare: I denna strategi används LLM för att berika de textattribut som är associerade med noderna i en TAG. LLM:s förmåga att generera förklaringar, kunskapsentiteter eller pseudotiketter kan förstärka den semantiska informationen som är tillgänglig för GNN, vilket leder till förbättrade nodrepresentationer och nedströmsuppgiftsprestanda.
Till exempel använder TAPE-modellen (Text Augmented Pre-trained Encoders) ChatGPT för att generera förklaringar och pseudotiketter för citeringsnätverkspapper, som sedan används för att finjustera ett språkmodell. De resulterande inbäddningarna matas in i en GNN för nodklassificerings- och länkprediktionuppgifter, och uppnår toppprestationer.
LLM som prediktor: Istället för att förstärka ingångsfunktionerna, använder vissa strategier LLM direkt som prediktor-komponent för grafrelaterade uppgifter. Detta innebär att omvandla grafstrukturen till en textuell representation som kan bearbetas av LLM, som sedan genererar den önskade utgången, som nodetiketter eller graf-nivå-prediktioner.
Ett anmärkningsvärt exempel är GPT4Graph-modellen, som representerar grafer med hjälp av Graph Modelling Language (GML) och utnyttjar den kraftfulla GPT-4 LLM för noll-skott-graf-resonemangsuppgifter.
GNN-LLM-justering: En annan forskningsriktning fokuserar på att justera inbäddningsutrymmena för GNN och LLM, vilket möjliggör en smidig integration av strukturerad och semantisk information. Dessa strategier behandlar GNN och LLM som separata modaliteter och använder tekniker som kontrastiv inlärning eller destillering för att justera deras representationer.
MoleculeSTM-modellen, till exempel, använder en kontrastiv objektiv för att justera inbäddningarna för en GNN och en LLM, vilket möjliggör för LLM att inkorporera strukturinformation från GNN medan GNN drar nytta av LLM:s semantiska kunskap.
Utmaningar och lösningar
Medan integrationen av LLM och graf-lärande har visat löfte, kvarstår flera utmaningar som måste hanteras:
Effektivitet och skalbarhet: LLM är notoriskt resurskrävande, ofta krävande miljarder parametrar och enorm beräkningskraft för utbildning och inferens. Detta kan vara en betydande flaskhals för att distribuera LLM-förbättrade graf-lärande-modeller i realvärldstillämpningar, särskilt på resursbegränsade enheter.
En lovande lösning är kunskapsdestillering, där kunskapen från en stor LLM (lärar-modell) överförs till en mindre, mer effektiv GNN (elev-modell).
Data-läckage och utvärdering: LLM är förutbildade på stora mängder offentligt tillgängliga data, som kan inkludera testuppsättningar från vanliga benchmark-dataset, vilket kan leda till potentiellt data-läckage och överestimerad prestanda. Forskare har börjat samla in nya dataset eller sampla testdata från tidsperioder efter LLM:s utbildningsavslut för att mildra detta problem.
Dessutom är det avgörande att etablera rättvisa och omfattande utvärderingsbenchmark för LLM-förbättrade graf-lärande-modeller för att mäta deras faktiska förmågor och möjliggöra meningsfulla jämförelser.
Överförbarhet och tolkbarhet: Medan LLM excellerar i få-skott-lärande, kvarstår deras förmåga att överföra kunskap över olika graf-domäner och strukturer som en öppen utmaning. Att förbättra överförbarheten hos dessa modeller är en kritisk forskningsriktning.
Dessutom är det avgörande att förbättra tolkbarheten hos LLM-baserade graf-lärande-modeller för att bygga förtroende och möjliggöra deras antagande i högrisktillämpningar. Att utnyttja de inbyggda resonemangsförmågorna hos LLM genom tekniker som kedje-av-tankar-promptning kan bidra till förbättrad tolkbarhet.
Flervägs-integration: Grafer innehåller ofta mer än bara textuell information, med noder och kanter som potentiellt associerade med olika modaliteter, såsom bilder, ljud eller numeriska data. Att utöka integrationen av LLM till dessa flervägs-graf-inställningar presenterar en spännande möjlighet för framtida forskning.
Verkliga tillämpningar och fallstudier
Integrationen av LLM och graf-lärande har redan visat löfte i olika verkliga tillämpningar:
Molekyl-egenskaps-prediktion: Inom området beräkningskemi och läkemedelsupptäckt, har LLM använts för att förbättra prediktionen av molekyl-egenskaper genom att inkorporera strukturinformation från molekylgrafer. LLM4Mol-modellen, till exempel, använder ChatGPT för att generera förklaringar för SMILES (Simplified Molecular-Input Line-Entry System)-representationer av molekyler, vilket visar betydande prestandaförbättringar på egenskaps-prediktion-uppgifter.
Kunskapsgraf-komplettering och resonemang: Kunskapsgrafer är en speciell typ av grafstruktur som representerar verkliga entiteter och deras relationer. LLM har undersökts för uppgifter som kunskapsgraf-komplettering och resonemang, där grafstrukturen och textuell information (t.ex. entitetsbeskrivningar) måste beaktas gemensamt.
Rekommendationssystem: Inom området rekommendationssystem, används grafstrukturer ofta för att representera användar-artikel-interaktioner, med noder som representerar användare och artiklar, och kanter som indikerar interaktioner eller likheter. LLM kan utnyttjas för att förbättra dessa grafer genom att generera användar-/artikel-sidoinformation eller förstärka interaktionskanter.
Slutsats
Synergien mellan stora språkmodeller och graf-maskinlärning presenterar en spännande front i artificiell intelligens-forskning. Genom att kombinera den strukturerade induktiva biasen hos GNN med den kraftfulla semantiska förståelsen hos LLM, kan vi låsa upp nya möjligheter i graf-lärande-uppgifter, särskilt för text-attribuerade grafer.
Medan betydande framsteg har gjorts, kvarstår utmaningar inom områden som effektivitet, skalbarhet, överförbarhet och tolkbarhet. Tekniker som kunskapsdestillering, rättvisa utvärderingsbenchmark och flervägs-integration banar väg för praktisk distribution av LLM-förbättrade graf-lärande-modeller i verkliga tillämpningar.
Jag har under de senaste fem åren dykt ner i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika mjukvaruutvecklingsprojekt, med särskild fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är angelägen om att utforska vidare.