Grafiska strukturer är datastrukturer som representerar komplexa relationer inom en mängd olika områden, inklusive sociala nätverk, kunskapsbaser, biologiska system och många fler. I dessa grafer representeras entiteter som noder och deras relationer som kanter.
Förmågan att effektivt representera och resonera om dessa intrikata relationella strukturer är avgörande för att möjliggöra framsteg inom områden som nätverksvetenskap, kemoinformatik och rekommendationssystem.
Grafneuronnät (GNN) har uppstått som en kraftfull djupinlärningsram för grafmaskinlärning. Genom att inkorporera grafens topologi i neuronnätets arkitektur genom grannsamsammanfogning eller grafkonvolutioner kan GNN lära sig lågdimensionella vektormodeller som kodar både nodfunktioner och deras struktureroller. Detta möjliggör för GNN att uppnå toppprestationer på uppgifter som nodklassificering, länkprediktion och grafklassificering inom olika tillämpningsområden.
Medan GNN har drivit betydande framsteg, kvarstår vissa nyckelutmaningar. Att erhålla högkvalitativa märkta data för utbildning av övervakade GNN-modeller kan vara dyrt och tidskrävande. Dessutom kan GNN ha svårt med heterogena grafstrukturer och situationer där grafens fördelning vid testtid skiljer sig avsevärt från utbildningsdata (ut-av-fördelningsgeneralisering).
I samma takt har stora språkmodeller (LLM) som GPT-4 och LLaMA tagit världen med storm med sin otroliga naturliga språkförståelse och genereringsförmåga. Tränade på enorma textkorpusar med miljarder parametrar visar LLM enastående få-skottslärande förmågor, generalisering över uppgifter och sunt förnuft som tidigare ansågs vara extremt utmanande för AI-system.
Den enorma framgången med LLM har katalyserat undersökningar om att utnyttja deras kraft för grafmaskinlärning. Å ena sidan presenterar LLM:s kunskap och resonemangsförmåga möjligheter att förbättra traditionella GNN-modeller. Å andra sidan kan de strukturerade representationerna och faktiska kunskapen som är inneboende i grafer vara avgörande för att hantera vissa nyckelbegränsningar hos LLM, såsom hallucinationer och brist på tolkbarhet.
Grafneuronnät och Självständig Inlärning
För att ge den nödvändiga kontexten kommer vi först att kort översiktligt beskriva de grundläggande begreppen och metoderna i grafneuronnät och självständig grafrepresentationinlärning.
Den viktigaste skillnaden mellan traditionella djupinlärningsnät och GNN ligger i deras förmåga att direkt operera på grafstrukturerad data. GNN följer en grannsamsammanfogningsschema, där varje nod sammanfogar funktionella vektorer från sina grannar för att beräkna sin egen representation.
Mer nyligen har graftransformatorer blivit populära genom att anpassa självuppmärksamhetsmekanismen från naturliga språktransformatorer för att fungera på grafstrukturerad data. Exempel på sådana modeller är GraphormerTransformer och GraphFormers. Dessa modeller kan fånga långväga beroenden över grafen bättre än renodlade grannbaserade GNN.
Självständig Inlärning på Grafer
Medan GNN är kraftfulla representationsmodeller, är deras prestationer ofta begränsade av bristen på stora märkta datamängder som krävs för övervakad utbildning. Självständig inlärning har uppstått som ett lovande paradigm för att förutbilda GNN på omarkerad grafdata genom att utnyttja förtextuppgifter som endast kräver den inbyggda grafstrukturen och nodfunktioner.
Vissa vanliga förtextuppgifter som används för självständig GNN-förutbildning inkluderar:
Nod Egenskapsprediktion: Slumpmässigt maskera eller korrumpera en del av nodattributen/funktionerna och uppgiften är att rekonstruera dem.
Kant/Länkprediktion: Lära sig att förutsäga om en kant finns mellan ett par noder, ofta baserat på slumpmässig kantmaskering.
Kontrastiv Inlärning: Maximera likheter mellan grafvyer av samma grafexempel medan man trycker isär vyer från olika grafer.
Ömsesidig Information Maximering: Maximera den ömsesidiga informationen mellan lokala nodrepresentationer och en målrepresentation som den globala grafinbäddningen.
Förtextuppgifter som dessa tillåter GNN att extrahera meningsfulla strukturerade och semantiska mönster från den omarkerade grafdata under förutbildning. Den förutbildade GNN kan sedan finjusteras på relativt små märkta undermängder för att excellera på olika nedströmsuppgifter som nodklassificering, länkprediktion och grafklassificering.
Genom att utnyttja självständig inlärning, visar GNN som förutbildats på stora omarkerade datamängder bättre generalisering, robusthet mot fördelningsförändringar och effektivitet jämfört med utbildning från scratch. Det finns dock fortfarande vissa nyckelbegränsningar för traditionella GNN-baserade självständiga metoder, som vi kommer att undersöka med hjälp av LLM för att hantera nästa.
De remarkabla förmågorna hos LLM i att förstå naturligt språk, resonera och lära sig få skott presenterar möjligheter att förbättra flera aspekter av grafmaskinlärningspipeliner. Vi undersöker några viktiga forskningsriktningar i detta område:
En nyckelutmaning i att tillämpa GNN är att erhålla högkvalitativa funktionella representationer för noder och kanter, särskilt när de innehåller rika textattribut som beskrivningar, titlar eller sammanfattningar. Traditionellt har enkla bag-of-words eller förutbildade ordinbäddningsmodeller använts, som ofta inte kan fånga den nyanserade semantiken.
Nya arbeten har demonstrerat kraften i att utnyttja stora språkmodeller som textkodare för att konstruera bättre nod/kanthuvudrepresentationsmodeller innan de skickas till GNN. Till exempel använder Chen et al. LLM som GPT-3 för att koda textattribut för noder, vilket visar betydande prestandaförbättringar jämfört med traditionella ordinbäddningar på nodklassificeringsuppgifter.
Utöver bättre textkodare kan LLM användas för att generera förstärkt information från de ursprungliga textattributen på ett semiovervakat sätt. TAPE genererar potentiella etiketter/förklaringar för noder med hjälp av en LLM och använder dessa som ytterligare förstärkta funktioner. KEA extraherar termer från textattribut med hjälp av en LLM och erhåller detaljerade beskrivningar för dessa termer för att förstärka funktioner.
Genom att förbättra kvaliteten och uttryckskraften hos indatafunktioner kan LLM förmedla sin överlägsna naturliga språkförståelse till GNN, vilket förbättrar prestandan på nedströmsuppgifter.
Lindring av Beroende av Märkta Data
En nyckelfördel med LLM är deras förmåga att prestera rimligt väl på nya uppgifter med lite till ingen märkt data, tack vare deras förutbildning på enorma textkorpusar. Denna få-skottslärande förmåga kan utnyttjas för att lindra GNN:s beroende av stora märkta datamängder.
En strategi är att använda LLM direkt för att göra förutsägelser på grafuppgifter genom att beskriva grafstrukturen och nodinformationen i naturliga språkliga prompter. Metoder som InstructGLM och GPT4Graph finjusterar LLM som LLaMA och GPT-4 med hjälp av noggrant utformade prompter som inkorporerar graftopologidetaljer som nodanslutningar, grannskap etc. De finjusterade LLM kan sedan generera förutsägelser för uppgifter som nodklassificering och länkprediktion på ett nollskottssätt under inferens.
Medan användning av LLM som svarta lådor-prediktorer har visat löfte, försämras deras prestanda för mer komplexa grafuppgifter där explicit modellering av strukturen är fördelaktig. Vissa strategier använder därför LLM i kombination med GNN – GNN koder grafstrukturen medan LLM tillhandahåller förbättrad semantisk förståelse av noder från deras textbeskrivningar.
GraphLLM undersöker två strategier: 1) LLM som förstärkare där LLM koder textattribut för noder innan de skickas till GNN, och 2) LLM som prediktor där LLM tar GNN:s mellanliggande representationer som indata för att göra slutgiltiga förutsägelser.
GLEM föreslår ett variabelt EM-algoritm som alternerar mellan uppdatering av LLM- och GNN-komponenter för ömsesidig förbättring.
Genom att minska beroendet av märkta data genom få-skottsförmåga och semiovervakad förstärkning, kan LLM-förbättrade grafmodeller låsa upp nya tillämpningar och förbättra dataeffektivitet.
Förbättring av LLM med Grafer
Medan LLM har varit extremt framgångsrika, lider de fortfarande av vissa nyckelbegränsningar som hallucinationer (generering av icke-faktiska uttalanden), brist på tolkbarhet i deras resonemang och oförmåga att upprätthålla konsekvent faktisk kunskap.
Grafer, särskilt kunskapsgrafer som representerar strukturerad faktisk information från tillförlitliga källor, presenterar lovande vägar för att hantera dessa brister. Vi undersöker några framväxande tillvägagångssätt i denna riktning:
Kunskapsgraf förbättrad LLM-förutbildning
På samma sätt som LLM förutbildas på stora textkorpusar, har nya arbeten undersökt förutbildning av dem på kunskapsgrafer för att införa bättre faktisk medvetenhet och resonemangsförmåga.
Vissa tillvägagångssätt modifierar indata genom att enkelt konkatenera eller justera faktiska KG-tripletter med naturligt språk under förutbildning. E-BERT justerar KG-entitetsvektorer med BERT:s wordpiece-inbäddningar, medan K-BERT konstruerar träd som innehåller den ursprungliga meningen och relevanta KG-tripletter.
LLM:s roll i Grafmaskinlärning:
Forskare har undersökt flera sätt att integrera LLM i grafmaskinlärningspipelinen, var och en med sina unika fördelar och tillämpningar. Här är några av de framträdande rollerna som LLM kan spela:
LLM som förstärkare: I detta tillvägagångssätt används LLM för att berika de textattribut som är associerade med noderna i en TAG. LLM:s förmåga att generera förklaringar, kunskapsentiteter eller pseudetiketter kan förstärka den semantiska informationen som finns tillgänglig för GNN, vilket leder till förbättrade nodrepresentationer och nedströmsuppgiftsprestation.
Till exempel använder TAPE-modellen ChatGPT för att generera förklaringar och pseudetiketter för citeringsnätverksartiklar, som sedan används för att finjustera ett språkmodell. De resulterande inbäddningarna matas in i en GNN för nodklassificerings- och länkprediktionuppgifter, vilket uppnår toppprestationer.
LLM som prediktor: Istället för att förstärka indatafunktionerna, använder vissa tillvägagångssätt LLM direkt som prediktor-komponenten för grafrelaterade uppgifter. Detta innebär att omvandla grafstrukturen till en textuell representation som kan bearbetas av LLM, som sedan genererar önskad utdata, såsom nodetiketter eller graf-nivåprediktioner.
Ett anmärkningsvärt exempel är GPT4Graph-modellen, som representerar grafer med hjälp av Graph Modelling Language (GML) och utnyttjar den kraftfulla GPT-4 LLM för nollskottgrafresonemangs-uppgifter.
GNN-LLM-justering: En annan forskningsriktning fokuserar på att justera inbäddningsutrymmena för GNN och LLM, vilket möjliggör en sömlös integration av strukturerad och semantisk information. Dessa tillvägagångssätt behandlar GNN och LLM som separata modaliteter och använder tekniker som kontrastiv inlärning eller destillering för att justera deras representationer.
MolekylSTM-modellen, till exempel, använder ett kontrastivt mål för att justera inbäddningarna för en GNN och en LLM, vilket möjliggör för LLM att inkorporera strukturinformation från GNN medan GNN drar nytta av LLM:s semantiska kunskap.
Utmaningar och Lösningar
Medan integrationen av LLM och grafmaskinlärning har visat stort löfte, finns det flera utmaningar som måste hanteras:
Effektivitet och Skalbarhet: LLM är notoriskt resurskrävande, ofta krävande miljarder parametrar och enorm beräkningskraft för utbildning och inferens. Detta kan vara en betydande flaskhals för distribution av LLM-förbättrade grafmaskinlärningsmodeller i realvärldstillämpningar, särskilt på resursbegränsade enheter.
En lovande lösning är kunskapsdestillering, där kunskapen från en stor LLM (lärarmodell) överförs till en mindre, mer effektiv GNN (elevmodell).
Data Läckage och Utvärdering: LLM är förutbildade på enorma mängder offentligt tillgängliga data, som kan inkludera testuppsättningar från vanliga benchmark-datasets, vilket leder till potentiellt data-läckage och överdriven prestanda. Forskare har börjat samla in nya dataset eller sampla testdata från tidsperioder efter LLM:s utbildningsavslut för att mildra detta problem.
Dessutom är det avgörande att etablera rättvisa och omfattande utvärderingsbenchmark för LLM-förbättrade grafmaskinlärningsmodeller för att mäta deras verkliga förmågor och möjliggöra meningsfulla jämförelser.
Överförbarhet och Tolkningsbarhet: Medan LLM excellerar i nollskott- och fåskottslärande, kvarstår deras förmåga att överföra kunskap över olika grafdomäner och strukturer som en öppen utmaning. Att förbättra överförbarheten hos dessa modeller är en kritisk forskningsriktning.
Dessutom är det avgörande att förbättra tolkningsbarheten hos LLM-baserade grafmaskinlärningsmodeller för att bygga förtroende och möjliggöra deras antagande i högrisktillämpningar. Att utnyttja de inbyggda resonemangsförmågorna hos LLM genom tekniker som kedjeresonemangspromptning kan bidra till förbättrad tolkningsbarhet.
Flervärldig Integration: Grafer innehåller ofta mer än bara textuell information, med noder och kanter som potentiellt är associerade med olika modaliteter, såsom bilder, ljud eller numeriska data. Att utöka integrationen av LLM till dessa flervärldiga grafkontext presenterar en spännande möjlighet för framtida forskning.
Verkliga Tillämpningar och Fallstudier
Integrationen av LLM och grafmaskinlärning har redan visat lovande resultat i olika verkliga tillämpningar:
Molekylägenskapsprediktion: Inom området beräkningskemi och läkemedelsupptäckt har LLM använts för att förbättra prediktionen av molekylägenskaper genom att inkorporera strukturinformation från molekylgrafer. LLM4Mol-modellen, till exempel, använder ChatGPT för att generera förklaringar för SMILES (Simplified Molecular-Input Line-Entry System) representationer av molekyler, som sedan används för att förbättra noggrannheten för ägenskapsprediktion.
Kunskapsgrafkomplettering och Resonemang: Kunskapsgrafer är en specialtyp av grafstruktur som representerar verkliga entiteter och deras relationer. LLM har undersökts för uppgifter som kunskapsgrafkomplettering och resonemang, där grafstrukturen och textuell information (t.ex. entitetsbeskrivningar) måste beaktas gemensamt.
Rekommendationssystem: Inom området rekommendationssystem används grafstrukturer ofta för att representera användar-artikelsamspel, med noder som representerar användare och artiklar, och kanter som representerar samspel eller likheter. LLM kan användas för att förbättra dessa grafer genom att generera användar/artikelsidinformation eller förstärka samspelskanter.
Slutsats
Synergien mellan stora språkmodeller och grafmaskinlärning presenterar en spännande front i artificiell intelligensforskning. Genom att kombinera den strukturerade induktiva biasen hos GNN med den kraftfulla semantiska förståelsen hos LLM, kan vi låsa upp nya möjligheter i grafmaskinlärningsuppgifter, särskilt för textattribuerade grafer.
Medan betydande framsteg har gjorts, kvarstår utmaningar inom områden som effektivitet, skalbarhet, överförbarhet och tolkningsbarhet. Tekniker som kunskapsdestillering, rättvisa utvärderingsbenchmark och flervärldig integration banar väg för praktisk distribution av LLM-förbättrade grafmaskinlärningsmodeller i verkliga tillämpningar.
Jag har tillbringat de senaste fem Ären med att dyka djupt in i den fascinerande vÀrlden av MaskinlÀrning och DjupinlÀrning. Min passion och expertis har lett mig till att bidra till över 50 olika mjukvaruprojekt, med sÀrskild fokus pÄ AI/ML. Min pÄgÄende nyfikenhet har ocksÄ lett mig mot Naturlig SprÄkbehandling, ett omrÄde som jag Àr angelÀgen om att utforska vidare.