Entre em contato

Inteligência artificial

Sobrecarregando redes neurais gráficas com grandes modelos de linguagem: o guia definitivo

mm

Publicado

 on

gráfico rede neural modelo de linguagem grande

Os gráficos são estruturas de dados que representam relacionamentos complexos em uma ampla variedade de domínios, incluindo redes sociais, bases de conhecimento, sistemas biológicos e muito mais. Nestes gráficos, as entidades são representadas como nós e seus relacionamentos são representados como arestas.

A capacidade de representar e raciocinar com eficácia sobre essas intrincadas estruturas relacionais é crucial para permitir avanços em campos como ciência de redes, quimioinformática e sistemas de recomendação.

Redes Neurais de Grafos (GNNs) surgiram como uma poderosa estrutura de aprendizado profundo para tarefas de aprendizado de máquina de grafos. Ao incorporar a topologia gráfica na arquitetura da rede neural por meio de agregação de vizinhança ou convoluções gráficas, os GNNs podem aprender representações vetoriais de baixa dimensão que codificam tanto os recursos do nó quanto suas funções estruturais. Isso permite que os GNNs alcancem desempenho de última geração em tarefas como classificação de nós, previsão de links e classificação de gráficos em diversas áreas de aplicação.

Embora as GNN tenham impulsionado progressos substanciais, permanecem alguns desafios importantes. A obtenção de dados rotulados de alta qualidade para treinar modelos GNN supervisionados pode ser cara e demorada. Além disso, GNNs podem lutar com estruturas gráficas heterogêneas e situações em que a distribuição do gráfico no tempo de teste difere significativamente dos dados de treinamento (generalização fora de distribuição).

Paralelamente, grandes modelos de linguagem (LLMs) como GPT-4 e chamadas conquistaram o mundo com sua incrível capacidade de compreensão e geração de linguagem natural. Treinados em corpora de texto massivo com bilhões de parâmetros, os LLMs exibem notáveis ​​​​habilidades de aprendizado em poucas etapas, generalização entre tarefas e habilidades de raciocínio de bom senso que antes eram consideradas extremamente desafiadoras para sistemas de IA.

O tremendo sucesso dos LLMs catalisou explorações para aproveitar seu poder para tarefas de aprendizado de máquina gráfica. Por um lado, o conhecimento e as capacidades de raciocínio dos LLMs apresentam oportunidades para melhorar os modelos tradicionais da GNN. Por outro lado, as representações estruturadas e o conhecimento factual inerente aos gráficos podem ser fundamentais para abordar algumas limitações importantes dos LLMs, tais como alucinações e falta de interpretabilidade.

Neste artigo, nos aprofundaremos nas pesquisas mais recentes na interseção do aprendizado de máquina de gráficos e grandes modelos de linguagem. Exploraremos como os LLMs podem ser usados ​​para aprimorar vários aspectos do ML de grafos, revisaremos abordagens para incorporar conhecimento de grafos em LLMs e discutiremos aplicações emergentes e direções futuras para este campo interessante.

Redes Neurais de Gráficos e Aprendizagem Auto-Supervisionada

Para fornecer o contexto necessário, primeiro revisaremos brevemente os principais conceitos e métodos em redes neurais de grafos e aprendizagem auto-supervisionada de representação de grafos.

Arquiteturas de redes neurais gráficas

Arquitetura de rede neural gráfica – fonte

A principal distinção entre redes neurais profundas tradicionais e GNNs reside na sua capacidade de operar diretamente em dados estruturados em gráficos. GNNs seguem um esquema de agregação de vizinhança, onde cada nó agrega vetores de características de seus vizinhos para calcular sua própria representação.

Numerosas arquiteturas GNN foram propostas com diferentes instanciações da mensagem e funções de atualização, como Redes Convolucionais de Gráfico (GCN), GráficoSAGE, Redes de atenção gráfica (GAT) e Redes de isomorfismo de grafos (GINs) entre outros.

Mais recentemente, os transformadores de grafos ganharam popularidade ao adaptar o mecanismo de autoatenção dos transformadores de linguagem natural para operar em dados estruturados em grafos. Alguns exemplos incluem GraformadorTransformador e Formadores de Gráficos. Esses modelos são capazes de capturar dependências de longo alcance no gráfico melhor do que GNNs puramente baseados em vizinhança.

Aprendizagem auto-supervisionada em gráficos

Embora as GNNs sejam modelos representacionais poderosos, o seu desempenho é muitas vezes prejudicado pela falta de grandes conjuntos de dados rotulados necessários para o treinamento supervisionado. A aprendizagem auto-supervisionada emergiu como um paradigma promissor para pré-treinar GNNs em dados gráficos não rotulados, aproveitando tarefas de pretexto que requerem apenas a estrutura intrínseca do gráfico e recursos de nó.

Algumas tarefas de pretexto comuns usadas para pré-treinamento GNN autosupervisionado incluem:

  1. Predição de propriedade de nó: Mascarar ou corromper aleatoriamente uma parte dos atributos/recursos do nó e encarregar o GNN de reconstruí-los.
  2. Previsão de borda/link: aprender a prever se existe uma aresta entre um par de nós, geralmente com base no mascaramento aleatório de arestas.
  3. Aprendizagem Contrastiva: Maximizando as semelhanças entre visualizações de gráfico da mesma amostra de gráfico enquanto separa visualizações de gráficos diferentes.
  4. Maximização Mútua de Informações: Maximizando as informações mútuas entre representações de nós locais e uma representação de destino como a incorporação de gráfico global.

Tarefas de pretexto como essas permitem que o GNN extraia padrões estruturais e semânticos significativos dos dados gráficos não rotulados durante o pré-treinamento. O GNN pré-treinado pode então ser ajustado em subconjuntos rotulados relativamente pequenos para se destacar em várias tarefas posteriores, como classificação de nós, previsão de links e classificação de gráficos.

Ao aproveitar a autosupervisão, os GNNs pré-treinados em grandes conjuntos de dados não rotulados apresentam melhor generalização, robustez às mudanças de distribuição e eficiência em comparação com o treinamento do zero. No entanto, permanecem algumas limitações importantes dos métodos autossupervisionados tradicionais baseados em GNN, que exploraremos aproveitando os LLMs para abordar a seguir.

Aprimorando Graph ML com grandes modelos de linguagem

Integração de Gráficos e LLM –  fonte

As notáveis ​​​​capacidades dos LLMs na compreensão da linguagem natural, do raciocínio e do aprendizado rápido apresentam oportunidades para aprimorar vários aspectos dos pipelines de aprendizado de máquina gráfica. Exploramos algumas direções principais de pesquisa neste espaço:

Um desafio importante na aplicação de GNNs é obter representações de recursos de alta qualidade para nós e arestas, especialmente quando eles contêm atributos textuais ricos, como descrições, títulos ou resumos. Tradicionalmente, têm sido usados ​​modelos simples de saco de palavras ou de incorporação de palavras pré-treinadas, que muitas vezes não conseguem capturar as nuances da semântica.

Trabalhos recentes demonstraram o poder de aproveitar grandes modelos de linguagem como codificadores de texto para construir melhores representações de recursos de nós/bordas antes de passá-los para o GNN. Por exemplo, Chen et ai. utilizam LLMs como GPT-3 para codificar atributos de nós textuais, mostrando ganhos de desempenho significativos em relação aos embeddings de palavras tradicionais em tarefas de classificação de nós.

Além de melhores codificadores de texto, os LLMs podem ser usados ​​para gerar informações aumentadas a partir dos atributos do texto original de maneira semissupervisionada. FITA gera rótulos/explicações potenciais para nós usando um LLM e os usa como recursos aumentados adicionais. KEA extrai termos de atributos de texto usando um LLM e obtém descrições detalhadas desses termos para aumentar os recursos.

Ao melhorar a qualidade e a expressividade dos recursos de entrada, os LLMs podem transmitir suas capacidades superiores de compreensão de linguagem natural aos GNNs, aumentando o desempenho em tarefas posteriores.

Aliviando a dependência de dados rotulados

Uma vantagem importante dos LLMs é a sua capacidade de executar razoavelmente bem novas tarefas com pouco ou nenhum dado rotulado, graças ao seu pré-treinamento em vastos corpora de texto. Essa capacidade de aprendizado rápido pode ser aproveitada para aliviar a dependência dos GNNs de grandes conjuntos de dados rotulados.

Uma abordagem é usar LLMs para fazer previsões diretamente em tarefas gráficas, descrevendo a estrutura do gráfico e as informações do nó em prompts de linguagem natural. Métodos como InstruirGLM e GPT4Graph ajustar LLMs como LLaMA e GPT-4 usando prompts cuidadosamente projetados que incorporam detalhes de topologia de gráfico, como conexões de nós, vizinhanças, etc. Os LLMs ajustados podem então gerar previsões para tarefas como classificação de nós e previsão de links de maneira zero-shot durante a inferência.

Embora o uso de LLMs como preditores de caixa preta tenha se mostrado promissor, seu desempenho diminui para tarefas gráficas mais complexas, onde a modelagem explícita da estrutura é benéfica. Algumas abordagens, portanto, usam LLMs em conjunto com GNNs – o GNN codifica a estrutura do gráfico enquanto o LLM fornece compreensão semântica aprimorada dos nós a partir de suas descrições de texto.

Compreensão de gráficos com LLM Framework - fonte

GraphLLM explora duas estratégias: 1) LLMs como melhoradores, onde os LLMs codificam atributos do nó de texto antes de passar para o GNN, e 2) LLMs como preditores, onde o LLM toma as representações intermediárias do GNN como entrada para fazer previsões finais.

O GLEM vai além ao propor um algoritmo EM variacional que alterna entre a atualização dos componentes LLM e GNN para aprimoramento mútuo.

Ao reduzir a dependência de dados rotulados por meio de recursos de poucos disparos e aumento semissupervisionado, os métodos de aprendizado de gráficos aprimorados por LLM podem desbloquear novos aplicativos e melhorar a eficiência dos dados.

Aprimorando LLMs com Gráficos

Embora os LLMs tenham sido tremendamente bem sucedidos, ainda sofrem de limitações importantes como alucinações (gerando declarações não factuais), falta de interpretabilidade no seu processo de raciocínio e incapacidade de manter conhecimento factual consistente.

Os gráficos, especialmente os gráficos de conhecimento que representam informações factuais estruturadas de fontes confiáveis, apresentam caminhos promissores para resolver essas deficiências. Exploramos algumas abordagens emergentes nesta direção:

Pré-treinamento LLM aprimorado do Knowledge Graph

Semelhante à forma como os LLMs são pré-treinados em grandes corpora de texto, trabalhos recentes exploraram o pré-treinamento em gráficos de conhecimento para imbuir melhor consciência factual e capacidades de raciocínio.

Algumas abordagens modificam os dados de entrada simplesmente concatenando ou alinhando triplos KG factuais com texto em linguagem natural durante o pré-treinamento. E-BERT alinha os vetores de entidade KG com os embeddings de palavras do BERT, enquanto o K-BERT constrói árvores contendo a frase original e os triplos KG relevantes.

O papel dos LLMs no aprendizado de máquina gráfica:

Os pesquisadores exploraram várias maneiras de integrar LLMs ao pipeline de aprendizagem de grafos, cada uma com suas vantagens e aplicações exclusivas. Aqui estão algumas das funções proeminentes que os LLMs podem desempenhar:

  1. LLM como um intensificador: Nesta abordagem, LLMs são usados ​​para enriquecer os atributos textuais associados aos nós em uma TAG. A capacidade do LLM de gerar explicações, entidades de conhecimento ou pseudo-rótulos pode aumentar a informação semântica disponível para o GNN, levando a melhores representações de nós e desempenho de tarefas downstream.

Por exemplo, o modelo TAPE (Text Augmented Pre-trained Encoders) aproveita o ChatGPT para gerar explicações e pseudo-rótulos para artigos da rede de citações, que são então usados ​​para ajustar um modelo de linguagem. As incorporações resultantes são alimentadas em um GNN para classificação de nós e tarefas de previsão de links, alcançando resultados de última geração.

  1. LLM como um preditor: Em vez de aprimorar os recursos de entrada, algumas abordagens empregam diretamente LLMs como componente preditor para tarefas relacionadas a gráficos. Isso envolve a conversão da estrutura do gráfico em uma representação textual que pode ser processada pelo LLM, que então gera a saída desejada, como rótulos de nós ou previsões em nível de gráfico.

Um exemplo notável é o modelo GPT4Graph, que representa gráficos usando a Graph Modeling Language (GML) e aproveita o poderoso GPT-4 LLM para tarefas de raciocínio gráfico zero-shot.

  1. Alinhamento GNN-LLM: Outra linha de pesquisa concentra-se no alinhamento dos espaços de incorporação de GNNs e LLMs, permitindo uma integração perfeita de informações estruturais e semânticas. Essas abordagens tratam o GNN e o LLM como modalidades separadas e empregam técnicas como aprendizagem contrastiva ou destilação para alinhar suas representações.

A MoléculaSTM O modelo, por exemplo, usa um objetivo contrastivo para alinhar as incorporações de um GNN e um LLM, permitindo que o LLM incorpore informações estruturais do GNN enquanto o GNN se beneficia do conhecimento semântico do LLM.

Desafios e Soluções

Embora a integração de LLMs e aprendizagem de gráficos seja imensamente promissora, vários desafios precisam ser enfrentados:

  1. Eficiência e Escalabilidade: LLMs são notoriamente intensivos em recursos, muitas vezes exigindo bilhões de parâmetros e imenso poder computacional para treinamento e inferência. Isso pode ser um gargalo significativo para a implantação de modelos de aprendizado de grafos aprimorados por LLM em aplicações do mundo real, especialmente em dispositivos com recursos limitados.

Uma solução promissora é destilação de conhecimento, onde o conhecimento de um grande LLM (modelo de professor) é transferido para um GNN (modelo de aluno) menor e mais eficiente.

  1. Vazamento e avaliação de dados: Os LLMs são pré-treinados em grandes quantidades de dados disponíveis publicamente, que podem incluir conjuntos de testes de conjuntos de dados de referência comuns, levando a um potencial vazamento de dados e desempenho superestimado. Os pesquisadores começaram a coletar novos conjuntos de dados ou amostrar dados de teste de períodos de tempo após o encerramento do treinamento do LLM para mitigar esse problema.

Além disso, estabelecer benchmarks de avaliação justos e abrangentes para modelos de aprendizagem de grafos aprimorados por LLM é crucial para medir suas verdadeiras capacidades e permitir comparações significativas.

  1. Transferibilidade e explicabilidade: Embora os LLMs se destaquem no aprendizado de zero e poucos disparos, sua capacidade de transferir conhecimento entre diversos domínios e estruturas de grafos permanece um desafio em aberto. Melhorar a transferibilidade desses modelos é uma direção crítica de pesquisa.

Além disso, melhorar a explicabilidade dos modelos de aprendizagem de grafos baseados em LLM é essencial para construir confiança e permitir a sua adoção em aplicações de alto risco. Aproveitar as capacidades de raciocínio inerentes aos LLMs através de técnicas como sugestão de cadeia de pensamento pode contribuir para melhorar a explicabilidade.

  1. Integração Multimodal: os gráficos geralmente contêm mais do que apenas informações textuais, com nós e arestas potencialmente associados a diversas modalidades, como imagens, áudio ou dados numéricos. Estender a integração de LLMs a essas configurações de gráficos multimodais apresenta uma excelente oportunidade para pesquisas futuras.

Aplicações do mundo real e estudos de caso

A integração de LLMs e aprendizado de máquina gráfica já mostrou resultados promissores em diversas aplicações do mundo real:

  1. Predição de propriedades moleculares: No campo da química computacional e descoberta de medicamentos, os LLMs têm sido empregados para melhorar a previsão de propriedades moleculares, incorporando informações estruturais de gráficos moleculares. O Modelo LLM4Mol, por exemplo, aproveita o ChatGPT para gerar explicações para representações de moléculas SMILES (Simplified Molecular-Input Line-Entry System), que são então usadas para melhorar a precisão das tarefas de previsão de propriedades.
  2. Conclusão e raciocínio do gráfico de conhecimento: Os gráficos de conhecimento são um tipo especial de estrutura gráfica que representa entidades do mundo real e seus relacionamentos. LLMs foram explorados para tarefas como conclusão e raciocínio de gráficos de conhecimento, onde a estrutura do gráfico e as informações textuais (por exemplo, descrições de entidades) precisam ser consideradas em conjunto.
  3. Sistemas de Recomendação: No domínio dos sistemas de recomendação, estruturas gráficas são frequentemente usadas para representar interações usuário-item, com nós representando usuários e itens, e arestas denotando interações ou semelhanças. Os LLMs podem ser aproveitados para aprimorar esses gráficos, gerando informações do lado do usuário/item ou reforçando as bordas de interação.

Conclusão

A sinergia entre grandes modelos de linguagem e aprendizado de máquina gráfica apresenta uma fronteira interessante na pesquisa de inteligência artificial. Ao combinar o viés indutivo estrutural dos GNNs com as poderosas capacidades de compreensão semântica dos LLMs, podemos desbloquear novas possibilidades em tarefas de aprendizagem de grafos, particularmente para grafos atribuídos a texto.

Embora tenham sido feitos progressos significativos, permanecem desafios em áreas como eficiência, escalabilidade, transferibilidade e explicabilidade. Técnicas como destilação de conhecimento, benchmarks de avaliação justos e integração multimodal estão abrindo caminho para a implantação prática de modelos de aprendizagem de grafos aprimorados por LLM em aplicações do mundo real.

Passei os últimos cinco anos mergulhando no fascinante mundo do Machine Learning e Deep Learning. Minha paixão e experiência me levaram a contribuir para mais de 50 projetos diversos de engenharia de software, com foco particular em AI/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.