Connect with us

Надання графічних нейронних мереж великими мовними моделями: Останній довідник

Штучний інтелект

Надання графічних нейронних мереж великими мовними моделями: Останній довідник

mm
graph neural network large language model

Графи – це структури даних, які представляють складні відносини в широкому діапазоні областей, включаючи соціальні мережі, бази знань, біологічні системи та багато іншого. У цих графах сутності представлені як вузли, а їх відносини зображені як ребра.

Спроможність ефективно представляти та міркувати про ці складні відносинні структури є важливою для забезпечення прогресу в галузях, таких як наука про мережі, хемінформатика та системи рекомендацій.

Графічні нейронні мережі (GNN) виникли як потужна структура глибокого навчання для завдань машинного навчання на графах. Інтегруючи графічну топологію в архітектуру нейронної мережі через агрегацію сусідів або графічні конволюції, GNN можуть вивчати низьковимірні векторні представлення, які кодують як властивості вузлів, так і їх структуровані ролі. Це дозволяє GNN досягати найкращих результатів на завданнях, таких як класифікація вузлів, передбачення зв’язків та класифікація графів у різних областях застосування.

Хоча GNN зробили суттєвий прогрес, деякі ключові виклики залишаються. Отримання високоякісних позначених даних для навчання наглядових моделей GNN може бути дорогим і тривалим. Крім того, GNN можуть мати труднощі з гетерогенними графічними структурами та ситуаціями, коли графічний розподіл у час тестування суттєво відрізняється від навчальних даних (загальне узагальнення).

Паралельно великі мовні моделі (LLM), такі як GPT-4 та LLaMA, захопили світ своїми неймовірними можливостями розуміння та генерації природної мови. Навчені на величезних текстових корпусах з мільярдами параметрів, LLM демонструють видатні можливості навчання з декількох прикладів, узагальнення задач та здравого глузду, які раніше вважалися надзвичайно складними для систем штучного інтелекту.

Видатний успіх LLM каталізував дослідження щодо використання їхньої потужності для завдань машинного навчання на графах. З одного боку, знання та можливості міркування LLM представляють можливості для покращення традиційних моделей GNN. З іншого боку, структуровані представлення та фактичні знання, властиві графам, можуть бути інструментальними у вирішенні деяких ключових обмежень LLM, таких як галюцинації та відсутність інтерпретації.

Графічні нейронні мережі та самонавчання

Щоб надати необхідний контекст, ми спочатку коротко розглянемо основні концепції та методи графічних нейронних мереж та самонавчального навчання представлення графів.

Архітектури графічних нейронних мереж

Архітектура графічної нейронної мережі – джерело

Ключова відмінність між традиційними глибокими нейронними мережами та GNN полягає в їх здатності працювати безпосередньо з графічними структурованими даними. GNN слідують схемі агрегації сусідів, де кожен вузол агрегує векторні властивості від своїх сусідів для обчислення свого представлення.

Було запропоновано численні архітектури GNN з різними варіантами функцій повідомлення та оновлення, таких як графічні конволюційні мережі (GCN), GraphSAGE, графічні мережі уваги (GAT) та графічні ізоморфні мережі (GIN) серед інших.

Нещодавно графічні трансформери здобули популярність, адаптуючи механізм самоуваги з природніх мовних трансформерів для роботи з графічними структурованими даними. Прикладами цього є GraphormerTransformer та GraphFormers. Ці моделі здатні захоплювати довгострокові залежності по всьому графу краще, ніж чисто сусідські GNN.

Самонавчання на графах

Хоча GNN є потужними моделями представлення, їхня продуктивність часто обмежена відсутністю великих позначених даних, необхідних для наглядового навчання. Самонавчання виникло як перспективний парадигма для попереднього навчання GNN на непозначених графічних даних, використовуючи завдання-претексти, які вимагають лише внутрішньої графічної структури та властивостей вузлів.

Самонавчальне графічне – джерело

Деякі загальні завдання-претексти, які використовуються для самонавчального попереднього навчання GNN, включають:

  1. Прогнозування властивостей вузлів: Випадкове маскування або пошкодження частини властивостей/ознак вузлів та завдання GNN їх відтворити.
  2. Прогнозування ребер/зв’язків: Навчання прогнозувати, чи існує ребро між парою вузлів, часто на основі випадкового маскування ребер.
  3. Контрастне навчання: Максимізація подібності між графічними виглядами одного графічного зразка, одночасно відштовхуючи виглядів від різних графів.
  4. Максимізація взаємної інформації: Максимізація взаємної інформації між локальними представленнями вузлів та цільовим представленням, таким як глобальне графічне вкладення.

Завдання-претексти, такі як ці, дозволяють GNN витягувати значимі структуровані та семантичні закономірності з непозначених графічних даних під час попереднього навчання. Попередньо навчений GNN потім можна донаструвати на відносно малих позначених підмножинах, щоб досягти успіху в різних завданнях, таких як класифікація вузлів, передбачення зв’язків та класифікація графів.

Використовуючи самонавчання, GNN, попередньо навчені на великих непозначених наборах даних, демонструють кращу узагальнюваність, стійкість до зміщення розподілу та ефективність порівняно з навчанням з нуля. Однак деякі ключові обмеження традиційних методів самонавчання GNN залишаються, які ми будемо досліджувати далі, використовуючи LLM для їх вирішення.

Покращення графічного машинного навчання великими мовними моделями

Інтеграція графів та LLM – джерело

Видатні можливості LLM щодо розуміння природної мови, міркування та навчання з декількох прикладів представляють можливості для покращення різних аспектів графічних машинних навчальних трубопроводів. Ми досліджуємо деякі ключові напрямки досліджень в цій сфері:

Одним з ключових викликів застосування GNN є отримання високоякісних представлень властивостей для вузлів та ребер, особливо коли вони містять багаті текстові атрибути, такі як описи, назви або анотації. Традиційно використовувалися прості мішки слів або попередньо навчені моделі вкладення слів, які часто не можуть захопити нюансів семантики.

Останні роботи продемонстрували силу використання великих мовних моделей як текстових кодувальників для побудови кращих представлень властивостей вузлів/ребер перед їх передачею в GNN. Наприклад, Chen et al. використовують LLM, такі як GPT-3, для кодування текстових атрибутів вузлів, демонструючи суттєві прибуття продуктивності порівняно з традиційними вкладеннями слів на завданнях класифікації вузлів.

Поза кращими текстовими кодувальниками LLM можна використовувати для генерації додаткової інформації з оригінальних текстових атрибутів напівнаглядовим чином. TAPE генерує потенційні мітки/пояснення для вузлів, використовуючи LLM, та використовує ці додаткові ознаки для покращення властивостей.

Покращуючи якість та виразність вхідних властивостей, LLM можуть передавати свої видатні можливості розуміння природної мови GNN, підвищуючи продуктивність на завданнях нижнього рівня.

Зменшення залежності від позначених даних

Одним з ключових переваг LLM є їх здатність працювати досить добре на нових завданнях з мінімальними або жодними позначеними даними, завдяки їх попередньому навчанню на великих текстових корпусах. Ця можливість навчання з декількох прикладів можна використати для зменшення залежності GNN від великих позначених наборів даних.

Одним з підходів є використання LLM для прямого прогнозування графічних завдань, описуючи графічну структуру та інформацію про вузли в природній мові. Методи, такі як InstructGLM та GPT4Graph, донастроюють LLM, такі як LLaMA та GPT-4, за допомогою ретельно розроблених підказок, які включають графічну топологію, такі як з’єднання вузлів, сусіди тощо. Настроєні LLM можуть потім генерувати прогнози для завдань, таких як класифікація вузлів та передбачення зв’язків, у безексплуатаційному режимі під час інференсу.

Графічне розуміння з LLM-рамкою – Джерело

GraphLLM досліджує дві стратегії: 1) LLM як покращувачі, де LLM кодують текстові атрибути вузлів перед їх передачею в GNN, і 2) LLM як прогнозувачі, де LLM приймає проміжні представлення GNN як вхідні дані для здійснення остаточного прогнозування.

GLEM йде далі, пропонуючи варіаційний алгоритм EM, який чергує оновлення компонентів LLM та GNN для взаємного покращення.

Зменшуючи залежність від позначених даних через можливості навчання з декількох прикладів та напівнаглядове доповнення, LLM-покращені графічні навчальні методи можуть розблокувати нові застосування та покращити ефективність даних.

Покращення LLM графами

Хоча LLM були надзвичайно успішними, вони все ще страждають від ключових обмежень, таких як галюцинації (генерація нефактичних заяв), відсутність інтерпретації у процесі міркування та нездатність підтримувати послідовні фактичні знання.

Графи, особливо графічні знання, які представляють структуровані фактичні відомості з надійних джерел, представляють перспективні напрямки для вирішення цих обмежень. Ми досліджуємо деякі нові підходи в цьому напрямку:

Покращення попереднього навчання LLM знаннями графів

Аналогічно тому, як LLM навчаються на великих текстових корпусах, останні роботи досліджували попереднє навчання їх на графічних знаннях, щоб наділити кращим фактичним усвідомленням та можливостями міркування.

Деякі підходи модифікують вхідні дані, просто конкатенуючи або вирівнюючи фактичні тріплети графів знань з природною мовою під час попереднього навчання. E-BERT вирівнює вектори сутностей графів знань з вкладеннями wordpiece BERT, тоді як K-BERT будує дерева, що містять оригінальний речення та відповідні тріплети графів знань.

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різноманітних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя триваюча цікавість також привела мене до обробки природної мови, галузі, яку я бажаю дослідити далі.