Connect with us

Trí tuệ nhân tạo

Tăng cường Graph Neural Networks với Large Language Models: Hướng dẫn cuối cùng

mm
graph neural network large language model

Các đồ thị là cấu trúc dữ liệu đại diện cho các mối quan hệ phức tạp trong nhiều lĩnh vực, bao gồm mạng xã hội, cơ sở tri thức, hệ thống sinh học và nhiều hơn nữa. Trong các đồ thị này, các thực thể được biểu diễn dưới dạng nút và mối quan hệ của chúng được mô tả dưới dạng cạnh.

Khả năng đại diện và推 lý hiệu quả về các cấu trúc quan hệ phức tạp này là rất quan trọng để thúc đẩy tiến bộ trong các lĩnh vực như khoa học mạng, hóa sinh và hệ thống khuyến nghị.

Graph Neural Networks (GNNs) đã xuất hiện như một khuôn khổ học sâu mạnh mẽ cho các nhiệm vụ học máy đồ thị. Bằng cách tích hợp cấu trúc đồ thị vào kiến trúc mạng nơ-ron thông qua sự tổng hợp lân cận hoặc đồ thị convolution, GNNs có thể học các biểu diễn vector chiều thấp mã hóa cả tính năng nút và vai trò cấu trúc của chúng. Điều này cho phép GNNs đạt được hiệu suất tốt nhất trong các nhiệm vụ như phân loại nút, dự đoán liên kết và phân loại đồ thị trên nhiều lĩnh vực ứng dụng khác nhau.

Mặc dù GNNs đã thúc đẩy tiến bộ đáng kể, một số thách thức chính vẫn còn. Việc thu được dữ liệu nhãn chất lượng cao để đào tạo các mô hình GNN giám sát có thể tốn kém và mất thời gian. Ngoài ra, GNNs có thể gặp khó khăn với cấu trúc đồ thị dị hình và tình huống mà phân phối đồ thị tại thời điểm thử nghiệm khác biệt đáng kể so với dữ liệu đào tạo (tổng quát hóa ngoài phân phối).

Song song, Large Language Models (LLMs) như GPT-4 và LLaMA đã làm nên lịch sử với khả năng hiểu và tạo ngôn ngữ tự nhiên đáng kinh ngạc. Được đào tạo trên các tập dữ liệu văn bản lớn với hàng tỷ tham số, LLMs thể hiện khả năng học vài lần, tổng quát hóa trên các nhiệm vụ và kỹ năng推 lý thông thường mà trước đây được coi là rất thách thức đối với các hệ thống AI.

Sự thành công đáng kể của LLMs đã kích thích việc khám phá khả năng tận dụng sức mạnh của chúng cho các nhiệm vụ học máy đồ thị. Một mặt, khả năng tri thức và推 lý của LLMs mang lại cơ hội để nâng cao các mô hình GNN truyền thống. Ngược lại, các biểu diễn cấu trúc và kiến thức thực tế vốn có trong đồ thị có thể là công cụ quan trọng để giải quyết một số hạn chế chính của LLMs, chẳng hạn như ảo giác và thiếu khả năng giải thích.

Graph Neural Networks và Học tự giám sát

Để cung cấp ngữ cảnh cần thiết, chúng tôi sẽ xem xét ngắn gọn các khái niệm và phương pháp cốt lõi trong graph neural networks và học biểu diễn đồ thị tự giám sát.

Kiến trúc Graph Neural Network

Kiến trúc Graph Neural Network – nguồn

Sự khác biệt chính giữa mạng nơ-ron truyền thống và GNNs nằm ở khả năng hoạt động trực tiếp trên dữ liệu cấu trúc đồ thị. GNNs tuân theo một sơ đồ tổng hợp lân cận, trong đó mỗi nút tổng hợp vector tính năng từ các nút lân cận để tính toán biểu diễn của nó.

Nhiều kiến trúc GNN đã được đề xuất với các phiên bản khác nhau của hàm tin nhắn và cập nhật, chẳng hạn như Graph Convolutional Networks (GCNs), GraphSAGE, Graph Attention Networks (GATs) và Graph Isomorphism Networks (GINs) trong số các kiến trúc khác.

Gần đây, các biến thể đồ thị của transformer đã trở nên phổ biến bằng cách thích nghi cơ chế tự chú ý từ transformer ngôn ngữ tự nhiên để hoạt động trên dữ liệu cấu trúc đồ thị. Một số ví dụ bao gồm GraphormerTransformerGraphFormers. Những mô hình này có khả năng bắt được sự phụ thuộc dài hạn trên đồ thị tốt hơn so với GNNs thuần túy dựa trên lân cận.

Học tự giám sát trên Đồ thị

Mặc dù GNNs là các mô hình biểu diễn mạnh mẽ, hiệu suất của chúng thường bị hạn chế bởi sự thiếu dữ liệu nhãn lớn cần thiết cho đào tạo giám sát. Học tự giám sát đã xuất hiện như một khuôn khổ đầy hứa hẹn để tiền đào tạo GNNs trên dữ liệu đồ thị không nhãn bằng cách tận dụng các nhiệm vụ tiền đề chỉ yêu cầu cấu trúc đồ thị nội tại và tính năng nút.

Một số nhiệm vụ tiền đề phổ biến được sử dụng để tiền đào tạo GNN bao gồm:

  1. Dự đoán Thuộc tính Nút: Ngẫu nhiên che giấu hoặc làm hỏng một phần thuộc tính của nút và yêu cầu GNN tái tạo chúng.
  2. Dự đoán Liên kết/Cạnh: Học để dự đoán liệu có một cạnh giữa một cặp nút, thường dựa trên việc che giấu ngẫu nhiên cạnh.
  3. Học Đối lập: Tối đa hóa sự tương đồng giữa các biểu diễn đồ thị của cùng một mẫu đồ thị trong khi đẩy các biểu diễn từ các đồ thị khác nhau.
  4. Tối đa Hóa Thông tin Đôi: Tối đa hóa thông tin đôi giữa các biểu diễn nút cục bộ và một biểu diễn mục tiêu như biểu diễn nhúng đồ thị toàn cầu.

Các nhiệm vụ tiền đề như vậy cho phép GNN trích xuất các mẫu cấu trúc và ngữ nghĩa có ý nghĩa từ dữ liệu đồ thị không nhãn trong quá trình tiền đào tạo. GNN đã được tiền đào tạo sau đó có thể được tinh chỉnh trên các tập dữ liệu nhãn nhỏ để đạt được hiệu suất vượt trội trên các nhiệm vụ như phân loại nút, dự đoán liên kết và phân loại đồ thị.

Bằng cách tận dụng giám sát tự, GNNs được tiền đào tạo trên các tập dữ liệu lớn không nhãn thể hiện sự tổng quát hóa, độ bền và hiệu quả tốt hơn so với đào tạo từ đầu. Tuy nhiên, một số hạn chế chính của các phương pháp tự giám sát GNN truyền thống vẫn còn, mà chúng tôi sẽ khám phá để tận dụng LLMs trong phần tiếp theo.

Nâng cao Graph ML với Large Language Models

Tích hợp Đồ thị và LLM – nguồn

Khả năng hiểu ngôn ngữ tự nhiên đáng kinh ngạc,推 lý và học vài lần của LLMs mang lại cơ hội để nâng cao nhiều khía cạnh của các đường ống học máy đồ thị. Chúng tôi khám phá một số hướng nghiên cứu chính trong không gian này:

Một thách thức chính khi áp dụng GNNs là thu được các biểu diễn tính năng chất lượng cao cho các nút và cạnh, đặc biệt khi chúng chứa các thuộc tính văn bản phong phú như mô tả, tiêu đề hoặc tóm tắt. Truyền thống, các mô hình nhúng từ và bag-of-words đơn giản hoặc các mô hình nhúng từ tiền đào tạo thường được sử dụng, những mô hình này thường không thể bắt được ngữ nghĩa tinh vi.

Các công trình gần đây đã chứng minh sức mạnh của việc tận dụng các mô hình ngôn ngữ lớn như các bộ mã hóa văn bản để xây dựng các biểu diễn tính năng nút/lân cận tốt hơn trước khi truyền chúng đến GNN. Ví dụ, Chen et al. sử dụng LLMs như GPT-3 để mã hóa thuộc tính văn bản của nút, cho thấy sự tăng hiệu suất đáng kể so với các mô hình nhúng từ truyền thống trên các nhiệm vụ phân loại nút.

Ngoài việc mã hóa văn bản tốt hơn, LLMs có thể được sử dụng để tạo thông tin tăng cường từ các thuộc tính văn bản ban đầu theo cách bán giám sát. TAPE tạo ra các nhãn/nhận xét tiềm năng cho các nút sử dụng LLM và sử dụng chúng làm các tính năng tăng cường bổ sung. KEA trích xuất các thuật ngữ từ thuộc tính văn bản sử dụng LLM và thu được các mô tả chi tiết cho các thuật ngữ này để tăng cường tính năng.

Bằng cách cải thiện chất lượng và khả năng biểu diễn của tính năng đầu vào, LLMs có thể truyền đạt khả năng hiểu ngôn ngữ tự nhiên vượt trội của chúng cho GNNs, tăng hiệu suất trên các nhiệm vụ hạ nguồn.

Giảm thiểu Sự phụ thuộc vào Dữ liệu Nhãn

Một lợi thế chính của LLMs là khả năng thực hiện hợp lý trên các nhiệm vụ mới với rất ít hoặc không có dữ liệu nhãn, nhờ vào việc tiền đào tạo trên các tập dữ liệu văn bản lớn. Khả năng học vài lần này có thể được tận dụng để giảm thiểu sự phụ thuộc của GNNs vào các tập dữ liệu nhãn lớn.

Một cách tiếp cận là sử dụng LLMs để trực tiếp tạo dự đoán trên các nhiệm vụ đồ thị bằng cách mô tả cấu trúc đồ thị và thông tin nút trong các lời nhắc ngôn ngữ tự nhiên. Các phương pháp như InstructGLMGPT4Graph tinh chỉnh LLMs như LLaMA và GPT-4 sử dụng các lời nhắc được thiết kế cẩn thận tích hợp chi tiết cấu trúc đồ thị như kết nối nút, lân cận, v.v. LLMs đã được tinh chỉnh sau đó có thể tạo ra dự đoán cho các nhiệm vụ như phân loại nút và dự đoán liên kết theo cách không có dữ liệu trong quá trình suy luận.

Mặc dù sử dụng LLMs như các bộ dự đoán hộp đen đã cho thấy hứa hẹn, hiệu suất của chúng suy giảm đối với các nhiệm vụ đồ thị phức tạp hơn, nơi việc mô hình hóa cấu trúc rõ ràng là có lợi. Một số phương pháp do đó sử dụng LLMs kết hợp với GNNs – GNN mã hóa cấu trúc đồ thị trong khi LLM cung cấp sự hiểu biết ngữ nghĩa nâng cao về các nút từ mô tả văn bản của chúng.

Hiểu biết Đồ thị với Khung LLM – Nguồn

GraphLLM khám phá hai chiến lược: 1) LLMs như các bộ tăng cường, nơi LLMs mã hóa thuộc tính văn bản của nút trước khi truyền đến GNN, và 2) LLMs như các bộ dự đoán, nơi LLM lấy các biểu diễn trung gian của GNN làm đầu vào để tạo ra dự đoán cuối cùng.

GLEM đi xa hơn bằng cách đề xuất một thuật toán EM biến phân thay thế giữa việc cập nhật các thành phần LLM và GNN để tăng cường lẫn nhau.

Bằng cách giảm sự phụ thuộc vào dữ liệu nhãn thông qua khả năng học vài lần và tăng cường bán giám sát, các phương pháp học đồ thị được tăng cường bởi LLM có thể mở khóa các ứng dụng mới và cải thiện hiệu quả dữ liệu.

Nâng cao LLMs với Đồ thị

Mặc dù LLMs đã rất thành công, chúng vẫn gặp phải một số hạn chế chính như ảo giác (tạo ra các tuyên bố không thực tế), thiếu khả năng giải thích trong quá trình推 lý và không thể duy trì kiến thức thực tế nhất quán.

Đồ thị, đặc biệt là đồ thị tri thức đại diện cho thông tin thực tế có cấu trúc từ các nguồn đáng tin cậy, mang lại các giải pháp đầy hứa hẹn để giải quyết những hạn chế này. Chúng tôi khám phá một số phương pháp mới nổi trong hướng này:

Tiền đào tạo LLM được Nâng cao bởi Đồ thị Tri thức

Tương tự như cách LLMs được tiền đào tạo trên các tập dữ liệu văn bản lớn, các công trình gần đây đã khám phá việc tiền đào tạo chúng trên đồ thị tri thức để truyền đạt khả năng nhận thức thực tế và推 lý tốt hơn.

Một số phương pháp sửa đổi dữ liệu đầu vào bằng cách đơn giản kết hợp hoặc căn chỉnh các bộ ba đồ thị tri thức với văn bản ngôn ngữ tự nhiên trong quá trình tiền đào tạo. E-BERT căn chỉnh vector thực thể đồ thị tri thức với các nhúng từ wordpiece của BERT, trong khi K-BERT xây dựng các cây chứa câu gốc và các bộ ba đồ thị tri thức liên quan.

Tôi đã dành 5 năm qua để đắm mình trong thế giới hấp dẫn của Máy học và Học sâu. Đam mê và chuyên môn của tôi đã dẫn tôi đến việc đóng góp vào hơn 50 dự án kỹ thuật phần mềm đa dạng, với trọng tâm đặc biệt là AI/ML. Sự tò mò liên tục của tôi cũng đã thu hút tôi đến Xử lý Ngôn ngữ Tự nhiên, một lĩnh vực tôi渴望 khám phá thêm.