Trí tuệ nhân tạo

Mô hình ngôn ngữ lớn dựa trên bộ giải mã: Hướng dẫn đầy đủ

cập nhật on 27 Tháng Tư, 2024

Mô hình ngôn ngữ lớn dựa trên bộ giải mã: Hướng dẫn đầy đủ

Mô hình ngôn ngữ lớn (LLM) đã cách mạng hóa lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) bằng cách thể hiện những khả năng vượt trội trong việc tạo ra văn bản giống con người, trả lời các câu hỏi và hỗ trợ nhiều nhiệm vụ liên quan đến ngôn ngữ. Cốt lõi của những mô hình mạnh mẽ này nằm ở kiến trúc máy biến áp chỉ có bộ giải mã, một biến thể của kiến trúc máy biến áp ban đầu được đề xuất trong bài báo chuyên đề “Chú ý là tất cả những gì bạn cần”bởi Vaswani và cộng sự.

Trong hướng dẫn toàn diện này, chúng ta sẽ khám phá hoạt động bên trong của LLM dựa trên bộ giải mã, đi sâu vào các khối xây dựng cơ bản, những đổi mới về kiến trúc và chi tiết triển khai đã đưa các mô hình này đi đầu trong nghiên cứu và ứng dụng NLP.

Kiến trúc máy biến áp: Làm mới lại

Trước khi đi sâu vào chi tiết cụ thể của LLM dựa trên bộ giải mã, điều cần thiết là phải xem lại kiến trúc máy biến áp, nền tảng để xây dựng các mô hình này. Máy biến áp đã giới thiệu một cách tiếp cận mới để lập mô hình trình tự, chỉ dựa vào các cơ chế chú ý để nắm bắt các phần phụ thuộc tầm xa trong dữ liệu mà không cần các lớp hồi quy hoặc lớp chập.

Kiến trúc máy biến áp

Kiến trúc máy biến áp ban đầu bao gồm hai thành phần chính: bộ mã hóa và bộ giải mã. Bộ mã hóa xử lý chuỗi đầu vào và tạo ra một biểu diễn theo ngữ cảnh, sau đó được bộ giải mã sử dụng để tạo ra chuỗi đầu ra. Kiến trúc này ban đầu được thiết kế cho các tác vụ dịch máy, trong đó bộ mã hóa xử lý câu đầu vào bằng ngôn ngữ nguồn và bộ giải mã tạo ra câu tương ứng bằng ngôn ngữ đích.

Tự chú ý: Chìa khóa thành công của Transformer

Ở trung tâm của biến áp nằm ở cơ chế tự chú ý, một kỹ thuật mạnh mẽ cho phép mô hình cân nhắc và tổng hợp thông tin từ các vị trí khác nhau trong chuỗi đầu vào. Không giống như các mô hình chuỗi truyền thống xử lý mã thông báo đầu vào một cách tuần tự, tính năng tự chú ý cho phép mô hình nắm bắt được sự phụ thuộc giữa bất kỳ cặp mã thông báo nào, bất kể vị trí của chúng trong chuỗi.

Đa truy vấn chú ý

Hoạt động tự chú ý có thể được chia thành ba bước chính:

Dự báo truy vấn, khóa và giá trị: Chuỗi đầu vào được chiếu thành ba biểu diễn riêng biệt: truy vấn (Q), phím (K), và giá trị (V). Những dự đoán này có được bằng cách nhân đầu vào với ma trận trọng số đã học.
Tính điểm chú ý: Đối với mỗi vị trí trong chuỗi đầu vào, điểm chú ý được tính bằng cách lấy tích số chấm giữa vectơ truy vấn tương ứng và tất cả các vectơ chính. Những điểm số này thể hiện mức độ liên quan của từng vị trí với vị trí hiện tại đang được xử lý.
Tổng giá trị có trọng số: Điểm chú ý được chuẩn hóa bằng hàm softmax và trọng số chú ý thu được được dùng để tính tổng có trọng số của vectơ giá trị, tạo ra biểu diễn đầu ra cho vị trí hiện tại.

Sự chú ý của nhiều đầu, một biến thể của cơ chế tự chú ý, cho phép mô hình nắm bắt các loại mối quan hệ khác nhau bằng cách tính toán điểm chú ý trên nhiều “đứng đầu” song song, mỗi bộ có tập hợp các phép chiếu truy vấn, khóa và giá trị riêng.

Các biến thể và cấu hình kiến trúc

Trong khi các nguyên tắc cốt lõi của LLM dựa trên bộ giải mã vẫn nhất quán, các nhà nghiên cứu đã khám phá các biến thể và cấu hình kiến trúc khác nhau để cải thiện hiệu suất, hiệu quả và khả năng khái quát hóa. Trong phần này, chúng ta sẽ đi sâu vào các lựa chọn kiến trúc khác nhau và ý nghĩa của chúng.

Các loại kiến trúc

LLM dựa trên bộ giải mã có thể được phân loại thành ba loại chính: bộ giải mã-bộ mã hóa, bộ giải mã nhân quả và bộ giải mã tiền tố. Mỗi loại kiến trúc thể hiện các mô hình chú ý riêng biệt.

Kiến trúc bộ mã hóa-giải mã

Dựa trên mô hình Transformer vanilla, kiến trúc bộ mã hóa-giải mã bao gồm hai ngăn xếp: bộ mã hóa và bộ giải mã. Bộ mã hóa sử dụng các lớp tự chú ý nhiều đầu xếp chồng lên nhau để mã hóa chuỗi đầu vào và tạo ra các biểu diễn tiềm ẩn. Sau đó, bộ giải mã sẽ thực hiện chú ý chéo trên các biểu diễn này để tạo ra chuỗi mục tiêu. Mặc dù hiệu quả trong các nhiệm vụ NLP khác nhau, nhưng một số LLM, chẳng hạn như bánh flan-T5, áp dụng kiến trúc này.

Kiến trúc bộ giải mã nhân quả

Kiến trúc bộ giải mã nhân quả kết hợp mặt nạ chú ý một chiều, cho phép mỗi mã thông báo đầu vào chỉ tham dự các mã thông báo trong quá khứ và chính nó. Cả mã thông báo đầu vào và đầu ra đều được xử lý trong cùng một bộ giải mã. Những người mẫu nổi bật như GPT-1, GPT-2 và GPT-3 được xây dựng trên kiến trúc này, trong đó GPT-3 thể hiện khả năng học tập theo ngữ cảnh đáng chú ý. Nhiều LLM, bao gồm OPT, BLOOM và Gopher, đã áp dụng rộng rãi các bộ giải mã nhân quả.

Kiến trúc bộ giải mã tiền tố

Còn được gọi là bộ giải mã không nhân quả, kiến trúc bộ giải mã tiền tố sửa đổi cơ chế che giấu của bộ giải mã nhân quả để cho phép chú ý hai chiều qua mã thông báo tiền tố và chú ý một chiều trên mã thông báo được tạo. Giống như kiến trúc bộ mã hóa-giải mã, bộ giải mã tiền tố có thể mã hóa chuỗi tiền tố hai chiều và dự đoán mã thông báo đầu ra một cách tự động bằng cách sử dụng các tham số được chia sẻ. LLM dựa trên bộ giải mã tiền tố bao gồm GLM130B và U-PaLM.

Tất cả ba loại kiến trúc có thể được mở rộng bằng cách sử dụng hỗn hợp các chuyên gia (MoE) kỹ thuật chia tỷ lệ, kích hoạt thưa thớt một tập hợp con các trọng số mạng thần kinh cho mỗi đầu vào. Cách tiếp cận này đã được sử dụng trong các mô hình như Switch Transformer và GLaM, với việc tăng số lượng chuyên gia hoặc tổng kích thước tham số cho thấy sự cải thiện hiệu suất đáng kể.

Máy biến áp chỉ dành cho bộ giải mã: Nắm bắt bản chất tự hồi quy

Trong khi kiến trúc máy biến áp ban đầu được thiết kế cho các tác vụ tuần tự như dịch máy, nhiều tác vụ NLP, chẳng hạn như mô hình hóa ngôn ngữ và tạo văn bản, có thể được đóng khung dưới dạng các vấn đề tự hồi quy, trong đó mô hình tạo ra một mã thông báo mỗi lần, dựa trên mã thông báo được tạo trước đó.

Nhập máy biến áp chỉ có bộ giải mã, một biến thể đơn giản của kiến trúc máy biến áp chỉ giữ lại thành phần bộ giải mã. Kiến trúc này đặc biệt phù hợp cho các tác vụ tự hồi quy, vì nó tạo ra từng mã thông báo đầu ra, tận dụng các mã thông báo được tạo trước đó làm bối cảnh đầu vào.

Sự khác biệt chính giữa máy biến áp chỉ có bộ giải mã và bộ giải mã máy biến áp gốc nằm ở cơ chế tự chú ý. Trong cài đặt chỉ dành cho bộ giải mã, hoạt động tự chú ý được sửa đổi để ngăn mô hình tham dự các mã thông báo trong tương lai, một thuộc tính được gọi là quan hệ nhân quả. Điều này đạt được thông qua một kỹ thuật được gọi là "tự chú ý đeo mặt nạ", trong đó điểm chú ý tương ứng với các vị trí trong tương lai được đặt thành âm vô cực, che giấu chúng một cách hiệu quả trong bước chuẩn hóa softmax.

Các thành phần kiến trúc của LLM dựa trên bộ giải mã

Trong khi các nguyên tắc cốt lõi của sự tự chú ý và sự tự chú ý đeo mặt nạ vẫn giữ nguyên, LLM dựa trên bộ giải mã hiện đại đã đưa ra một số cải tiến về kiến trúc để cải thiện hiệu suất, hiệu quả và khả năng khái quát hóa. Hãy cùng khám phá một số thành phần và kỹ thuật chính được sử dụng trong LLM hiện đại.

Biểu diễn đầu vào

Trước khi xử lý chuỗi đầu vào, LLM dựa trên bộ giải mã sử dụng các kỹ thuật mã hóa và nhúng để chuyển đổi văn bản thô thành dạng biểu diễn số phù hợp với mô hình.

nhúng vector

Mã thông báo: Quá trình mã thông báo chuyển đổi văn bản đầu vào thành một chuỗi mã thông báo, có thể là từ, từ phụ hoặc thậm chí các ký tự riêng lẻ, tùy thuộc vào chiến lược mã thông báo được sử dụng. Các kỹ thuật mã thông báo phổ biến cho LLM bao gồm Mã hóa cặp byte (BPE), SentencePiece và WordPiece. Các phương pháp này nhằm mục đích đạt được sự cân bằng giữa kích thước từ vựng và độ chi tiết biểu diễn, cho phép mô hình xử lý các từ hiếm hoặc không có từ vựng một cách hiệu quả.

Nhúng mã thông báo: Sau khi mã hóa, mỗi mã thông báo được ánh xạ tới một biểu diễn vectơ dày đặc được gọi là nhúng mã thông báo. Các phần nhúng này được học trong quá trình đào tạo và nắm bắt các mối quan hệ ngữ nghĩa và cú pháp giữa các mã thông báo.

Nhúng vị trí: Các mô hình máy biến áp xử lý đồng thời toàn bộ chuỗi đầu vào, thiếu khái niệm vốn có về vị trí mã thông báo có trong các mô hình lặp lại. Để kết hợp thông tin vị trí, phần nhúng vị trí được thêm vào phần nhúng mã thông báo, cho phép mô hình phân biệt giữa các mã thông báo dựa trên vị trí của chúng trong chuỗi. Các LLM ban đầu sử dụng các phần nhúng vị trí cố định dựa trên các hàm hình sin, trong khi các mô hình gần đây hơn đã khám phá các phần nhúng vị trí có thể học được hoặc các kỹ thuật mã hóa vị trí thay thế như phần nhúng vị trí quay.

Khối chú ý nhiều đầu

Các khối xây dựng cốt lõi của LLM dựa trên bộ giải mã là các lớp chú ý nhiều đầu, thực hiện hoạt động tự chú ý được che đậy được mô tả trước đó. Các lớp này được xếp chồng lên nhau nhiều lần, với mỗi lớp tham gia vào đầu ra của lớp trước, cho phép mô hình nắm bắt được các biểu diễn và sự phụ thuộc ngày càng phức tạp.

người đứng đầu chú ý: Mỗi lớp chú ý nhiều đầu bao gồm nhiều “đầu chú ý”, mỗi lớp có tập hợp các phép chiếu truy vấn, khóa và giá trị riêng. Điều này cho phép mô hình tham gia đồng thời vào các khía cạnh khác nhau của đầu vào, nắm bắt các mối quan hệ và mẫu đa dạng.

Kết nối dư và chuẩn hóa lớp: Để tạo điều kiện thuận lợi cho việc đào tạo mạng sâu và giảm thiểu vấn đề biến mất độ dốc, LLM dựa trên bộ giải mã sử dụng các kết nối dư và kỹ thuật chuẩn hóa lớp. Các kết nối dư thêm đầu vào của một lớp vào đầu ra của nó, cho phép độ dốc di chuyển dễ dàng hơn trong quá trình truyền ngược. Chuẩn hóa lớp giúp ổn định kích hoạt và độ dốc, cải thiện hơn nữa tính ổn định và hiệu suất đào tạo.

Lớp chuyển tiếp nguồn cấp dữ liệu

Ngoài các lớp chú ý nhiều đầu, LLM dựa trên bộ giải mã còn kết hợp các lớp chuyển tiếp nguồn cấp dữ liệu, áp dụng mạng thần kinh chuyển tiếp nguồn cấp dữ liệu đơn giản cho từng vị trí trong chuỗi. Các lớp này giới thiệu tính phi tuyến tính và cho phép mô hình tìm hiểu các biểu diễn phức tạp hơn.

Chức năng kích hoạt: Việc lựa chọn chức năng kích hoạt trong các lớp chuyển tiếp nguồn cấp dữ liệu có thể tác động đáng kể đến hiệu suất của mô hình. Trong khi các LLM trước đó dựa vào kích hoạt ReLU được sử dụng rộng rãi, thì các mô hình gần đây hơn đã áp dụng các chức năng kích hoạt phức tạp hơn như Đơn vị tuyến tính lỗi Gaussian (GELU) hoặc kích hoạt SwiGLU, cho thấy hiệu suất được cải thiện.

Sự chú ý thưa thớt và máy biến áp hiệu quả

Mặc dù cơ chế tự chú ý rất mạnh mẽ nhưng nó đi kèm với độ phức tạp tính toán bậc hai đối với độ dài chuỗi, khiến nó trở nên đắt đỏ về mặt tính toán đối với các chuỗi dài. Để giải quyết thách thức này, một số kỹ thuật đã được đề xuất nhằm giảm yêu cầu tính toán và bộ nhớ của việc tự chú ý, cho phép xử lý hiệu quả các chuỗi dài hơn.

Chú ý thưa thớt: Các kỹ thuật chú ý thưa thớt, chẳng hạn như kỹ thuật được sử dụng trong mô hình GPT-3, chú ý có chọn lọc đến một tập hợp con các vị trí trong chuỗi đầu vào, thay vì tính điểm chú ý cho tất cả các vị trí. Điều này có thể làm giảm đáng kể độ phức tạp tính toán trong khi vẫn duy trì hiệu suất hợp lý.

Cửa sổ trượt Chú ý: Được giới thiệu trong mô hình Mistral 7B, sự chú ý của cửa sổ trượt (SWA) là một kỹ thuật đơn giản nhưng hiệu quả giúp hạn chế khoảng chú ý của từng mã thông báo ở một kích thước cửa sổ cố định. Cách tiếp cận này tận dụng khả năng của các lớp biến áp để truyền thông tin qua nhiều lớp, tăng khoảng chú ý một cách hiệu quả mà không cần sự phức tạp bậc hai của việc tự chú ý hoàn toàn.

Bộ đệm đệm cuộn: Để giảm thiểu hơn nữa yêu cầu về bộ nhớ, đặc biệt đối với các chuỗi dài, mẫu Mistral 7B sử dụng bộ đệm đệm cuộn. Kỹ thuật này lưu trữ và tái sử dụng các vectơ khóa và giá trị đã tính toán cho kích thước cửa sổ cố định, tránh tính toán dư thừa và giảm thiểu việc sử dụng bộ nhớ.

Chú ý truy vấn được nhóm: Được giới thiệu trong mô hình LLaMA 2, chú ý truy vấn được nhóm (GQA) là một biến thể của cơ chế chú ý nhiều truy vấn, chia các đầu chú ý thành các nhóm, mỗi nhóm chia sẻ một ma trận khóa và giá trị chung. Cách tiếp cận này tạo ra sự cân bằng giữa hiệu quả của việc chú ý nhiều truy vấn và hiệu suất của việc tự chú ý tiêu chuẩn, giúp cải thiện thời gian suy luận trong khi vẫn duy trì kết quả chất lượng cao.

Chú ý truy vấn theo nhóm

Kích thước và tỷ lệ mô hình

Một trong những đặc điểm xác định của LLM hiện đại là quy mô tuyệt đối của chúng, với số lượng tham số từ hàng tỷ đến hàng trăm tỷ. Việc tăng kích thước mô hình là một yếu tố quan trọng để đạt được hiệu suất tiên tiến, vì các mô hình lớn hơn có thể nắm bắt được các mẫu và mối quan hệ phức tạp hơn trong dữ liệu.

Số tham số: Số lượng tham số trong LLM dựa trên bộ giải mã chủ yếu được xác định bởi thứ nguyên nhúng (d_model), số lượng đầu chú ý (n_heads), số lớp (n_layers) và kích thước từ vựng (vocab_size). Ví dụ: mẫu GPT-3 có 175 tỷ thông số, với d_model = 12288, n_heads = 96, n_layers = 96và vocab_size = 50257.

Mô hình song song: Việc đào tạo và triển khai các mô hình lớn như vậy đòi hỏi nguồn lực tính toán đáng kể và phần cứng chuyên dụng. Để vượt qua thách thức này, các kỹ thuật song song mô hình đã được sử dụng, trong đó mô hình được chia thành nhiều GPU hoặc TPU, trong đó mỗi thiết bị chịu trách nhiệm cho một phần tính toán.

Sự kết hợp của các chuyên gia: Một cách tiếp cận khác để mở rộng quy mô LLM là kiến trúc hỗn hợp các chuyên gia (MoE), kết hợp nhiều mô hình chuyên gia, mỗi mô hình chuyên về một tập hợp con cụ thể của dữ liệu hoặc nhiệm vụ. Mô hình Mixtral 8x7B là một ví dụ về mô hình MoE thúc đẩy Mistral 7B làm mô hình cơ sở, đạt được hiệu suất vượt trội trong khi vẫn duy trì hiệu quả tính toán.

Suy luận và tạo văn bản

Một trong những trường hợp sử dụng chính của LLM dựa trên bộ giải mã là tạo văn bản, trong đó mô hình tạo ra văn bản mạch lạc và có âm thanh tự nhiên dựa trên lời nhắc hoặc ngữ cảnh nhất định.

Giải mã tự hồi quy: Trong quá trình suy luận, LLM dựa trên bộ giải mã sẽ tạo văn bản theo cách tự hồi quy, dự đoán từng mã thông báo một dựa trên mã thông báo được tạo trước đó và lời nhắc đầu vào. Quá trình này tiếp tục cho đến khi đáp ứng tiêu chí dừng xác định trước, chẳng hạn như đạt độ dài chuỗi tối đa hoặc tạo mã thông báo cuối chuỗi.

Chiến lược lấy mẫu: Để tạo ra văn bản đa dạng và thực tế, có thể sử dụng nhiều chiến lược lấy mẫu khác nhau, chẳng hạn như lấy mẫu top-k, lấy mẫu top-p (còn được gọi là lấy mẫu hạt nhân) hoặc chia tỷ lệ nhiệt độ. Những kỹ thuật này kiểm soát sự cân bằng giữa tính đa dạng và tính mạch lạc của văn bản được tạo ra bằng cách điều chỉnh phân bổ xác suất theo từ vựng.

Kỹ thuật nhanh chóng: Chất lượng và tính đặc hiệu của lời nhắc nhập có thể tác động đáng kể đến văn bản được tạo. Kỹ thuật nhắc nhở, nghệ thuật tạo ra các lời nhắc hiệu quả, đã nổi lên như một khía cạnh quan trọng của việc tận dụng LLM cho các nhiệm vụ khác nhau, cho phép người dùng hướng dẫn quy trình tạo mô hình và đạt được kết quả đầu ra mong muốn.

Giải mã con người trong vòng lặp: Để cải thiện hơn nữa chất lượng và tính mạch lạc của văn bản được tạo ra, các kỹ thuật như Học tăng cường từ phản hồi của con người (RLHF) đã được sử dụng. Theo cách tiếp cận này, người đánh giá là con người cung cấp phản hồi về văn bản được tạo của mô hình, sau đó được sử dụng để tinh chỉnh mô hình, điều chỉnh mô hình một cách hiệu quả cho phù hợp với sở thích của con người và cải thiện kết quả đầu ra của mô hình.

Những tiến bộ và định hướng tương lai

Lĩnh vực LLM dựa trên bộ giải mã đang phát triển nhanh chóng, với những nghiên cứu và đột phá mới liên tục vượt qua ranh giới mà những mô hình này có thể đạt được. Dưới đây là một số tiến bộ đáng chú ý và hướng đi tiềm năng trong tương lai:

Biến áp hiệu quả: Trong khi sự chú ý thưa thớt và sự chú ý của cửa sổ trượt đã có những bước tiến đáng kể trong việc cải thiện hiệu quả của LLM dựa trên bộ giải mã, các nhà nghiên cứu đang tích cực khám phá các kiến trúc máy biến áp thay thế và cơ chế chú ý để giảm hơn nữa yêu cầu tính toán trong khi vẫn duy trì hoặc cải thiện hiệu suất.

LLM đa phương thức: Mở rộng khả năng của LLM ngoài văn bản, các mô hình đa phương thức nhằm mục đích tích hợp nhiều phương thức, chẳng hạn như hình ảnh, âm thanh hoặc video, vào một khung thống nhất duy nhất. Điều này mở ra những khả năng thú vị cho các ứng dụng như tạo chú thích cho hình ảnh, trả lời câu hỏi bằng hình ảnh và tạo nội dung đa phương tiện.

Thế hệ có thể kiểm soát: Cho phép kiểm soát chi tiết đối với văn bản được tạo là một hướng đi đầy thách thức nhưng quan trọng đối với LLM. Các kỹ thuật như tạo văn bản có kiểm soát và điều chỉnh lời nhắc nhằm mục đích cung cấp cho người dùng khả năng kiểm soát chi tiết hơn đối với các thuộc tính khác nhau của văn bản được tạo, chẳng hạn như phong cách, tông màu hoặc các yêu cầu nội dung cụ thể.

Kết luận

LLM dựa trên bộ giải mã đã nổi lên như một lực lượng biến đổi trong lĩnh vực xử lý ngôn ngữ tự nhiên, vượt qua ranh giới của những gì có thể xảy ra với việc tạo và hiểu ngôn ngữ. Từ khởi đầu khiêm tốn là một biến thể đơn giản của kiến trúc máy biến áp, những mô hình này đã phát triển thành các hệ thống mạnh mẽ và tinh vi cao, tận dụng các kỹ thuật tiên tiến và đổi mới về kiến trúc.

Khi chúng tôi tiếp tục khám phá và nâng cao LLM dựa trên bộ giải mã, chúng tôi có thể mong đợi chứng kiến những thành tựu đáng chú ý hơn nữa trong các nhiệm vụ liên quan đến ngôn ngữ, cũng như việc tích hợp các mô hình này vào nhiều ứng dụng và lĩnh vực khác nhau. Tuy nhiên, điều quan trọng là phải giải quyết những cân nhắc về mặt đạo đức, những thách thức về khả năng diễn giải và những thành kiến tiềm ẩn có thể phát sinh từ việc triển khai rộng rãi các mô hình mạnh mẽ này.

Bằng cách luôn đi đầu trong nghiên cứu, thúc đẩy sự hợp tác cởi mở và duy trì cam kết mạnh mẽ đối với việc phát triển AI có trách nhiệm, chúng tôi có thể khai thác toàn bộ tiềm năng của LLM dựa trên bộ giải mã trong khi đảm bảo chúng được phát triển và sử dụng theo cách an toàn, có đạo đức và có lợi cho xã hội.

Chủ đề liên quan:HOA bộ giải mã GPT-3 LLM Lòng bàn tay KỸ THUẬT NHANH CHÓNG tự chú ý máy biến áp

Powerhouse cỡ bỏ túi: Ra mắt Phi-3 của Microsoft, Mô hình ngôn ngữ phù hợp với điện thoại của bạn

Đừng bỏ lỡ

Mini-Gemini: Khai thác tiềm năng của các mô hình ngôn ngữ thị giác đa phương thức

Aayush Mittal

Tôi đã dành 50 năm qua để đắm mình trong thế giới hấp dẫn của Học máy và Học sâu. Niềm đam mê và chuyên môn của tôi đã giúp tôi đóng góp cho hơn XNUMX dự án kỹ thuật phần mềm đa dạng, đặc biệt tập trung vào AI/ML. Sự tò mò không ngừng của tôi cũng đã lôi kéo tôi đến với Xử lý ngôn ngữ tự nhiên, một lĩnh vực mà tôi háo hức khám phá thêm.

đoàn kết.AI

Mô hình ngôn ngữ lớn dựa trên bộ giải mã: Hướng dẫn đầy đủ

Trí tuệ nhân tạo

Mô hình ngôn ngữ lớn dựa trên bộ giải mã: Hướng dẫn đầy đủ

Mục lục

Kiến trúc máy biến áp: Làm mới lại

Tự chú ý: Chìa khóa thành công của Transformer