sơ khai LoReFT: Tinh chỉnh biểu diễn cho các mô hình ngôn ngữ - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

LoReFT: Tinh chỉnh biểu diễn cho các mô hình ngôn ngữ

mm

Được phát hành

 on

LoReFT: Tinh chỉnh biểu diễn cho các mô hình ngôn ngữ

Các phương pháp tinh chỉnh tham số hoặc PeFT hiệu quả tìm cách điều chỉnh các mô hình ngôn ngữ lớn thông qua cập nhật cho một số lượng nhỏ. Tuy nhiên, phần lớn công việc giải thích hiện tại đã chứng minh rằng các biểu diễn mã hóa thông tin giàu ngữ nghĩa, cho thấy rằng nó có thể là một giải pháp thay thế tốt hơn và mạnh mẽ hơn để chỉnh sửa các biểu diễn này. Các mô hình lớn được đào tạo trước thường được tinh chỉnh để sử dụng cho các miền hoặc nhiệm vụ mới và trong quá trình tinh chỉnh, một mô hình cơ sở duy nhất có thể được điều chỉnh cho phù hợp với nhiều nhiệm vụ khác nhau ngay cả khi chỉ có sẵn một lượng nhỏ dữ liệu trong miền đến mô hình. Tuy nhiên, quá trình tinh chỉnh toàn bộ mô hình tốn nhiều tài nguyên và tốn kém, đặc biệt đối với các mô hình ngôn ngữ có số lượng kích thước và tham số cao hơn đáng kể. 

Các phương pháp tinh chỉnh tham số hiệu quả hoặc PeFT đề xuất giải quyết chi phí cao liên quan đến việc tinh chỉnh toàn bộ mô hình bằng cách chỉ cập nhật một lượng nhỏ trong tổng trọng lượng có sẵn, một quy trình giúp giảm thời gian đào tạo cùng với việc sử dụng bộ nhớ. Điều quan trọng hơn là các phương pháp tinh chỉnh tham số hiệu quả hoặc PeFT đã chứng tỏ hiệu suất tương tự như Finetune trong một số cài đặt thực tế. Bộ điều hợp, một nhóm phổ biến của các phương pháp tinh chỉnh tham số hoặc PeFT, tìm hiểu một chỉnh sửa có thể được thêm vào một tập trọng số bổ sung hoạt động cùng với mô hình cơ sở cố định, với các bộ điều hợp gần đây như LoRA làm giảm số lượng tham số có thể huấn luyện trong đã học cập nhật trọng số bằng cách sử dụng các phép tính gần đúng thứ hạng thấp thay vì ma trận trọng số đầy đủ khi huấn luyện bộ điều hợp. 

Với các công trình trước đây chứng minh các biểu diễn chỉnh sửa có thể là giải pháp thay thế tốt hơn cho các phương pháp Tinh chỉnh tham số hoặc PeFT hiệu quả, trong bài viết này, chúng ta sẽ nói về các phương pháp Tinh chỉnh biểu diễn hoặc ReFT hoạt động trên mô hình cố định và tìm hiểu các tác vụ cụ thể can thiệp vào các biểu diễn ẩn. Bài viết này nhằm mục đích trình bày sâu về khung Tinh chỉnh ReFt hoặc Biểu diễn và chúng tôi khám phá cơ chế, phương pháp luận, kiến ​​trúc của khung cùng với sự so sánh của nó với các khung hiện đại. Vậy hãy bắt đầu. 

ReFT: Tinh chỉnh cách biểu diễn cho các mô hình ngôn ngữ

Trong nỗ lực áp dụng các mô hình ngôn ngữ được đào tạo trước cho các lĩnh vực và nhiệm vụ mới, các khung hiện tại thường xuyên tinh chỉnh các mô hình ngôn ngữ được đào tạo trước này cũng như khi quá trình tinh chỉnh được triển khai, một mô hình cơ sở duy nhất có thể được điều chỉnh cho phù hợp với nhiều nhiệm vụ khác nhau. khi làm việc với một lượng nhỏ dữ liệu trong miền. Mặc dù quá trình tinh chỉnh giúp tăng hiệu suất tổng thể nhưng đây là một quá trình tốn kém, đặc biệt nếu mô hình ngôn ngữ có số lượng tham số cao đáng kể. Để giải quyết vấn đề này và giảm chi phí liên quan, PeFT hoặc Hiệu quả tham số khung tinh chỉnh chỉ cập nhật một phần nhỏ trong tổng trọng lượng, một quá trình không chỉ giảm thời gian đào tạo mà còn giảm mức sử dụng bộ nhớ, cho phép khung PeFT đạt được hiệu suất tương tự khi so sánh với các phương pháp tinh chỉnh hoàn toàn trong các tình huống thực tế. Bộ điều hợp, một họ PeFT phổ biến, hoạt động bằng cách học một bản chỉnh sửa có thể được thêm vào một tập trọng số bổ sung cùng với một tập hợp con các trọng số hoạt động đồng bộ với mô hình cơ sở có trọng số cố định. Các khung bộ điều hợp gần đây như LoRA và QLoRA đã chứng minh rằng có thể đào tạo các bộ điều hợp có độ chính xác hoàn toàn trên các mô hình có độ chính xác giảm mà không ảnh hưởng đến hiệu suất. Bộ điều hợp thường hiệu quả và hiệu quả hơn khi so sánh với các phương pháp khác giới thiệu các thành phần mô hình mới. 

Điểm nổi bật chính của các khung tinh chỉnh hiệu quả về tham số hiện đại là thay vì sửa đổi cách biểu diễn, chúng sửa đổi trọng số. Tuy nhiên, các khuôn khổ xử lý khả năng diễn giải đã chứng minh rằng các biểu diễn mã hóa thông tin ngữ nghĩa phong phú, cho thấy rằng việc chỉnh sửa các biểu diễn có thể là một cách tiếp cận tốt hơn và mạnh mẽ hơn khi so sánh với các cập nhật trọng số. Giả định về việc chỉnh sửa biểu diễn là cách tiếp cận tốt hơn chính là nền tảng của ReFT hoặc Khung Tinh chỉnh biểu diễn để đào tạo các biện pháp can thiệp thay vì điều chỉnh trọng số mô hình, cho phép mô hình thao tác một phần nhỏ của tất cả các biểu diễn nhằm cố gắng điều khiển các hành vi của mô hình để giải quyết các nhiệm vụ tiếp theo trong quá trình suy luận. Các phương pháp Tinh chỉnh ReFT hoặc Biểu diễn là các phương pháp thay thế sẵn có cho các khung tinh chỉnh PeFT dựa trên trọng lượng hoặc Hiệu quả tham số. Cách tiếp cận ReFT lấy cảm hứng từ các mô hình gần đây hoạt động với khả năng diễn giải mô hình lớn, can thiệp vào các biểu diễn để tìm ra cơ chế nhân quả trung thực và điều khiển hành vi của mô hình trong quá trình suy luận, do đó có thể được coi là sự khái quát hóa của các mô hình chỉnh sửa biểu diễn. Dựa trên nền tảng tương tự, LoReFT hoặc ReFT không gian con thứ hạng thấp là một phiên bản mạnh mẽ và hiệu quả của ReFT và là một tham số hóa của ReFT can thiệp vào các biểu diễn ẩn trong không gian tuyến tính được bao trùm bởi ma trận chiếu thứ hạng thấp và xây dựng trực tiếp trên DAS hoặc Khung tìm kiếm căn chỉnh phân tán. 

Ngoài ra, trái ngược với việc tinh chỉnh hoàn toàn, khung tinh chỉnh hiệu quả về Thông số hoặc PeFT chỉ huấn luyện một phần nhỏ các tham số của mô hình và quản lý để điều chỉnh mô hình cho phù hợp với các tác vụ tiếp theo. Khung tinh chỉnh tham số hiệu quả có thể được phân thành ba loại chính:

  • Các phương pháp dựa trên bộ chuyển đổi: Các phương pháp dựa trên bộ điều hợp đào tạo các mô-đun bổ sung giống như các lớp được kết nối đầy đủ trên mô hình được đào tạo trước với trọng số cố định. Bộ điều hợp sê-ri chèn các thành phần giữa perceptron đa lớp hoặc MLP và LM hoặc các lớp chú ý mô hình lớn, trong khi bộ điều hợp song song thêm mô-đun cùng với các thành phần hiện có. Vì các bộ điều hợp bổ sung thêm các thành phần mới không thể dễ dàng xếp lại thành các trọng lượng mô hình hiện có nên chúng gây thêm gánh nặng trong quá trình suy luận. 
  • LoRA: LoRA cùng với các biến thể gần đây của nó ước tính các trọng số bổ sung trong quá trình huấn luyện bằng cách sử dụng các ma trận xếp hạng thấp và chúng không yêu cầu chi phí bổ sung trong quá trình suy luận vì các cập nhật trọng số có thể được hợp nhất vào mô hình và đó là lý do tại sao chúng được coi là hiện tại. khung PeFT mạnh nhất. 
  • Phương pháp dựa trên lời nhắc: Các phương pháp dựa trên lời nhắc sẽ thêm các mã thông báo mềm được khởi tạo ngẫu nhiên vào đầu vào và huấn luyện các phần nhúng của chúng trong khi vẫn giữ cố định trọng số của mô hình ngôn ngữ. Hiệu suất mà các phương pháp này mang lại thường không đạt yêu cầu khi so sánh với các phương pháp PeFT khác và chúng cũng có chi phí suy luận đáng kể. 

Thay vì cập nhật trọng số, khung ReFT tìm hiểu các biện pháp can thiệp để sửa đổi một phần nhỏ trong tổng số biểu diễn. Hơn nữa, các công trình gần đây về kỹ thuật biểu diễn và điều khiển kích hoạt đã chứng minh rằng việc thêm vectơ điều khiển cố định vào luồng dư có thể tạo điều kiện thuận lợi cho mức độ kiểm soát đối với các thế hệ mô hình lớn được đào tạo trước mà không yêu cầu nhiều tài nguyên. tinh chỉnh. Các khung khác đã chứng minh rằng việc chỉnh sửa các biểu diễn bằng thao tác dịch và chia tỷ lệ đã học có thể cố gắng khớp nhưng không vượt qua hiệu suất do bộ điều hợp LoRA cung cấp trên một loạt các tác vụ với ít tham số đã học hơn. Hơn nữa, sự thành công của các khung này trong một loạt nhiệm vụ đã chứng minh rằng các biểu diễn được giới thiệu bởi các mô hình ngôn ngữ được đào tạo trước mang ngữ nghĩa phong phú, mặc dù hiệu suất của các mô hình này chưa tối ưu, khiến PeFT tiếp tục là phương pháp tiếp cận hiện đại. không có gánh nặng suy luận bổ sung. 

ReFT: Phương pháp luận và kiến ​​trúc

Để giữ cho quá trình bảo tồn kiểu dáng đơn giản, khung ReFT giả định một mô hình lớn dựa trên máy biến áp làm mô hình mục tiêu có khả năng tạo ra biểu diễn theo ngữ cảnh của chuỗi mã thông báo. Đối với một chuỗi nhất định có n số lượng mã thông báo đầu vào, trước tiên, khung ReFT nhúng các mã thông báo đầu vào này vào một danh sách các biểu diễn, sau đó m lớp tính toán danh sách các biểu diễn ẩn liên tiếp như một hàm của danh sách các biểu diễn ẩn trước đó. Mỗi biểu diễn ẩn là một vectơ và mô hình ngôn ngữ sử dụng các biểu diễn ẩn cuối cùng để đưa ra dự đoán. Khung ReFT xem xét cả mô hình ngôn ngữ bị che và mô hình ngôn ngữ tự hồi quy. Bây giờ, theo giả thuyết biểu diễn tuyến tính, trong mạng nơ-ron, các khái niệm được mã hóa trong các không gian con tuyến tính của các biểu diễn. Các mô hình gần đây đã nhận thấy tuyên bố này đúng trong các mô hình mạng thần kinh được đào tạo về ngôn ngữ tự nhiên cùng với các phân phối đầu vào khác. 

Hơn nữa, trong các nghiên cứu về khả năng diễn giải, khung trừu tượng thông thường sử dụng các biện pháp can thiệp trao đổi để thiết lập vai trò của các thành phần mạng thần kinh một cách ngẫu nhiên khi thực hiện các hành vi cụ thể. Logic đằng sau sự can thiệp trao đổi là nếu một người sửa một biểu diễn thành những gì nó có thể có đối với đầu vào phản thực tế và sự can thiệp này ảnh hưởng đến đầu ra của mô hình một cách nhất quán theo cách mà các tuyên bố của khung ReFT về thành phần chịu trách nhiệm tạo ra biểu diễn đó thì thành phần đó đóng vai trò nguyên nhân trong hành vi. Mặc dù có một số phương pháp, nhưng can thiệp trao đổi phân tán là cách tiếp cận lý tưởng để kiểm tra xem một khái niệm có được mã hóa trong không gian con tuyến tính của một biểu diễn hay không, như giả thuyết biểu diễn tuyến tính đã khẳng định. Hơn nữa, phương pháp DAS đã được sử dụng trước đây để tìm biểu diễn tuyến tính trong các mô hình ngôn ngữ của các thuộc tính thực thể, tình cảm, đặc điểm ngôn ngữ và lý luận toán học. Tuy nhiên, một số thử nghiệm đã chỉ ra rằng phương pháp DAS có tính biểu cảm cao và nó có khả năng tìm ra các không gian con hiệu quả nhân quả ngay cả khi mô hình ngôn ngữ biến áp được khởi tạo ngẫu nhiên và do đó vẫn chưa học được bất kỳ biểu diễn cụ thể nào của nhiệm vụ, dẫn đến tranh luận liệu DAS có đủ hiệu quả và chịu trách nhiệm cho các nhiệm vụ có thể diễn giải được hay không. 

Tính biểu cảm được cung cấp bởi DAS cho thấy rằng cách tiếp cận này có thể là một công cụ lý tưởng để kiểm soát hành vi của mô hình ngôn ngữ cùng với công việc của nó trong việc tạo ra có thể kiểm soát và chỉnh sửa có trách nhiệm. Do đó, để điều chỉnh các mô hình ngôn ngữ cho các tác vụ xuôi dòng, khung ReFT sử dụng hoạt động can thiệp trao đổi phân tán để tạo ra một phương pháp tham số mới hiệu quả. Hơn nữa, phương pháp ReFT là một tập hợp các biện pháp can thiệp và khung thực thi rằng đối với bất kỳ hai biện pháp can thiệp nào hoạt động trên cùng một lớp, các vị trí can thiệp phải tách rời nhau, với các tham số của tất cả các chức năng can thiệp vẫn độc lập. Do đó, ReFT là một khung chung bao gồm các biện pháp can thiệp vào các biểu diễn ẩn trong quá trình chuyển tiếp mô hình. 

ReFT: Thử nghiệm và kết quả

Để đánh giá hiệu suất của nó so với các khung PEFT hiện có, khung ReFT tiến hành thử nghiệm trên bốn tiêu chuẩn xử lý ngôn ngữ tự nhiên đa dạng và bao gồm hơn 20 bộ dữ liệu, với mục tiêu chính là cung cấp bức tranh phong phú về cách khung LoReFT hoạt động trong các tình huống khác nhau. Hơn nữa, khi khung LoReFT được triển khai trong đời thực, các nhà phát triển cần quyết định xem có bao nhiêu biện pháp can thiệp cần tìm hiểu cùng với các vị trí và lớp đầu vào để áp dụng từng biện pháp can thiệp đó. Để hoàn thành nhiệm vụ, khung ReFT điều chỉnh bốn siêu tham số. 

  1. Số vị trí tiền tố cần can thiệp vào. 
  2. Số vị trí hậu tố cần can thiệp vào. 
  3. Tập hợp các lớp nào để can thiệp vào. 
  4. Có hay không liên kết các tham số can thiệp trên các vị trí khác nhau trong cùng một lớp. 

Bằng cách thực hiện điều này, khung ReFT đơn giản hóa không gian tìm kiếm siêu tham số và chỉ đảm bảo chi phí suy luận bổ sung cố định không tăng theo độ dài của lời nhắc. 

Bảng trên so sánh độ chính xác của khung LLaMA-7B và LLaMA-13B với các mô hình PEFT hiện có trên 8 tập dữ liệu lý luận thông thường. Như có thể thấy, mô hình LoReFT vượt trội hơn các phương pháp tiếp cận PEFT hiện tại ở mức khá, mặc dù có ít tham số hơn nhiều, với hiệu suất trung bình của ba lần chạy được báo cáo với các hạt tham số riêng biệt cho mô hình LoReFT. Thông số (%) được tính bằng cách chia số lượng tham số có thể huấn luyện được với tổng số tham số của mô hình lớn cơ sở. 

Bảng trên tóm tắt so sánh độ chính xác của khung LLaMA-7B và LLaMA-13B với các mô hình PEFT hiện có trên 4 bộ dữ liệu lý luận số học khác nhau, trong đó khung báo cáo hiệu suất trung bình của ba lần chạy với các hạt giống ngẫu nhiên riêng biệt. Như có thể thấy, mặc dù có ít thông số hơn nhiều (%), khung LoReFT vẫn hoạt động tốt hơn các khung PEFT hiện tại một cách đáng kể. 

Bảng trên tóm tắt so sánh độ chính xác của khung RoBERTa-base và RoBERTa-large với các mô hình PEFT hiện có trên điểm chuẩn GLUE, với khung báo cáo hiệu suất trung bình của 5 lần chạy với các hạt giống ngẫu nhiên riêng biệt. Như có thể thấy, mặc dù có ít thông số hơn nhiều (%), khung LoReFT vẫn hoạt động tốt hơn các khung PEFT hiện tại một cách đáng kể. 

Kết luận:

Trong bài viết này, chúng ta đã nói về LoReFT, một giải pháp thay thế mạnh mẽ cho các khung PEFT hiện có, giúp đạt được hiệu suất mạnh mẽ trên các điểm chuẩn từ bốn miền khác nhau, đồng thời mang lại hiệu quả gấp tới 50 lần so với các mô hình PEFT hiện đại trước đây. Các mô hình lớn được đào tạo trước thường được tinh chỉnh để sử dụng cho các miền hoặc nhiệm vụ mới và trong quá trình tinh chỉnh, một mô hình cơ sở duy nhất có thể được điều chỉnh cho phù hợp với nhiều nhiệm vụ khác nhau ngay cả khi chỉ có sẵn một lượng nhỏ dữ liệu trong miền đến mô hình. Tuy nhiên, quá trình tinh chỉnh toàn bộ mô hình tốn nhiều tài nguyên và tốn kém, đặc biệt đối với các mô hình ngôn ngữ có số lượng kích thước và tham số cao hơn đáng kể. Các phương pháp tinh chỉnh tham số hiệu quả hoặc PeFT đề xuất giải quyết chi phí cao liên quan đến việc tinh chỉnh toàn bộ mô hình bằng cách chỉ cập nhật một lượng nhỏ trong tổng trọng lượng có sẵn, một quy trình giúp giảm thời gian đào tạo cùng với việc sử dụng bộ nhớ. Đáng chú ý, LoReFT thiết lập hiệu suất tiên tiến mới về lý luận thông thường, làm theo hướng dẫn và hiểu ngôn ngữ tự nhiên so với các PEFT mạnh nhất.

"Kỹ sư chuyên nghiệp, nhà văn có tâm". Kunal là một nhà văn kỹ thuật có niềm yêu thích và hiểu biết sâu sắc về AI và ML, chuyên đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và nhiều thông tin của mình.