sơ khai Hiểu tinh chỉnh LLM: Điều chỉnh các mô hình ngôn ngữ lớn theo yêu cầu riêng của bạn - Unite.AI
Kết nối với chúng tôi

Kỹ thuật nhanh chóng

Hiểu tinh chỉnh LLM: Điều chỉnh các mô hình ngôn ngữ lớn theo yêu cầu riêng của bạn

mm
cập nhật on
Biểu diễn tinh chỉnh LLM - Midjourney

Khi chúng ta đang ở vào tháng 2023 năm XNUMX, bối cảnh của các Mô hình Ngôn ngữ Lớn (LLM) vẫn đang chứng kiến ​​​​sự trỗi dậy của các mô hình bao gồm Alpaca, Falcon, lạc đà không bướu 2, GPT-4 và nhiều loại khác.

Một khía cạnh quan trọng của việc tận dụng tiềm năng của các LLM này nằm ở quy trình tinh chỉnh, một chiến lược cho phép tùy chỉnh các mô hình được đào tạo trước để phục vụ chính xác cho các nhiệm vụ cụ thể. Thông qua việc tinh chỉnh này, các mô hình này có thể thực sự phù hợp với các yêu cầu cá nhân, đưa ra các giải pháp vừa mang tính đổi mới vừa phù hợp với các nhu cầu riêng biệt.

Tuy nhiên, điều cần lưu ý là không phải tất cả các phương pháp tinh chỉnh đều được tạo ra như nhau. Ví dụ: việc truy cập các khả năng tinh chỉnh của GPT-4 phải trả phí, yêu cầu đăng ký trả phí tương đối đắt hơn so với các tùy chọn khác có sẵn trên thị trường. Mặt khác, miền nguồn mở đang nhộn nhịp với các lựa chọn thay thế mang lại con đường dễ tiếp cận hơn để khai thác sức mạnh của các mô hình ngôn ngữ lớn. Các tùy chọn nguồn mở này dân chủ hóa quyền truy cập vào công nghệ AI tiên tiến, thúc đẩy sự đổi mới và tính toàn diện trong bối cảnh AI đang phát triển nhanh chóng.

Tại sao việc tinh chỉnh LLM lại quan trọng?

Tinh chỉnh LLM không chỉ là cải tiến kỹ thuật; đó là một khía cạnh quan trọng của việc phát triển mô hình LLM cho phép ứng dụng cụ thể và tinh tế hơn trong các nhiệm vụ khác nhau. Tinh chỉnh điều chỉnh các mô hình được đào tạo trước để phù hợp hơn với các bộ dữ liệu cụ thể, nâng cao hiệu suất của chúng trong các tác vụ cụ thể và đảm bảo ứng dụng được nhắm mục tiêu nhiều hơn. Nó mang lại khả năng vượt trội của LLM trong việc thích ứng với dữ liệu mới, thể hiện tính linh hoạt rất quan trọng trong mối quan tâm ngày càng tăng đối với các ứng dụng AI.

Việc tinh chỉnh các mô hình ngôn ngữ lớn mở ra rất nhiều cơ hội, cho phép chúng thực hiện xuất sắc các nhiệm vụ cụ thể, từ phân tích tình cảm đến đánh giá tài liệu y khoa. Bằng cách điều chỉnh mô hình cơ sở cho phù hợp với trường hợp sử dụng cụ thể, chúng tôi mở ra những khả năng mới, nâng cao hiệu quả và độ chính xác của mô hình. Hơn nữa, nó tạo điều kiện cho việc sử dụng tài nguyên hệ thống tiết kiệm hơn vì việc tinh chỉnh đòi hỏi ít sức mạnh tính toán hơn so với việc đào tạo một mô hình từ đầu.

Khi đi sâu hơn vào hướng dẫn này, chúng tôi sẽ thảo luận về những điểm phức tạp của việc tinh chỉnh LLM, cung cấp cho bạn cái nhìn tổng quan toàn diện dựa trên những tiến bộ mới nhất và các phương pháp hay nhất trong lĩnh vực này.

Tinh chỉnh dựa trên hướng dẫn

Giai đoạn tinh chỉnh trong Trí tuệ nhân tạo vòng đời, được minh họa trong hình bên dưới, được đặc trưng bởi sự tích hợp của đầu vào và đầu ra hướng dẫn, cùng với các ví dụ về lý luận từng bước. Cách tiếp cận này tạo điều kiện thuận lợi cho mô hình tạo ra các phản hồi không chỉ phù hợp mà còn phù hợp chính xác với các hướng dẫn cụ thể được đưa vào mô hình. Trong giai đoạn này, các mô hình được đào tạo trước sẽ được điều chỉnh để giải quyết các nhiệm vụ và trường hợp sử dụng riêng biệt, sử dụng các bộ dữ liệu được cá nhân hóa để nâng cao chức năng của chúng.

Vòng đời AI sáng tạo - Tinh chỉnh, Kỹ thuật nhanh chóng và RLHF

Vòng đời AI sáng tạo – Tinh chỉnh

Tinh chỉnh một tác vụ

Tinh chỉnh một tác vụ tập trung vào việc trau dồi kiến ​​thức chuyên môn của mô hình trong một nhiệm vụ cụ thể, chẳng hạn như tóm tắt. Cách tiếp cận này đặc biệt có lợi trong việc tối ưu hóa quy trình làm việc liên quan đến các tài liệu hoặc chuỗi hội thoại quan trọng, bao gồm các tài liệu pháp lý và phiếu hỗ trợ khách hàng. Đáng chú ý, việc tinh chỉnh này có thể đạt được những cải tiến hiệu suất đáng kể với một tập hợp ví dụ tương đối nhỏ, từ 500 đến 1000, trái ngược với hàng tỷ mã thông báo được sử dụng trong giai đoạn tiền đào tạo.

Minh họa ví dụ về tinh chỉnh một tác vụ

Minh họa ví dụ về tinh chỉnh một tác vụ

 

Nền tảng của LLM Tinh chỉnh LLM: Kiến trúc máy biến áp và hơn thế nữa

Hành trình tìm hiểu tinh chỉnh LLM bắt đầu bằng việc nắm bắt các yếu tố nền tảng cấu thành LLM. Trọng tâm của những mô hình này nằm ở kiến trúc máy biến áp, một mạng lưới thần kinh tận dụng các cơ chế tự chú ý để ưu tiên ngữ cảnh của các từ hơn là độ gần của chúng trong câu. Cách tiếp cận sáng tạo này tạo điều kiện cho sự hiểu biết sâu sắc hơn về mối quan hệ xa cách giữa các mã thông báo trong đầu vào.

Khi tìm hiểu những điểm phức tạp của máy biến áp, chúng tôi gặp phải một quy trình gồm nhiều bước bắt đầu bằng bộ mã hóa. Giai đoạn ban đầu này liên quan đến việc mã hóa đầu vào và tạo các vectơ nhúng đại diện cho đầu vào và vị trí của nó trong câu. Các giai đoạn tiếp theo bao gồm một loạt các phép tính sử dụng ma trận được gọi là Query, Giá trịKey, đạt đến đỉnh điểm là điểm tự chú ý chỉ ra sự tập trung vào các phần khác nhau của câu và các dấu hiệu khác nhau.

Kiến trúc máy biến áp

Kiến trúc máy biến áp

Tinh chỉnh là một giai đoạn quan trọng trong quá trình phát triển LLM, một quá trình đòi hỏi phải thực hiện các điều chỉnh tinh tế để đạt được kết quả đầu ra mong muốn hơn. Giai đoạn này, mặc dù rất cần thiết, nhưng lại đặt ra một loạt thách thức, bao gồm nhu cầu tính toán và lưu trữ để xử lý một số lượng lớn các tham số. Tinh chỉnh hiệu quả tham số (PEFT) cung cấp các kỹ thuật để giảm số lượng tham số cần tinh chỉnh, từ đó đơn giản hóa quá trình đào tạo.

Đào tạo trước LLM: Thiết lập nền tảng vững chắc

Trong các giai đoạn đầu của quá trình phát triển LLM, việc đào tạo trước chiếm vị trí trung tâm, sử dụng các máy biến áp được tham số hóa quá mức làm kiến ​​trúc nền tảng. Quá trình này liên quan đến việc mô hình hóa ngôn ngữ tự nhiên theo nhiều cách khác nhau như hai chiều, tự hồi quy hoặc tuần tự trên tập văn bản không được giám sát quy mô lớn. Mục tiêu ở đây là tạo ra một cơ sở có thể được tinh chỉnh sau này cho các nhiệm vụ cụ thể ở phía sau thông qua việc đưa ra các mục tiêu cụ thể cho từng nhiệm vụ.

Đào tạo trước, Tinh chỉnh

Đào tạo trước, Tinh chỉnh

Một xu hướng đáng chú ý trong lĩnh vực này là sự gia tăng không thể tránh khỏi về quy mô của LLM được đào tạo trước, được đo bằng số lượng tham số. Dữ liệu thực nghiệm nhất quán cho thấy rằng các mô hình lớn hơn kết hợp với nhiều dữ liệu hơn hầu như luôn mang lại hiệu suất tốt hơn. Ví dụ: GPT-3, với 175 tỷ thông số, đã đặt ra tiêu chuẩn trong việc tạo ra ngôn ngữ tự nhiên chất lượng cao và thực hiện thành thạo nhiều tác vụ không cần chụp.

Tinh chỉnh: Con đường dẫn đến điều chỉnh mô hình

Sau quá trình đào tạo trước, LLM trải qua quá trình tinh chỉnh để thích ứng với các nhiệm vụ cụ thể. Mặc dù hiệu suất đầy hứa hẹn được thể hiện qua việc học theo ngữ cảnh trong các LLM được đào tạo trước như GPT-3, việc tinh chỉnh vẫn vượt trội trong cài đặt theo nhiệm vụ cụ thể. Tuy nhiên, cách tiếp cận phổ biến về tinh chỉnh tham số đầy đủ đặt ra những thách thức, bao gồm nhu cầu tính toán và bộ nhớ cao, đặc biệt là khi xử lý các mô hình quy mô lớn.

Đối với các mô hình ngôn ngữ lớn với hơn một tỷ tham số, việc quản lý RAM GPU hiệu quả là điều then chốt. Một tham số mô hình duy nhất ở độ chính xác tối đa 32 bit cần 4 byte dung lượng, nghĩa là yêu cầu 4GB RAM GPU chỉ để tải mô hình tham số 1 tỷ. Quá trình đào tạo thực tế thậm chí còn đòi hỏi nhiều bộ nhớ hơn để chứa các thành phần khác nhau bao gồm trạng thái tối ưu hóa và độ dốc, có khả năng cần tới 80GB RAM GPU cho một mô hình ở quy mô này.

Để giải quyết các hạn chế của RAM GPU, lượng tử hóa được sử dụng, đây là một kỹ thuật làm giảm độ chính xác của các tham số mô hình, do đó giảm yêu cầu bộ nhớ. Ví dụ: việc thay đổi độ chính xác từ 32 bit thành 16 bit có thể giảm một nửa bộ nhớ cần thiết cho cả việc tải và huấn luyện mô hình. Sau này trong bài viết này. chúng ta sẽ tìm hiểu về Qlora sử dụng khái niệm lượng tử hóa để điều chỉnh.

Yêu cầu bộ nhớ GPU LLM wrt. số lượng thông số và độ chính xác

Yêu cầu bộ nhớ GPU LLM wrt. số lượng thông số và độ chính xác

 

Khám phá các loại phương pháp PEFT

Trong quá trình tinh chỉnh hoàn toàn các Mô hình ngôn ngữ lớn, điều quan trọng là phải có một thiết lập tính toán có thể xử lý hiệu quả không chỉ trọng lượng mô hình đáng kể mà đối với các mô hình tiên tiến nhất hiện đang đạt kích thước hàng trăm gigabyte, mà còn quản lý hàng loạt yếu tố quan trọng khác. Chúng bao gồm việc phân bổ bộ nhớ cho các trạng thái tối ưu hóa, quản lý độ dốc, kích hoạt chuyển tiếp và tạo điều kiện cho bộ nhớ tạm thời trong các giai đoạn khác nhau của quy trình đào tạo.

Phương pháp phụ gia

Kiểu điều chỉnh này có thể tăng cường mô hình được huấn luyện trước bằng các tham số hoặc lớp bổ sung, chỉ tập trung vào việc huấn luyện các tham số mới được thêm vào. Mặc dù tăng số lượng tham số, các phương pháp này vẫn nâng cao hiệu quả về thời gian và không gian đào tạo. Phương pháp phụ gia được chia thành các tiểu loại:

  • Adapters: Kết hợp các mạng nhỏ được kết nối đầy đủ sau các lớp con máy biến áp, với các ví dụ đáng chú ý là AdaMix, KronA, và Máy đầm.
  • Lời nhắc nhẹ nhàng: Tinh chỉnh một phân đoạn nhúng đầu vào của mô hình thông qua việc giảm độ dốc, với IPT, điều chỉnh tiền tốvà WARP là những ví dụ nổi bật.
  • Các phương pháp bổ sung khác: Bao gồm các kỹ thuật như LeTS, Tập trung chú ý và Điều chỉnh phía bậc thang.

Phương pháp chọn lọc

PEFT chọn lọc tinh chỉnh một số lớp trên cùng có giới hạn dựa trên loại lớp và cấu trúc mô hình bên trong. Danh mục này bao gồm các phương pháp như BitFitLN điều chỉnh, tập trung vào việc điều chỉnh các yếu tố cụ thể như độ lệch mô hình hoặc các hàng cụ thể.

Phương pháp dựa trên việc tái tham số hóa

Các phương pháp này sử dụng các biểu diễn cấp thấp để giảm số lượng tham số có thể huấn luyện, trong đó nổi tiếng nhất là Thích ứng cấp thấp hoặc LoRA. Phương pháp này tận dụng sự phân tách ma trận thứ hạng thấp đơn giản để tham số hóa việc cập nhật trọng số, thể hiện sự tinh chỉnh hiệu quả trong các không gian con thứ hạng thấp.

1) LoRA (Thích ứng cấp thấp)

LoRA nổi lên như một kỹ thuật PEFT mang tính đột phá, được giới thiệu trong một bài báo của Edward J. Hu và những người khác vào năm 2021. Nó hoạt động trong danh mục tham số hóa lại, đóng băng các trọng số ban đầu của LLM và tích hợp các ma trận cấp thấp có thể huấn luyện mới vào từng lớp của kiến ​​trúc Transformer. Cách tiếp cận này không chỉ làm giảm số lượng tham số có thể huấn luyện mà còn giảm thời gian huấn luyện và nguồn lực tính toán cần thiết, từ đó đưa ra giải pháp thay thế hiệu quả hơn cho việc tinh chỉnh hoàn toàn.

Để hiểu cơ chế của LoRA, người ta phải xem lại kiến ​​trúc máy biến áp trong đó dấu nhắc đầu vào trải qua quá trình mã hóa và chuyển đổi thành các vectơ nhúng. Các vectơ này đi qua các phân đoạn bộ mã hóa và/hoặc bộ giải mã của máy biến áp, gặp các mạng tự chú ý và mạng chuyển tiếp có trọng số đã được huấn luyện trước.

LoRA sử dụng khái niệm Phân rã giá trị số ít (SVD). Về cơ bản, SVD phân tích một ma trận thành ba ma trận riêng biệt, một trong số đó là ma trận đường chéo chứa các giá trị số ít. Các giá trị đơn lẻ này có vai trò then chốt vì chúng đánh giá tầm quan trọng của các chiều khác nhau trong ma trận, với các giá trị lớn hơn biểu thị tầm quan trọng cao hơn và các giá trị nhỏ hơn biểu thị tầm quan trọng thấp hơn.

Phân rã giá trị số ít (SVD) của ma trận hình chữ nhật m × n

Phân rã giá trị số ít (SVD) của Ma trận m × n

Cách tiếp cận này cho phép LoRA duy trì các đặc tính thiết yếu của dữ liệu trong khi giảm kích thước, từ đó tối ưu hóa quy trình tinh chỉnh.

LoRA can thiệp vào quá trình này, đóng băng tất cả các tham số mô hình ban đầu và đưa ra một cặp “ma trận phân rã thứ hạng” cùng với các trọng số ban đầu. Những ma trận nhỏ hơn này, ký hiệu là A và B, trải qua quá trình huấn luyện thông qua học tập có giám sát.

Yếu tố then chốt trong chiến lược này là tham số được gọi là thứ hạng ('r'), cho biết kích thước của ma trận thứ hạng thấp. Việc lựa chọn tỉ mỉ 'r' có thể mang lại kết quả ấn tượng, ngay cả với giá trị nhỏ hơn, từ đó tạo ra ma trận cấp thấp với ít tham số cần huấn luyện hơn. Chiến lược này đã được triển khai hiệu quả bằng cách sử dụng các thư viện nguồn mở như HuggingFace Transformers, tạo điều kiện tinh chỉnh LoRA cho nhiều tác vụ khác nhau với hiệu quả vượt trội.

2) QLoRA: Nâng cao hiệu quả LoRA

Xây dựng trên nền tảng do LoRA đặt ra, QLoRA tiếp tục giảm thiểu yêu cầu về bộ nhớ. Được giới thiệu bởi Tim Dettmers và những người khác vào năm 2023, nó kết hợp thích ứng cấp thấp với lượng tử hóa, sử dụng định dạng lượng tử hóa 4 bit được gọi là Bình thườngFloat or nf4. Lượng tử hóa về cơ bản là một quá trình chuyển đổi dữ liệu từ dạng biểu diễn mang tính thông tin cao hơn sang dạng biểu diễn có ít thông tin hơn. Cách tiếp cận này duy trì hiệu quả của các phương pháp tinh chỉnh 16 bit, giảm lượng tử trọng số 4 bit thành 16 bit khi cần thiết trong quá trình tính toán.

So sánh các phương pháp tinh chỉnh: QLORA tăng cường LoRA với lượng tử hóa chính xác 4 bit và trình tối ưu hóa phân trang để quản lý tăng đột biến bộ nhớ

So sánh các phương pháp tinh chỉnh: QLORA tăng cường LoRA với lượng tử hóa chính xác 4 bit và trình tối ưu hóa phân trang để quản lý tăng đột biến bộ nhớ

QLoRA tận dụng NumericFloat4 (nf4), nhắm mục tiêu đến mọi lớp trong kiến ​​trúc máy biến áp và đưa ra khái niệm lượng tử hóa kép để thu nhỏ hơn nữa dung lượng bộ nhớ cần thiết để tinh chỉnh. Điều này đạt được bằng cách thực hiện lượng tử hóa trên các hằng số đã được lượng tử hóa, một chiến lược ngăn chặn sự tăng đột biến của bộ nhớ điểm kiểm tra độ dốc điển hình thông qua việc sử dụng trình tối ưu hóa phân trang và quản lý bộ nhớ hợp nhất.

guanaco, là một tập hợp được điều chỉnh bởi QLORA, đặt ra tiêu chuẩn cho các giải pháp chatbot nguồn mở. Hiệu suất của nó, được xác nhận thông qua các đánh giá tự động và con người có hệ thống, nhấn mạnh sự thống trị và hiệu quả của nó trong lĩnh vực này.

Phiên bản 65B và 33B của Guanaco, được tinh chỉnh bằng cách sử dụng phiên bản sửa đổi của OAST1 tập dữ liệu, nổi lên như những đối thủ đáng gờm của các mô hình nổi tiếng như ChatGPT và thậm chí cả GPT-4.

Tinh chỉnh bằng cách sử dụng Học tăng cường từ phản hồi của con người

Học tăng cường từ phản hồi của con người (RLHF) phát huy tác dụng khi tinh chỉnh các mô hình ngôn ngữ được đào tạo trước để phù hợp hơn với các giá trị của con người. Khái niệm này được Open AI giới thiệu vào năm 2017, đặt nền tảng cho việc tóm tắt tài liệu nâng cao và phát triển Hướng dẫnGPT.

Cốt lõi của RLHF là mô hình học tăng cường, một loại kỹ thuật học máy trong đó đại lý học cách cư xử trong một môi trường bằng cách biểu diễn hành động và nhận phần thưởng. Đó là một vòng lặp liên tục của hoạt độngthông tin phản hồi, trong đó tác nhân được khuyến khích đưa ra những lựa chọn mang lại phần thưởng cao nhất.

Chuyển điều này sang lĩnh vực mô hình ngôn ngữ, đại lýkiểu mẫu bản thân nó, hoạt động trong môi trường của một cửa sổ ngữ cảnh nhất định và đưa ra quyết định dựa trên nhà nước, được xác định bởi các mã thông báo hiện tại trong cửa sổ ngữ cảnh. Các "không gian hành động” bao gồm tất cả các mã thông báo tiềm năng mà mô hình có thể chọn, với mục tiêu là chọn mã thông báo phù hợp nhất với sở thích của con người.

Quá trình RLHF tận dụng rộng rãi phản hồi của con người, sử dụng nó để đào tạo mô hình khen thưởng. Mô hình này đóng một vai trò quan trọng trong việc hướng dẫn mô hình được đào tạo trước trong quá trình tinh chỉnh, khuyến khích mô hình tạo ra kết quả đầu ra phù hợp hơn với các giá trị con người. Đó là một quá trình năng động và lặp đi lặp lại, trong đó mô hình học thông qua một loạt “triển khai”, một thuật ngữ dùng để mô tả chuỗi trạng thái và hành động dẫn đến phần thưởng trong bối cảnh tạo ra ngôn ngữ.

Một trong những tiềm năng đáng chú ý của RLHF là khả năng thúc đẩy quá trình cá nhân hóa trong trợ lý AI, điều chỉnh chúng để phù hợp với sở thích của từng người dùng, có thể là khiếu hài hước hoặc thói quen hàng ngày của họ. Nó mở ra con đường tạo ra các hệ thống AI không chỉ thành thạo về mặt kỹ thuật mà còn thông minh về mặt cảm xúc, có khả năng hiểu và phản ứng với các sắc thái trong giao tiếp của con người.

Tuy nhiên, điều cần lưu ý là RLHF không phải là một giải pháp hoàn hảo. Các mô hình vẫn có khả năng tạo ra các kết quả đầu ra không mong muốn, phản ánh dữ liệu sai lệch, thường không được kiểm soát và mà chúng được đào tạo.

Kết luận

Quá trình tinh chỉnh, một bước quan trọng trong việc tận dụng toàn bộ tiềm năng của LLM như Alpaca, Falcon và GPT-4, đã trở nên tinh tế và tập trung hơn, cung cấp các giải pháp phù hợp cho nhiều nhiệm vụ.

Chúng tôi đã thấy tinh chỉnh một tác vụ, chuyên về các mô hình ở các vai trò cụ thể và các phương pháp Tinh chỉnh tham số hiệu quả (PEFT) bao gồm LoRA và QLoRA, nhằm mục đích làm cho quá trình đào tạo hiệu quả hơn và tiết kiệm chi phí hơn. Những phát triển này đang mở ra cánh cửa cho các chức năng AI cấp cao cho nhiều đối tượng hơn.

Hơn nữa, việc Open AI giới thiệu Học tăng cường từ phản hồi của con người (RLHF) là một bước hướng tới việc tạo ra các hệ thống AI hiểu và phù hợp chặt chẽ hơn với các giá trị và sở thích của con người, tạo tiền đề cho các trợ lý AI không chỉ thông minh mà còn nhạy cảm với nhu cầu của cá nhân người dùng. Cả RLHF và PEFT đều phối hợp hoạt động để nâng cao chức năng và hiệu quả của Mô hình ngôn ngữ lớn.

Khi các doanh nghiệp và cá nhân tìm cách tích hợp các LLM tinh chỉnh này vào hoạt động của mình, về cơ bản họ đang chào đón một tương lai nơi AI không chỉ là một công cụ; đó là một đối tác hiểu rõ và thích ứng với bối cảnh của con người, đưa ra các giải pháp sáng tạo và được cá nhân hóa.

Tôi đã dành 50 năm qua để đắm mình trong thế giới hấp dẫn của Học máy và Học sâu. Niềm đam mê và chuyên môn của tôi đã giúp tôi đóng góp cho hơn XNUMX dự án kỹ thuật phần mềm đa dạng, đặc biệt tập trung vào AI/ML. Sự tò mò không ngừng của tôi cũng đã lôi kéo tôi đến với Xử lý ngôn ngữ tự nhiên, một lĩnh vực mà tôi háo hức khám phá thêm.