sơ khai Đào tạo cách nhúng văn bản cải tiến với các mô hình ngôn ngữ lớn - Unite.AI
Kết nối với chúng tôi

Kỹ thuật nhanh chóng

Đào tạo nhúng văn bản cải tiến với các mô hình ngôn ngữ lớn

mm

Được phát hành

 on

Nhúng văn bản là cách biểu diễn vectơ của các từ, câu, đoạn văn hoặc tài liệu nắm bắt ý nghĩa ngữ nghĩa của chúng. Chúng đóng vai trò là khối xây dựng cốt lõi trong nhiều ứng dụng xử lý ngôn ngữ tự nhiên (NLP) ngày nay, bao gồm truy xuất thông tin, trả lời câu hỏi, tìm kiếm ngữ nghĩa, v.v.

nhúng vector

nhúng vector

Những tiến bộ gần đây trong các mô hình ngôn ngữ lớn (LLM) như GPT-3 đã cho thấy khả năng ấn tượng trong việc học trong thời gian ngắn và tạo ngôn ngữ tự nhiên. Chúng ta có thể tận dụng LLM để nâng cao trạng thái nhúng văn bản không? Trong bài báo của họ “Cải thiện việc nhúng văn bản với các mô hình ngôn ngữ lớn“, các nhà nghiên cứu từ Microsoft đề xuất một phương pháp mới đạt được kết quả vượt trội bằng cách tạo ra dữ liệu đào tạo tổng hợp với LLM và tinh chỉnh nó.

Những thách thức với các phương pháp hiện có

Các kỹ thuật nhúng văn bản truyền thống như trung bình có trọng số của vectơ từ hoặc TF-IDF không thể nắm bắt đầy đủ thông tin ngữ cảnh phong phú trong văn bản. Các phương pháp gần đây hơn dựa trên các mô hình ngôn ngữ được đào tạo trước như BERT có được các phần nhúng nhận biết ngữ cảnh tốt hơn nhiều.

Tuy nhiên, chúng đòi hỏi các quy trình đào tạo nhiều giai đoạn phức tạp:

  • Huấn luyện trước hàng tỷ cặp văn bản nhân tạo hoặc được gắn nhãn yếu
  • Tinh chỉnh trên các bộ dữ liệu được quản lý bằng tay có giới hạn

Điều này đòi hỏi nguồn lực tính toán lớn và nỗ lực của con người để thu thập dữ liệu. Dữ liệu đào tạo cũng bị hạn chế về tính đa dạng và phạm vi ngôn ngữ. Ví dụ: điểm chuẩn BEIR bao gồm các bộ dữ liệu chỉ dành cho 15 tác vụ truy xuất bằng tiếng Anh.

Các phương pháp hiện tại chủ yếu sử dụng kiến ​​trúc kiểu BERT nhỏ hơn làm mô hình xương sống. Họ không thể tận dụng lợi thế của LLM tiên tiến hơn và các kỹ thuật liên quan.

Phương pháp: Tạo dữ liệu tổng hợp với LLM

Để khắc phục những hạn chế này, các nhà nghiên cứu đề xuất một phương pháp đào tạo một giai đoạn mới, tận dụng các LLM như GPT-3 và GPT-4 để tạo ra dữ liệu đào tạo tổng hợp đa dạng.

Các bước quan trọng là:

  1. Phân loại nhiệm vụ: Xác định một nguyên tắc phân loại để phân loại các tác vụ nhúng văn bản vào:
    • Nhiệm vụ không đối xứng (truy vấn và tài liệu không diễn giải, ví dụ: tìm kiếm)
    • Nhiệm vụ đối xứng (truy vấn và tài liệu là các cách diễn giải, ví dụ như sự giống nhau về ngữ nghĩa)
  2. Thiết kế nhắc nhở: Tạo các mẫu lời nhắc phù hợp với từng loại nhiệm vụ hướng dẫn LLM tạo các ví dụ đào tạo có liên quan.
  3. Tạo dữ liệu tổng hợp: Nhắc LLM bằng các lời nhắc được thiết kế để tạo ra hàng trăm nghìn cặp (truy vấn, tài liệu) bao gồm nhiều nhiệm vụ ngữ nghĩa khác nhau trên 93 ngôn ngữ.
  4. Đào tạo người mẫu: Tinh chỉnh LLM nguồn mở mạnh mẽ như Mistral trên dữ liệu tổng hợp bằng cách sử dụng mất tương phản.

Phương pháp này cho phép tạo dữ liệu đào tạo phong phú cho các nhiệm vụ đa dạng bằng nhiều ngôn ngữ mà không cần bất kỳ nỗ lực ghi nhãn nào của con người. Bằng cách tận dụng kiến ​​thức đã được nhúng trong LLM thông qua đào tạo trước trên kho văn bản ở quy mô web, chúng tôi có thể tổng hợp dữ liệu chất lượng cao được thiết kế chính xác cho việc nhúng văn bản.

Các nhà nghiên cứu chứng minh điều này bằng chiến lược nhắc nhở gồm 2 bước:

  • Nhắc GPT-4 đề xuất các tác vụ truy xuất tiềm năng

Lời nhắc tạo tác vụ truy xuất cấp cao

    Lời nhắc tạo tác vụ truy xuất cấp cao
  • Nhắc lại để tạo mẫu (truy vấn, tài liệu) dựa trên các tác vụ được đề xuất

n tạo bộ ba (truy vấn, dương, âm cứng)

    n tạo bộ ba (truy vấn, dương, âm cứng)

Một số khía cạnh chính của thiết kế nhanh chóng:

  • Lời nhắc bằng ngôn ngữ tự nhiên cho hướng dẫn trực quan giống con người
  • Trình giữ chỗ để khuyến khích sự đa dạng (ví dụ: độ dài truy vấn, độ rõ ràng, độ dài tài liệu)
  • Kết hợp dữ liệu từ nhiều mẫu cho cùng một loại nhiệm vụ
  • Ngôn ngữ có trọng số dựa trên tính sẵn có của tài nguyên

Tổng cộng, họ có thể tạo ra 500 nghìn ví dụ nhúng văn bản với chi phí tính toán là 180 triệu mã thông báo. Ngôn ngữ chiếm ưu thế là tiếng Anh (43%), tiếp theo là tiếng Ba Lan, tiếng Nhật, tiếng Ý và các ngôn ngữ khác.

Để đào tạo mô hình, họ đã chọn tinh chỉnh tham số 7B nguồn mở Gió bấc thổi từ hướng tây mô hình thay vì các kiến ​​trúc kiểu BERT nhỏ hơn. Vì Mistral đã được đào tạo trước về kho văn bản lớn nên không cần đào tạo trước tương phản bổ sung. Việc thêm nó mang lại những cải tiến không đáng kể.

Toàn bộ quá trình tinh chỉnh chỉ mất chưa đến 1 nghìn bước, sử dụng kết hợp dữ liệu tổng hợp và dữ liệu do con người gắn nhãn. Điều này chứng tỏ hiệu quả lấy mẫu của phương pháp đề xuất.

Kết quả

Các nhà nghiên cứu đã đánh giá mô hình của họ dựa trên tiêu chuẩn MTEB, bao gồm các nhiệm vụ đa dạng như phân loại, phân cụm, tương tự về ngữ nghĩa, tóm tắt và truy xuất thông tin.

Mô hình của họ vượt trội so với công nghệ hiện đại trước đó 2.4 điểm ở điểm trung bình, thiết lập những kỷ lục mới cho hầu hết mọi danh mục:

Mô hìnhSOTA trước đóMô hình đề xuất
phân loại76.078.5
Clustering46.150.3
Phân loại theo cặp87.188.3
Sắp xếp lại60.060.2
Truy xuất54.356.9
STS83.184.6
Tóm tắt31.631.4
Trung bình64.266.6

Đáng chú ý, ngay cả khi không sử dụng bất kỳ dữ liệu được gắn nhãn nào và chỉ đào tạo dựa trên dữ liệu tổng hợp, nó vẫn đạt được độ chính xác cạnh tranh – chỉ kém 3.5 điểm so với mô hình được giám sát hoàn toàn. Điều này chứng tỏ khả năng tồn tại của việc tạo các phần nhúng văn bản chỉ bằng cách sử dụng LLM mà không cần nỗ lực chú thích của con người.

Các nhà nghiên cứu cũng đánh giá tiêu chuẩn MIRACL đa ngôn ngữ bao gồm 18 ngôn ngữ. Mô hình của họ hoạt động tốt hơn mô hình tốt nhất trước đây trên các ngôn ngữ có tài nguyên cao nhưng yếu hơn ở các ngôn ngữ có tài nguyên thấp. Họ đưa ra giả thuyết rằng điều này có thể được giảm thiểu bằng cách đào tạo trước LLM rộng rãi hơn trên các ngôn ngữ có nguồn tài nguyên thấp.

Tóm lại, việc nhúng văn bản được đào tạo trên dữ liệu tổng hợp do LLM tạo ra sẽ tạo ra các kết quả tiên tiến mới, đồng thời sử dụng quá trình đào tạo đơn giản và hiệu quả hơn so với các phương pháp tiếp cận nhiều giai đoạn trước đó. Với nghiên cứu sâu hơn về kỹ thuật nhanh chóng và chất lượng dữ liệu tổng hợp, phương pháp này có thể thúc đẩy đáng kể việc nhúng văn bản đa ngôn ngữ.

nghiên cứu

Công việc này cung cấp một số bài học có giá trị:

  • Các LLM như GPT-3 và GPT-4 có khả năng ấn tượng trong việc tạo ra dữ liệu đào tạo tổng hợp chất lượng cao cho các nhiệm vụ NLP đa dạng khi được nhắc thích hợp. Điều này có thể làm giảm sự phụ thuộc vào dữ liệu do con người gắn nhãn.
  • Đối với các phần nhúng văn bản, việc đào tạo trước tương phản mang lại lợi ích không đáng kể so với các mô hình tinh chỉnh như Mistral đã được đào tạo trước quy mô nghìn tỷ. Đây là một cái nhìn sâu sắc quan trọng về hiệu quả đào tạo.
  • Các phương pháp tạo tăng cường truy xuất đang cho phép LLM truy cập động vào kiến ​​thức bên ngoài. Do đó, việc cải thiện khả năng nhúng văn bản là có giá trị để nâng cao các LLM này.
  • Có rất nhiều cơ hội để cải thiện các ngôn ngữ có nguồn tài nguyên thấp. LLM đa ngôn ngữ được đào tạo trước trên nhiều dữ liệu mang tính đại diện hơn có thể giúp thu hẹp khoảng cách này.
  • Về mặt khái niệm, mô hình hóa ngôn ngữ và nhúng văn bản là hai mặt của cùng một vấn đề – hiểu ngữ nghĩa ngôn ngữ. Với lời nhắc dữ liệu tổng hợp, LLM có thể được tinh chỉnh một cách hữu cơ thành các trình nhúng mà không cần đường dẫn phức tạp.

Một số hướng đi đầy hứa hẹn cho công việc trong tương lai bao gồm:

  • Tận dụng LLM nguồn mở như GPT-NeoX để tạo dữ liệu tổng hợp
  • Khám phá quá trình đào tạo sau nhẹ nhàng để điều chỉnh trình nhúng phù hợp với bối cảnh dài hơn
  • Phát triển các kỹ thuật kỹ thuật kịp thời để kiểm soát chất lượng và phạm vi nhiệm vụ
  • Các phương pháp cải thiện độ trễ suy luận và chi phí lưu trữ cho mục đích sử dụng công nghiệp

Ngoài việc vượt qua các tiêu chuẩn, việc sử dụng các mô hình ngôn ngữ lớn để nâng cao khả năng nhúng văn bản sẽ mở ra những khả năng hấp dẫn cho tương lai. Khi LLM tiếp tục nâng cao khả năng làm chủ ngôn ngữ tự nhiên, khả năng tạo ra dữ liệu tổng hợp có độ chính xác cao của họ cũng có khả năng được cải thiện.

Tuy nhiên, các hướng nghiên cứu quan trọng vẫn là chuyển tiềm năng này thành tác động trong thế giới thực.

Tùy chỉnh và Kiểm soát

Lợi ích chính của dữ liệu tổng hợp là khả năng tạo ra các ví dụ theo chương trình phù hợp với nhu cầu cụ thể. Như bài báo đã chứng minh, kỹ thuật nhanh chóng cho phép tạo dữ liệu đào tạo cho hàng trăm nghìn tác vụ nhúng.

Tuy nhiên, các phương pháp thiết kế nhanh chóng hiện nay vẫn mang tính nghệ thuật hơn là khoa học. Việc phát triển các phương pháp có hệ thống, có thể tái tạo để kiểm soát chính xác các thuộc tính của dữ liệu được tạo ra sẽ mở rộng khả năng ứng dụng của kỹ thuật này.

Ví dụ, các kỹ thuật điều chỉnh các yếu tố như độ phức tạp, sự mơ hồ và tính mới của các ví dụ có thể giúp giải quyết các vấn đề về độ chắc chắn trong các nhiệm vụ tiếp theo. Việc tạo lời nhắc động để phù hợp với các bản phân phối đang phát triển trong thế giới thực là một thách thức mở khác.

Đào tạo ở quy mô

Mặc dù các LLM được đào tạo trước đã mã hóa kiến ​​thức ngôn ngữ đáng kể, nhưng kỹ năng tạo dữ liệu của họ có thể sẽ được nâng cao hơn nữa với quy mô bổ sung. Các mô hình như GPT-4 được đào tạo trên hàng nghìn tỷ mã thông báo văn bản trên internet cho thấy khả năng học tập nhanh chóng nhưng chưa được tối ưu hóa đặc biệt để tổng hợp dữ liệu đào tạo.

Các kiến ​​trúc và mục tiêu được điều chỉnh để khởi động quá trình tạo dữ liệu tự giám sát ở quy mô web có thể nâng cao đáng kể chất lượng và hiệu quả của phương pháp này. Tích hợp hiệu quả kiến ​​thức được truy xuất để bổ sung cho kiến ​​thức đã học là một hướng đi đầy hứa hẹn khác.

Đa nhiệm và đa ngôn ngữ

Như bài báo đã lưu ý, việc cải thiện hiệu suất trên các ngôn ngữ có nguồn tài nguyên thấp vẫn là một vấn đề. Thay vì đào tạo trước một LLM lớn, một giải pháp thay thế là đào tạo một nhóm mô hình chuyên gia nhỏ hơn chuyên về các phương thức dữ liệu hoặc miền ngôn ngữ cụ thể.

Cách tiếp cận tổng thể như vậy có thể giúp cải thiện mức độ bao phủ các nhiệm vụ và ngôn ngữ hiếm gặp bằng cách chia sẻ các cách trình bày đã học được giữa các chuyên gia. Học tập liên tục để mở rộng kiến ​​thức chuyên môn về ngôn ngữ và công việc theo thời gian cũng là một triển vọng thú vị.

Tóm lại, bài viết này giới thiệu một khái niệm đổi mới về tổng hợp dữ liệu đào tạo từ LLM để tạo ra các phần nhúng văn bản hiệu quả. Kết quả của họ chứng minh tính hiệu quả của phương pháp này, vượt trội so với các tiêu chuẩn trước đó. Khi LLM và kỹ thuật dữ liệu tổng hợp phát triển, việc khai thác kiến ​​thức của họ để đào tạo các trình nhúng có thể trở thành một hướng đi đầy hứa hẹn.

Tôi đã dành 50 năm qua để đắm mình trong thế giới hấp dẫn của Học máy và Học sâu. Niềm đam mê và chuyên môn của tôi đã giúp tôi đóng góp cho hơn XNUMX dự án kỹ thuật phần mềm đa dạng, đặc biệt tập trung vào AI/ML. Sự tò mò không ngừng của tôi cũng đã lôi kéo tôi đến với Xử lý ngôn ngữ tự nhiên, một lĩnh vực mà tôi háo hức khám phá thêm.