Connect with us

Trí tuệ nhân tạo

GPT-3 : Few Shot Learning for Language Model?

mm

Trong những năm gần đây, ngành công nghiệp AI và ML đã chứng kiến sự phát triển nhanh chóng trong việc phát triển và ứng dụng các hệ thống NLP, khi các nhà nghiên cứu đã có thể thực hiện các phương pháp NLP một cách linh hoạt và không phụ thuộc vào nhiệm vụ cụ thể cho các nhiệm vụ chuyển giao xuống dòng.

Ban đầu, đó là các biểu diễn lớp đơn sử dụng vector từ, và sau đó được đưa vào kiến trúc nhiệm vụ cụ thể. Tiếp theo, đó là kiến trúc RNN sử dụng biểu diễn đa lớp và trạng thái ngữ cảnh để tạo ra các biểu diễn tốt hơn. Và gần đây nhất, chúng ta có các mô hình ngôn ngữ chuyển giao hoặc mô hình tái phát trước được đào tạo đã loại bỏ hoàn toàn nhu cầu về kiến trúc nhiệm vụ cụ thể bằng cách tinh chỉnh các mạng này.

Các mô hình ngôn ngữ chuyển giao đã chứng minh là một điểm chuyển biến lớn trong ngành công nghiệp NLP vì chúng đã dẫn đến sự tiến bộ đáng kể trong các nhiệm vụ đầy thách thức như trả lời câu hỏi, đọc hiểu hoặc khối văn bản, suy luận văn bản và nhiều hơn nữa.

Tuy nhiên, mặc dù có những lợi thế, các mô hình ngôn ngữ chuyển giao có một hạn chế lớn là chúng yêu cầu tinh chỉnh nhiệm vụ cụ thể hoặc tập dữ liệu nhiệm vụ cụ thể để đạt được hiệu suất mong muốn trên một nhiệm vụ. Hơn nữa, các mô hình ngôn ngữ chuyển giao cũng yêu cầu các nhà phát triển tinh chỉnh các tập dữ liệu để hàng trăm nghìn ví dụ cụ thể cho một nhiệm vụ cụ thể.

Điều đó không cần phải nói rằng việc loại bỏ yêu cầu về tập dữ liệu nhiệm vụ cụ thể và tinh chỉnh nhiệm vụ cụ thể sẽ rất mong muốn và có lợi cho ngành công nghiệp NLP vì nhiều lý do.

Vấn đề với các Mô hình Ngôn ngữ Chuyển giao Hiện có hoặc Mô hình Tái phát

  • Giới hạn Thực tiễn & Khả năng Áp dụng

Trước hết, yêu cầu về một tập dữ liệu lớn với dữ liệu được gắn nhãn cho mỗi nhiệm vụ hạn chế khả năng áp dụng và thực tiễn của các mô hình ngôn ngữ. Các mô hình ngôn ngữ tìm thấy ứng dụng của chúng trong nhiều nhiệm vụ khác nhau, từ việc tạo ra một câu chuyện ngắn, đến việc sửa lỗi ngữ pháp, đến việc tạo ra các ví dụ về một khái niệm. Đôi khi, đó là một nhiệm vụ đầy thách thức để thu thập một tập dữ liệu được giám sát lớn với dữ liệu được gắn nhãn, đặc biệt là khi quá trình cần được lặp lại cho mỗi nhiệm vụ cá nhân.

  • Khai thác Sự tương quan Ngẫu nhiên trong Dữ liệu Huấn luyện

Hạn chế và hẹp của phân phối huấn luyện kết hợp với khả năng biểu đạt của mô hình có thể dẫn đến sự tăng trưởng cơ bản trong tiềm năng để khai thác sự tương quan ngẫu nhiên trong dữ liệu huấn luyện. Tiềm năng để khai thác dữ liệu huấn luyện có thể dẫn đến vấn đề trong quá trình tinh chỉnh và huấn luyện trước vì các mô hình ngôn ngữ chuyển giao được thiết kế để hấp thụ một lượng lớn thông tin trong quá trình huấn luyện trước.

Hơn nữa, công việc trên các mô hình trước đó đã chỉ ra rằng các mô hình lớn không phải lúc nào cũng dẫn đến kết quả tốt hơn mỗi lần. Hơn nữa, cũng đã được chỉ ra rằng sự khái quát đạt được dưới sự tương đồng như vậy có thể dẫn đến hiệu suất kém chủ yếu vì mô hình rất cụ thể cho dữ liệu huấn luyện và không thể hoạt động tốt trong các tình huống ngoài phạm vi của dữ liệu huấn luyện.

  • So sánh với Học tập của Con người

Cuối cùng, khi so sánh với các mô hình ngôn ngữ chuyển giao, con người không yêu cầu một tập dữ liệu huấn luyện lớn khi nói đến việc học tập hầu hết các nhiệm vụ ngôn ngữ. Hầu hết thời gian, một chỉ dẫn ngắn gọn trong ngôn ngữ tự nhiên của một người hoặc một bản demo nhỏ của nhiệm vụ ngôn ngữ là đủ cho con người để hiểu và thực hiện một nhiệm vụ ngôn ngữ với một mức độ cạnh tranh nhất định.

Khả năng thích ứng của con người có nhiều lợi thế thực tế vì nó cho phép họ chuyển đổi giữa các bộ kỹ năng khác nhau hoặc kết hợp chúng lại với nhau để thực hiện tốt hơn trong một phương ngữ, điều mà vượt quá khả năng của các hệ thống NLP hiện tại.

Giải quyết Vấn đề với Học tập Meta & GPT-3

Một giải pháp có thể cho các thách thức trên là sử dụng học tập meta, một khái niệm trong học máy hiện đại cho phép mô hình phát triển một tập hợp kỹ năng và khả năng nhận dạng mẫu lớn hơn trong quá trình huấn luyện, và sau đó sử dụng các khả năng đã học được trong quá trình suy luận để thích nghi nhanh chóng hoặc nhận dạng nhiệm vụ.

Học tập Meta đang được thực hiện trong kiến trúc mô hình ngôn ngữ thông qua một kỹ thuật gọi là “học tập trong ngữ cảnh” sử dụng đầu vào văn bản của một mô hình ngôn ngữ được đào tạo trước như một đặc tả nhiệm vụ. Trong quá trình này, mô hình điều kiện trên một chỉ dẫn ngôn ngữ tự nhiên và có thể даже sử dụng một số bản demo, và mô hình sau đó được yêu cầu hoàn thành phần còn lại của nhiệm vụ bằng cách dự đoán các bước tiếp theo.

Vấn đề duy nhất với Học tập Meta là mặc dù nó đã thể hiện tiềm năng tích cực, nhưng nó vẫn còn thua kém so với phương pháp tinh chỉnh trong kiến trúc ngôn ngữ tự nhiên, và nó cần được cải tiến thêm để trở thành một phương pháp thực tế để vượt qua các nhiệm vụ ngôn ngữ.

Ngoài học tập meta, một phương pháp khác đang trở nên phổ biến là tăng khả năng của các mô hình ngôn ngữ chuyển giao. Trong những năm gần đây, các mô hình chuyển giao đã chứng kiến sự tăng đáng kể về khả năng của chúng với mô hình RNSS18 có 100 triệu tham số, mô hình DCLT18 có 300 triệu tham số, mô hình RWC19 có 1,5 tỷ tham số, mô hình SSP19 có 8 tỷ tham số, mô hình RSR19 có 11 tỷ tham số, và mô hình TUR20 có 17 tỷ tham số.

Tăng khả năng của mô hình hoặc tăng số tham số đã dẫn đến sự cải thiện trong tổng hợp văn bản, và có chỉ ra rằng tổn thất log, tương quan với các nhiệm vụ dòng dưới, cũng theo một xu hướng mịn khi tăng khả năng.

Điều đó đưa chúng ta đến mô hình GPT-3, có hơn 175 tỷ tham số, và khi nó được ra mắt, nó là mô hình ngôn ngữ chuyển giao có khả năng lớn nhất. Hãy nói về mô hình GPT-3.

Giới thiệu về Mô hình GPT-3

GPT-3 là một mô hình ngôn ngữ tự động tích cực với hơn 175 tỷ tham số được phát hành bởi OpenAI vào năm 2020. GPT-3 cũng được phân loại là một mô hình ngôn ngữ lớn, giống như người tiền nhiệm của nó, mô hình GPT-2, là một mô hình chuyển đổi decoder-only sâu sử dụng kiến trúc dựa trên convolution để tạo ra dữ liệu văn bản.

Mô hình GPT-3 đo lường khả năng học ngữ cảnh của nó, và mô hình GPT-3 được đánh giá trên hơn hai chục tập dữ liệu NLP và nhiều nhiệm vụ mới. Đối với mỗi nhiệm vụ cá nhân, mô hình GPT-3 được đánh giá dưới ba điều kiện,

  • Học tập Few Shot hoặc Học tập trong Ngữ cảnh: Trong học tập few shot, mô hình GPT-3 cho phép nhiều phân phối có thể phù hợp tốt với ngữ cảnh của mô hình.
  • Học tập One Shot: Trong học tập one shot, mô hình cho phép chỉ một bản demo.
  • Học tập Zero Shot: Trong học tập zero shot, không có bản demo, và chỉ có một chỉ dẫn ngôn ngữ tự nhiên được đưa vào mô hình.

Nói chung, mô hình GPT-3 đạt được hiệu suất mong muốn trong các thiết lập zero-shot và one-shot, và trong thiết lập few-shot, nó vượt qua các mô hình chuyển giao hiện tại tốt nhất hầu hết thời gian. Hơn nữa, mô hình GPT-3 hoạt động tốt trong các thiết lập one-shot và zero-shot đối với các nhiệm vụ ngôn ngữ tự nhiên được thiết kế để kiểm tra suy luận nhanh hoặc yêu cầu chú ý nhanh như sử dụng từ mới sau một câu, hoặc giải mã từ, hoặc thực hiện các phép toán.

Cách tiếp cận của Mô hình GPT-3

Mô hình GPT-3 sử dụng một cách tiếp cận huấn luyện trước thông thường bao gồm mô hình, dữ liệu và huấn luyện, và nó giống như quá trình huấn luyện trước được theo dõi bởi mô hình chuyển giao RWC-19. Mô hình GPT-3 tăng khả năng của mô hình, kích thước của tập dữ liệu, sự đa dạng của tập dữ liệu, và tăng thời gian huấn luyện.

Mô hình cũng sử dụng một cách tiếp cận học tập trong ngữ cảnh mà một lần nữa giống như cách tiếp cận của mô hình RWC-19, nhưng điều chỉnh một số thứ bằng cách khám phá hệ thống các thiết lập khác nhau để học tập mẫu trong ngữ cảnh của tập dữ liệu.

Vậy, hãy bắt đầu bằng cách khám phá các thiết lập này và đánh giá cách mô hình GPT-3 hoạt động trên các thiết lập khác nhau.

Tinh chỉnh

Tinh chỉnh mô hình đã là cách tiếp cận thông thường trong các mô hình ngôn ngữ chuyển giao, và cách tiếp cận này bao gồm việc cập nhật trọng số của một mô hình được đào tạo trước bằng cách huấn luyện mô hình trên một tập dữ liệu được giám sát cụ thể cho nhiệm vụ mong muốn, và hàng trăm nghìn ví dụ được gắn nhãn được sử dụng trong quá trình này.

Cách tiếp cận tinh chỉnh có lợi vì nó mang lại hiệu suất mạnh mẽ trên nhiều chuẩn mực. Mặt khác, hạn chế chính của việc sử dụng cách tiếp cận tinh chỉnh là nó yêu cầu một tập dữ liệu mới và lớn cho mỗi nhiệm vụ cá nhân, có thể khai thác các tính năng ngẫu nhiên của tập dữ liệu huấn luyện, có thể dẫn đến so sánh không công bằng với hiệu suất của con người, và khái quát hóa kém cho các trường hợp ngoài phân phối.

Phạm vi hiện tại của mô hình GPT-3 không thực hiện cách tiếp cận tinh chỉnh do hiệu suất không phụ thuộc vào nhiệm vụ của nó, mặc dù tinh chỉnh có thể được áp dụng cho mô hình GPT-3 trong tương lai.

Few Shot

Few Shot là một thuật ngữ dùng để chỉ thiết lập mà mô hình GPT-3 được đưa ra một số bản demo của nhiệm vụ trong quá trình suy luận như một điều kiện, nhưng trọng số của mô hình không được cập nhật. Trong các thiết lập few shot, tập dữ liệu thường có một ví dụ với ngữ cảnh và một hoàn thành mong muốn (ví dụ, một câu tiếng Pháp và bản dịch tiếng Anh của nó). Thiết lập few shot đưa cho mô hình K ví dụ về ngữ cảnh và hoàn thành, và sau đó đưa cho mô hình một ngữ cảnh cuối cùng và yêu cầu mô hình đưa ra hoàn thành.

Lợi thế chính của việc sử dụng thiết lập few shot là nó giảm đáng kể nhu cầu về dữ liệu nhiệm vụ cụ thể và cũng giảm tiềm năng để học một phân phối hẹp từ một tập dữ liệu lớn được tinh chỉnh hẹp. Mặt khác, hạn chế chính của việc sử dụng học tập few shot là kết quả đạt được trong thiết lập few shot không đạt tiêu chuẩn và kém đáng kể so với các mô hình hiện tại tốt nhất được tinh chỉnh.

One Shot

Trong thiết lập one shot, mô hình được đưa ra chỉ một bản demo, và phần còn lại giống như thiết lập few shot. Lý do tại sao thiết lập one shot liên quan đến các mô hình ngôn ngữ chuyển giao là vì trong số cả ba thiết lập, one shot là thiết lập giống nhất với cách nhiệm vụ được truyền đạt cho con người. Đó là vì trong hầu hết các nhiệm vụ, điều phổ biến là đưa ra một bản demo của nhiệm vụ nếu không nó có thể khó hiểu được ngữ cảnh của nhiệm vụ.

Zero Shot

Trong thiết lập zero shot, không có bản demo, và mô hình được đưa ra một chỉ dẫn ngôn ngữ tự nhiên mô tả nhiệm vụ. Phương pháp zero shot là phương pháp mang lại sự tiện lợi tối đa, mạnh mẽ và cũng tránh được sự tương quan ngẫu nhiên, nhưng nó cũng là thiết lập khó khăn nhất trong số cả ba. Đó là vì trong một số trường hợp, nó thậm chí còn khó đối với con người để hiểu được ngữ cảnh của một nhiệm vụ mà không cần nhìn thấy một bản demo trước.

Dù vậy, đối với một số nhiệm vụ, thiết lập zero shot là thiết lập giống nhất với cách con người thực hiện các nhiệm vụ ngôn ngữ tự nhiên.

Hình ảnh trên so sánh thiết lập few shot, one shot và zero shot khi thực hiện một nhiệm vụ ngôn ngữ tự nhiên là dịch một câu tiếng Anh sang tiếng Pháp.

Kiến trúc của Mô hình GPT-3

Mô hình GPT-3 sử dụng cùng một kiến trúc như được sử dụng trong mô hình GPT-2, và nó bao gồm tiền chuẩn hóa, khởi tạo sửa đổi, và kỹ thuật token hóa đảo ngược như được sử dụng trên mô hình GPT với ngoại lệ của việc sử dụng một chiến lược thay thế cho các mẫu chú ý cục bộ và các lớp dày đặc trong các lớp chuyển đổi, tương tự như Sparse Transformer.

Để nghiên cứu sự phụ thuộc của hiệu suất của mô hình vào kích thước của mô hình, các nhà phát triển đã đào tạo 8 mô hình với kích thước khác nhau, từ 125 triệu đến hơn 175 tỷ tham số, mô hình cuối cùng được gọi là GPT-3. Các công việc trước đây liên quan đến các mô hình LLM đã chỉ ra rằng việc mở rộng tổn thất xác thực với đủ dữ liệu huấn luyện nên là một luật sức mạnh mịn theo hàm của kích thước. Việc đào tạo các mô hình với kích thước khác nhau cho phép các nhà phát triển kiểm tra giả thuyết này cả về các nhiệm vụ ngôn ngữ dòng dưới và tổn thất xác thực.

Hình ảnh trên so sánh kích thước và kiến trúc của 8 mô hình được sử dụng cho kiến trúc GPT-3. Ở đây, n(params) định nghĩa số tham số có thể đào tạo, n(layers) định nghĩa số lớp trong mô hình, d(model) định nghĩa số đơn vị trong mỗi lớp của cổ chai, và d(head) định nghĩa kích thước của mỗi đầu chú ý. Cửa sổ ngữ cảnh cho mỗi mô hình là giống nhau với 2048 token.

Hơn nữa, để giảm thiểu việc chuyển dữ liệu giữa các nút, mô hình được phân chia trên các GPU dọc theo chiều sâu và chiều rộng của các chiều. Các tham số kiến trúc cho mỗi mô hình được chọn dựa trên hiệu quả tính toán và cân bằng tải để tối đa hóa độ chính xác trong bố cục của mô hình trên các GPU.

Tập dữ liệu Huấn luyện

Typically, các mô hình ngôn ngữ lớn sử dụng các tập dữ liệu đã mở rộng đáng kể với các phát triển gần đây, và chúng kết hợp trong tập dữ liệu Common Crawl bao gồm hơn một nghìn tỷ từ khác nhau. Kích thước của tập dữ liệu đủ để đào tạo mô hình GPT-3 mà không cần cập nhật trên cùng một chuỗi nhiều lần. Tuy nhiên, các nghiên cứu và phân tích hiệu suất cho thấy rằng các phiên bản được lọc nhẹ hoặc không lọc của tập dữ liệu Common Crawl có chất lượng thấp hơn so với các tập dữ liệu được chăm sóc hơn.

Để giải quyết vấn đề về chất lượng trung bình của tập dữ liệu, các nhà phát triển đã thực hiện 3 bước để tăng chất lượng của tập dữ liệu.

  1. Các nhà phát triển đã tải xuống và lọc một phiên bản của tập dữ liệu Common Crawl dựa trên một phạm vi tương tự như các tập dữ liệu tham chiếu chất lượng cao.
  2. Các nhà phát triển đã thực hiện trùng lặp mờ tại cấp độ tài liệu trên toàn bộ tập dữ liệu trong một nỗ lực để bảo tồn tính toàn vẹn của tập xác thực được giữ lại như một biện pháp hiệu quả để ngăn chặn quá拟 hợp và cũng để ngăn chặn sự trùng lặp.
  3. Các nhà phát triển cũng đã thêm các tập dữ liệu tham chiếu chất lượng cao vào dữ liệu huấn luyện để tăng cường tập dữ liệu Common Crawl và để tăng thêm sự đa dạng của tập dữ liệu.

Hình ảnh dưới đây cho thấy tỷ lệ cuối cùng hoặc sự kết hợp của các tập dữ liệu được sử dụng để đào tạo mô hình GPT-3. Dữ liệu Common Crawl bao gồm hơn 45 TB văn bản thuần túy trước khi lọc mà sau đó được giảm xuống còn 570 GB dữ liệu sau khi lọc, tương đương với hơn 400 tỷ token mã hóa cặp byte. Điều đáng chú ý là các tập dữ liệu được coi là có chất lượng cao hơn được lấy mẫu với tần suất nhiều hơn chứ không phải lấy mẫu theo tỷ lệ kích thước của chúng. Do đó, các tập dữ liệu như Books2 và Common Crawl được lấy mẫu ít hơn một lần trong quá trình huấn luyện, trong khi các tập dữ liệu khác được lấy mẫu nhiều lần. Điều này cho phép mô hình chấp nhận một lượng nhỏ quá拟 hợp để đổi lấy việc được đào tạo trên dữ liệu huấn luyện có chất lượng cao hơn.

Một mối quan ngại đáng kể với các mô hình ngôn ngữ lớn được đào tạo trước trên một lượng lớn dữ liệu internet có khả năng ghi nhớ và học một lượng lớn nội dung là tiềm năng ô nhiễm của các nhiệm vụ dòng dưới bằng cách có các tập phát triển hoặc kiểm tra của các chuẩn mực được nghiên cứu cho GPT-3 được xem trong quá trình huấn luyện trước. Để giảm thiểu sự ô nhiễm tiềm năng này, các nhà phát triển đã tìm kiếm bất kỳ sự chồng chéo nào với các tập kiểm tra và phát triển của các chuẩn mực được nghiên cứu cho GPT-3 và đã cố gắng loại bỏ các sự chồng chéo này.

Hình ảnh trên cho thấy tổng tính toán được sử dụng trong quá trình đào tạo mô hình GPT-3. Mô hình sử dụng Luật mở rộng cho các Mô hình Ngôn ngữ để đào tạo các mô hình lớn hơn trên ít token hơn so với thông thường. Do đó, cả GPT-3 và mô hình RoBERTa-Large, nhỏ hơn 10 lần so với GPT-3, đều cần gần 50 petaflops/ngày tính toán trong quá trình huấn luyện trước.

Đánh giá

Đối với học tập few shot, mô hình đánh giá mỗi ví dụ trong tập dữ liệu đánh giá bằng cách vẽ K ví dụ một cách ngẫu nhiên từ tập dữ liệu huấn luyện của nhiệm vụ như một điều kiện và phân界 nó bằng 1 hoặc 2 dòng mới tùy thuộc vào nhiệm vụ. Đối với Storycloze và LAMBADA, mô hình vẽ các ví dụ điều kiện từ tập phát triển và đánh giá nó trên tập kiểm tra vì không có sẵn tập huấn luyện được giám sát.

K có thể là bất kỳ giá trị nào từ 0 đến số lượng tối đa được phép bởi cửa sổ ngữ cảnh của mô hình, là next = 2048 cho tất cả các mô hình, và nó thường phù hợp với khoảng 10 đến 100 ví dụ. Các giá trị K lớn hơn thường dẫn đến kết quả tốt hơn, nhưng không phải lúc nào cũng vậy, đó là lý do tại sao khi mô hình có một tập kiểm tra và một tập phát triển riêng biệt, mô hình sẽ thử nghiệm một số giá trị K trên tập phát triển và sau đó chạy giá trị tốt nhất trên tập kiểm tra.

Hơn nữa, trên các nhiệm vụ yêu cầu chọn một hoàn thành chính xác từ nhiều tùy chọn, các nhà phát triển cung cấp K ví dụ về hoàn thành cộng với ngữ cảnh, và sau đó cung cấp một ví dụ về ngữ cảnh chỉ, và các nhiệm vụ được so sánh dựa trên khả năng của mô hình ngôn ngữ của mỗi hoàn thành. Đối với các nhiệm vụ yêu cầu phân loại nhị phân, mô hình thường đưa ra các tùy chọn một cách ngữ nghĩa và với các tên có ý nghĩa hơn, và sau đó xử lý nhiệm vụ như một nhiệm vụ lựa chọn nhiều, và đôi khi cũng xử lý nhiệm vụ tương tự như mô hình RSR và kiến trúc.

Đối với các nhiệm vụ yêu cầu hoàn thành tự do, mô hình sử dụng tìm kiếm chùm với các tham số giống hệt như được sử dụng trong khuôn khổ RSR, với một chùm dài 4 và một hình phạt là 0,6. Mô hình sau đó được đánh giá bằng cách sử dụng điểm tương đồng F1, khớp chính xác hoặc BLEU, tùy thuộc vào tiêu chuẩn cho tập dữ liệu.

Kết quả

Hình ảnh trên hiển thị các đường cong huấn luyện cho 8 mô hình được sử dụng trong kiến trúc GPT-3, như được mô tả trong các phần trước. Tương tự như kết quả từ mô hình ngôn ngữ KMH, hiệu suất của mô hình GPT-3 tuân theo một luật mịn khi sử dụng tính toán huấn luyện hiệu quả. Có một sự khác biệt nhỏ so với luật này chỉ khi xu hướng được mở rộng thêm hai cấp độ lớn hơn. Người ta có thể nghĩ rằng sự cải thiện trong tổn thất entropy có thể là kết quả của việc mô hình hóa các chi tiết ngẫu nhiên của tập dữ liệu huấn luyện. Tuy nhiên, sự cải thiện trong tổn thất entropy dẫn đến những lợi ích nhất quán trong hiệu suất tổng thể trên một loạt các nhiệm vụ NLP.

Trước khi đánh giá 8 mô hình khác nhau trên một loạt các tập dữ liệu huấn luyện, các tập dữ liệu được nhóm thành 8 danh mục khác nhau đại diện cho các nhiệm vụ tương tự. Những danh mục này là

  1. Đánh giá trên các nhiệm vụ mô hình ngôn ngữ truyền thống và các nhiệm vụ giống như mô hình ngôn ngữ như nhiệm vụ Cloze hoặc hoàn thành câu/đoạn văn.
  2. Đánh giá trên các nhiệm vụ trả lời câu hỏi “trong sách” đóng.
  3. Đánh giá khả năng dịch giữa các ngôn ngữ (đặc biệt là một shot và few shot)
  4. Đánh giá khả năng của mô hình trên các nhiệm vụ Schema Winograd-like.
  5. Đánh giá trên các tập dữ liệu liên quan đến suy luận thông thường hoặc trả lời câu hỏi.
  6. Đánh giá trên các nhiệm vụ đọc hiểu.
  7. Đánh giá trên bộ chuẩn mực SuperGLUE.
  8. Khám phá NLI.

Mô hình Ngôn ngữ, Hoàn thành và Nhiệm vụ Cloze

Trong phần này, hiệu suất của mô hình GPT-3 được đánh giá trên các nhiệm vụ mô hình ngôn ngữ truyền thống cũng như các nhiệm vụ yêu cầu dự đoán một từ quan tâm duy nhất hoặc hoàn thành một đoạn văn hoặc một câu, hoặc hoàn thành một phần của văn bản. Hãy thảo luận về chúng trong chi tiết.

Mô hình Ngôn ngữ

Mô hình GPT-3 tính toán sự phức tạp zero-shot trên tập dữ liệu Penn Tree Bank hoặc PTB. Mô hình bỏ qua các nhiệm vụ liên quan đến Wikipedia vì chúng đã được bao gồm trong dữ liệu huấn luyện của mô hình và chuẩn mực một tỷ từ cũng bị bỏ qua vì nó gây ra một lượng ma sát đáng kể của tập dữ liệu trong dữ liệu huấn luyện. Tuy nhiên, tập dữ liệu PTB giải quyết các vấn đề này vì nó có trước internet hiện đại. Mô hình lớn nhất trong kiến trúc GPT-3 thiết lập một điểm chuẩn mới trên tập dữ liệu PTB với một khoảng cách đáng chú ý là 15 điểm và đạt được sự phức tạp là 20,50.

LAMBADA

Tập dữ liệu LAMBADA được sử dụng để kiểm tra mô hình hóa các phụ thuộc dài hạn trong các đoạn văn hoặc văn bản. Điều đó có nghĩa là mô hình được yêu cầu dự đoán từ cuối cùng của một câu sau khi đọc đoạn văn để có ngữ cảnh. Hơn nữa, việc mở rộng liên tục của các mô hình ngôn ngữ dẫn đến lợi ích giảm dần trên chuẩn mực này.

Mô hình GPT-3 đạt được độ chính xác là 76% trên LAMBADA và có lợi thế hơn 8% so với các mô hình tốt nhất trước đó. Hơn nữa, mô hình LAMBADA chứng minh sự linh hoạt của học tập few shot khi nó giải quyết vấn đề theo cách xảy ra một cách cổ điển với tập dữ liệu. Việc hoàn thành một câu trong LAMBADA thường là từ cuối cùng của câu, nhưng vì mô hình ngôn ngữ không thể biết điều đó, nó phân bổ xác suất không chỉ cho kết thúc chính xác mà còn cho các tiếp tục khác trong đoạn văn.

Hơn nữa, khi các ví dụ được đưa vào mô hình GPT-3 được sửa đổi theo một cách nhất định, mô hình trả về độ chính xác hơn 86%, một sự tăng lên hơn 18% so với các mô hình trước đó. Ngoài ra, kết quả cũng cho thấy rằng hiệu suất của mô hình trong thiết lập few shot tăng tỷ lệ thuận với sự tăng kích thước của mô hình. Mặc dù chiến lược này giảm mô hình nhỏ nhất trong kiến trúc GPT-3 xuống 20%, nhưng nó tăng độ chính xác của mô hình GPT-3 chính với 175 tỷ tham số lên 10%.

Trả lời Câu hỏi “trong Sách” Đóng

Trả lời câu hỏi “trong sách” đóng là một nỗ lực để đo lường khả năng của mô hình GPT-3 trong việc trả lời câu hỏi dựa trên kiến thức thực tế rộng. Bởi vì những câu hỏi như vậy thường có một lượng lớn các truy vấn có thể, nhiệm vụ này thường được thực hiện bằng cách sử dụng một hệ thống thu hồi thông tin cho phép mô hình tìm kiếm văn bản liên quan trong kết hợp với mô hình học để tạo ra một phản hồi cho câu hỏi đã cho.

Hình ảnh trên so sánh kết quả cho mô hình GPT-3 so với các mô hình khác và chạy trên các tập dữ liệu khác nhau. Trên tập dữ liệu TriviaQA, mô hình đạt được độ chính xác là 64,3% trong thiết lập zero-shot, trong khi nó đạt được độ chính xác là 68% và 71,2% trong các thiết lập one-shot và few-shot tương ứng.

Có thể thấy rõ ràng rằng mô hình GPT-3 trong thiết lập zero-shot vượt qua mô hình T5-11B được tinh chỉnh bằng một khoảng cách đáng kể là 14%.

Hình ảnh trên cho thấy hiệu suất của mô hình GPT-3 tăng lên một cách mịn khi tăng kích thước của mô hình. Hiệu suất cho thấy rằng các mô hình ngôn ngữ tiếp tục học từ tập dữ liệu khi khả năng của chúng tăng lên.

Suy nghĩ Cuối cùng

Nó sẽ an toàn khi nói rằng GPT-3 là một giai đoạn cách mạng trong ngành công nghiệp LLM vì GPT-3 đã giúp đẩy ranh giới của những gì một mô hình ngôn ngữ có thể làm. Đó là những phát triển được thực hiện và những chướng ngại vật được vượt qua bởi GPT-3 đã mở đường cho mô hình ngôn ngữ lớn và chính xác nhất cho đến ngày nay, mô hình GPT-4.

"Một kỹ sư theo nghề nghiệp, một nhà văn theo trái tim". Kunal là một nhà văn kỹ thuật với tình yêu và hiểu biết sâu sắc về AI và ML, dành để đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và thông tin của mình.