Trí tuệ nhân tạo

GPT-3 : Học ít lần cho mô hình ngôn ngữ?

Được phát hành

9 tháng trước

Tháng Tám 24, 2023

Trong vài năm qua, ngành công nghiệp AI và ML đã chứng kiến sự gia tăng nhanh chóng trong quá trình phát triển và ứng dụng hệ thống NLP khi các nhà nghiên cứu có thể triển khai các thực hành NLP theo những cách rất linh hoạt và không phân biệt nhiệm vụ cho các nhiệm vụ chuyển giao xuôi dòng.

Ban đầu, các biểu diễn một lớp sử dụng vectơ từ và sau đó được đưa vào kiến trúc dành riêng cho nhiệm vụ. Tiếp theo, kiến trúc RNN sử dụng các biểu diễn nhiều lớp và trạng thái theo ngữ cảnh để hình thành các biểu diễn tốt hơn. Và gần đây nhất, chúng tôi có các mô hình ngôn ngữ chuyển giao hoặc các mô hình lặp lại được đào tạo trước đã loại bỏ hoàn toàn nhu cầu về kiến trúc dành riêng cho nhiệm vụ bằng cách tinh chỉnh các mạng này.

Các mô hình ngôn ngữ chuyển giao đã được chứng minh là một bước ngoặt lớn trong ngành NLP vì chúng đã mang lại sự tiến bộ vượt bậc trong các nhiệm vụ đầy thách thức như trả lời câu hỏi, đọc hiểu hoặc khối văn bản, kéo theo văn bản, v.v.

Tuy nhiên, bất chấp những ưu điểm của chúng, các mô hình ngôn ngữ chuyển giao có một hạn chế lớn vì chúng yêu cầu tinh chỉnh theo từng nhiệm vụ cụ thể hoặc tập dữ liệu dành riêng cho nhiệm vụ để đạt được hiệu suất mong muốn cho một nhiệm vụ. Hơn nữa, các mô hình ngôn ngữ chuyển giao cũng yêu cầu các nhà phát triển tinh chỉnh bộ dữ liệu thành hàng trăm nghìn ví dụ cụ thể cho một nhiệm vụ cụ thể.

Không cần phải nói rằng việc loại bỏ yêu cầu về tập dữ liệu dành riêng cho nhiệm vụ và tinh chỉnh theo nhiệm vụ cụ thể sẽ rất được mong muốn và có lợi cho ngành NLP vì nhiều lý do.

Các vấn đề với các Mô hình ngôn ngữ chuyển giao được đào tạo trước hoặc các Mô hình lặp lại hiện có

Hạn chế tính thực tiễn và khả năng ứng dụng

Đầu tiên và quan trọng nhất, yêu cầu về một tập dữ liệu lớn với dữ liệu được gắn nhãn cho từng nhiệm vụ sẽ hạn chế khả năng ứng dụng và tính thực tế của các mô hình ngôn ngữ. Các mô hình ngôn ngữ tìm thấy ứng dụng của chúng trong nhiều nhiệm vụ khác nhau, từ tạo một câu chuyện ngắn, đến sửa lỗi ngữ pháp, đến tạo ví dụ về một khái niệm. Đôi khi, việc thu thập một tập dữ liệu được giám sát lớn với dữ liệu được gắn nhãn là một nhiệm vụ đầy thách thức, đặc biệt khi quy trình này cần được lặp lại cho từng tác vụ riêng lẻ.

Khai thác mối tương quan giả trong dữ liệu đào tạo

Những hạn chế và độ hẹp của phân phối đào tạo cùng với tính biểu cảm của mô hình có thể dẫn đến sự tăng trưởng cơ bản về tiềm năng khai thác các mối tương quan giả trong dữ liệu đào tạo. Khả năng khai thác dữ liệu huấn luyện có thể dẫn đến các vấn đề trong quá trình tinh chỉnh và huấn luyện trước vì các mô hình ngôn ngữ chuyển giao được thiết kế theo cách hấp thụ một lượng lớn thông tin trong quá trình huấn luyện trước.

Hơn nữa, nghiên cứu trên các mô hình trước đó đã chỉ ra rằng các mô hình lớn không phải lúc nào cũng mang lại hiệu quả phân phối tốt hơn. Hơn nữa, người ta cũng chỉ ra rằng việc khái quát hóa đạt được theo mô hình như vậy có thể dẫn đến hiệu suất kém chủ yếu do mô hình có tính đặc hiệu cao đối với dữ liệu huấn luyện và không thể hoạt động tốt trong các tình huống ngoài phạm vi của dữ liệu huấn luyện.

So sánh với việc học của con người

Cuối cùng, khi so sánh với các mô hình ngôn ngữ chuyển giao, con người không yêu cầu một tập dữ liệu huấn luyện lớn khi học phần lớn các nhiệm vụ ngôn ngữ. Thông thường, một chỉ dẫn ngắn gọn bằng ngôn ngữ tự nhiên của một người hoặc một phần trình bày nhỏ về nhiệm vụ ngôn ngữ là đủ để con người hiểu và thực hiện một nhiệm vụ ngôn ngữ với mức độ cạnh tranh nhất định.

Khả năng thích ứng của con người có nhiều lợi thế thực tế vì nó cho phép họ chuyển đổi giữa các bộ kỹ năng khác nhau hoặc kết hợp chúng lại với nhau để hoạt động tốt hơn trong một phương ngữ, một điều vượt quá khả năng của hệ thống NLP hiện tại.

Giải quyết các vấn đề với Meta Learning & GPT-3

Một giải pháp khả thi cho những thách thức trên là sử dụng meta learning, một khái niệm trong ML hiện đại cho phép một mô hình phát triển tập hợp kỹ năng và khả năng lớn hơn và rộng hơn để nhận biết các mẫu trong khi đào tạo, sau đó sử dụng những khả năng đã học này trong quá trình can thiệp để thích ứng. nhanh chóng hoặc nhận ra nhiệm vụ được yêu cầu.

Meta Learning đang được triển khai trong kiến trúc mô hình ngôn ngữ thông qua một kỹ thuật gọi là “học trong ngữ cảnh” sử dụng kiểu nhập văn bản của mô hình ngôn ngữ được đào tạo trước làm đặc tả tác vụ. Trong quá trình này, mô hình đặt điều kiện dựa trên hướng dẫn ngôn ngữ tự nhiên và thậm chí có thể sử dụng một vài minh họa, sau đó mô hình dự kiến sẽ hoàn thành phần còn lại của nhiệm vụ bằng cách dự đoán các bước tiếp theo.

Vấn đề lớn duy nhất của Meta Learning là mặc dù nó đã cho thấy tiềm năng tích cực nhưng nó vẫn kém hơn so với cách tiếp cận tinh chỉnh trong kiến trúc ngôn ngữ tự nhiên và cần cải tiến hơn nữa để trở thành một phương pháp thực tế giúp khắc phục các nhiệm vụ ngôn ngữ.

Ngoài meta learning, một phương pháp khác đang trở nên phổ biến là tăng cường năng lực của các mô hình ngôn ngữ biến đổi. Trong vài năm qua, các mô hình chuyển giao đã chứng kiến sự gia tăng đáng kể về năng lực với RNSS18 mô hình với 100 triệu tham số, DCLT18 mô hình với 300 triệu tham số, RWC19 mô hình với 1.5 tỷ tham số, SSP19 mô hình với 8 tỷ tham số, RSR19 mô hình với 11 tỷ tham số và TUR20 mô hình với 17 tỷ tham số.

Việc tăng công suất của mô hình hoặc tăng các tham số trước đây đã dẫn đến những cải tiến về tổng hợp văn bản và có dấu hiệu cho thấy tình trạng mất nhật ký, tương quan với các tác vụ xuôi dòng cũng đi theo xu hướng cải thiện suôn sẻ theo quy mô.

Điều đó đưa chúng ta đến với mẫu GPT-3 có hơn 175 tỷ thông số và khi ra mắt là mẫu ngôn ngữ chuyển giao có dung lượng cao nhất. Bây giờ chúng ta hãy nói về mẫu GPT-3.

Giới thiệu về Mẫu GPT-3

GPT-3 là mô hình ngôn ngữ tự động tấn công với hơn 175 tỷ tham số được OpenAI phát hành vào năm 2020. GPT-3 cũng được phân loại là mô hình ngôn ngữ lớn giống như người tiền nhiệm của nó, mô hình GPT-2 là mô hình biến áp học sâu chỉ có bộ giải mã, sử dụng kiến trúc dựa trên tích chập để tạo ra dữ liệu văn bản.

Mô hình GPT-3 đo lường khả năng học theo ngữ cảnh của chính nó và mô hình GPT-3 được đánh giá trên hơn hai chục bộ dữ liệu NLP và nhiều nhiệm vụ mới. Đối với mỗi nhiệm vụ riêng lẻ, mô hình GPT-3 được đánh giá theo ba điều kiện,

Học ít lần hoặc Học theo ngữ cảnh: Trong vài lần học bắn, mô hình GPT-3 cho phép phân phối nhiều nhất có thể phù hợp với cửa sổ ngữ cảnh của mô hình.
Học một lần: Trong phương pháp học một lần, mô hình chỉ cho phép trình diễn một lần.
Học không bắn: Trong phương pháp học không bắn, không có phần trình diễn nào và chỉ có hướng dẫn bằng ngôn ngữ tự nhiên được đưa vào mô hình.

Nói chung, mẫu GPT-3 đạt được hiệu suất mong muốn ở cài đặt không chụp và một lần chụp, đồng thời ở cài đặt vài lần chụp, nó thường hoạt động tốt hơn các mô hình truyền tải hiện đại. Hơn nữa, mô hình GPT-3 hoạt động tốt trong cài đặt một lần và không lần bắn ở các tác vụ ngôn ngữ tự nhiên được thiết kế để kiểm tra khả năng suy luận nhanh chóng hoặc yêu cầu sự chú ý nhanh chóng như sử dụng các từ mới sau một câu hoặc sắp xếp các từ hoặc thực hiện phép tính số học. hoạt động. Mặt khác, khi được vận hành trong cài đặt vài cảnh quay, mô hình GPT-3 tạo ra các bài báo tin tức tổng hợp giống với chữ viết của con người khi được chuyển qua người đánh giá.

Mẫu GPT-3: Cách tiếp cận

Mô hình GPT-3 sử dụng phương pháp đào tạo trước thông thường bao gồm mô hình, dữ liệu và đào tạo, đồng thời mô hình này giống với quy trình đào tạo trước mà mô hình ngôn ngữ chuyển RWC-19 tiếp theo. Mô hình GPT-3 tăng quy mô mô hình, kích thước tập dữ liệu, tính đa dạng của tập dữ liệu và tăng thời lượng đào tạo.

Mô hình này cũng sử dụng phương pháp học tập trong ngữ cảnh một lần nữa giống với cách tiếp cận của mô hình RWC-19, nhưng điều chỉnh mọi thứ một chút bằng cách khám phá một cách có hệ thống các cài đặt khác nhau cho các mô hình học tập trong ngữ cảnh của tập dữ liệu.

Vì vậy, hãy bắt đầu bằng cách khám phá các cài đặt này và đánh giá cách mô hình GTP-3 hoạt động trên các cài đặt khác nhau.

Tinh chỉnh

Tinh chỉnh mô hình là phương pháp truyền thống trong chuyển giao mô hình ngôn ngữvà cách tiếp cận này liên quan đến việc cập nhật trọng số của mô hình được đào tạo trước bằng cách đào tạo mô hình trên tập dữ liệu được giám sát dành riêng cho nhiệm vụ mong muốn và hàng trăm nghìn ví dụ được gắn nhãn sẽ được sử dụng trong quá trình này.

Phương pháp tinh chỉnh có lợi vì nó mang lại hiệu suất mạnh mẽ trên nhiều tiêu chuẩn. Mặt khác, hạn chế chính của việc sử dụng phương pháp tinh chỉnh là nó yêu cầu một tập dữ liệu mới và lớn cho mọi nhiệm vụ riêng lẻ, có khả năng khai thác các tính năng giả của tập dữ liệu huấn luyện và có thể dẫn đến so sánh không công bằng với hiệu suất của con người. và khả năng khái quát hóa kém đối với việc nằm ngoài phân phối.

Phạm vi hiện tại của mô hình GPT-3 không triển khai phương pháp tinh chỉnh do hiệu suất không thể xác định được nhiệm vụ của nó, mặc dù tính năng tinh chỉnh có thể được áp dụng cho mô hình GPT-3 trong tương lai.

Ít cú sút

Ít cú đánh là một thuật ngữ đề cập đến cài đặt trong đó mô hình GPT-3 được đưa ra một số minh họa về nhiệm vụ trong quá trình can thiệp dưới dạng điều hòa, nhưng trọng số của mô hình không được cập nhật. Trong một số cài đặt cảnh quay, tập dữ liệu thường có một ví dụ kèm theo ngữ cảnh và phần hoàn thành mong muốn (ví dụ: một câu tiếng Pháp và bản dịch tiếng Anh của nó). Cài đặt vài lần chụp mang lại cho người mẫu K ví dụ về bối cảnh và sự hoàn thành, sau đó nó cung cấp cho mô hình một bối cảnh cuối cùng và mong đợi mô hình sẽ cung cấp sự hoàn thiện.

Ưu điểm chính của việc sử dụng cài đặt ít lần chụp là nó làm giảm đáng kể nhu cầu về dữ liệu dành riêng cho nhiệm vụ và cũng làm giảm khả năng tìm hiểu phân bố hẹp từ một tập dữ liệu lớn được tinh chỉnh trong phạm vi hẹp. Mặt khác, nhược điểm lớn của việc sử dụng phương pháp học ít lần bắn là kết quả mang lại trong cài đặt số lần bắn không đạt yêu cầu và kém đáng kể khi so sánh với các mô hình hiện đại khác đã được tinh chỉnh.

One Shot

Trong cài đặt một lần chụp, mô hình chỉ được cung cấp một bản trình diễn duy nhất và phần còn lại tương tự như cài đặt một vài lần chụp. Lý do tại sao cài đặt một lần chụp lại phù hợp trong các mô hình ngôn ngữ chuyển giao là vì trong số cả ba cài đặt, một lần cài đặt là cài đặt giống nhất với cách truyền đạt nhiệm vụ tới con người một cách tốt nhất. Đó là bởi vì trong hầu hết các nhiệm vụ, thông thường người ta sẽ trình diễn một nhiệm vụ, nếu không sẽ khó hiểu được ngữ cảnh của nhiệm vụ.

không bắn

Trong cài đặt không chụp, không có phần trình diễn nào và mô hình được cung cấp hướng dẫn bằng ngôn ngữ tự nhiên để mô tả nhiệm vụ. Phương pháp bắn không là phương pháp mang lại sự thuận tiện tối đa, mạnh mẽ và cũng tránh được các mối tương quan giả, nhưng đây cũng là thách thức lớn nhất trong cả ba phương pháp cài đặt. Đó là bởi vì trong một số trường hợp, ngay cả con người chúng ta cũng khó có thể tìm ra bối cảnh của một nhiệm vụ nếu không xem phần minh họa trước.

Bất kể, đối với một số tác vụ, cài đặt không bắn là cài đặt giống nhất với cách con người thực hiện các tác vụ bằng ngôn ngữ tự nhiên.

Hình trên so sánh cài đặt chụp ít, chụp một lần và cài đặt không chụp khi thực hiện tác vụ ngôn ngữ tự nhiên là lấy một câu tiếng Anh và dịch nó sang tiếng Pháp.

GPT-3: Kiến trúc mô hình

Mô hình GPT-3 sử dụng kiến trúc giống như kiến trúc được sử dụng trong mô hình GPT-2 và bao gồm các kỹ thuật chuẩn hóa trước, khởi tạo đã sửa đổi và mã hóa có thể đảo ngược như chúng đã được sử dụng trên mô hình GPT ngoại trừ việc sử dụng một mô hình thay thế. chiến lược dành cho các mẫu chú ý thưa thớt được phân dải cục bộ và các lớp dày đặc xen kẽ trong các lớp biến áp, tương tự như Máy biến áp thưa thớt.

Để nghiên cứu sự phụ thuộc giữa hiệu suất của mô hình vào kích thước mô hình, các nhà phát triển đã đào tạo 8 kích thước mô hình khác nhau trải dài trên ba bậc độ lớn khác nhau từ 125 triệu đến hơn 175 tỷ tham số, tham số cuối cùng trong số đó được gọi là mô hình GPT-3 . Công việc trước đây liên quan đến các mô hình LLM đã chỉ ra rằng Tỷ lệ mất xác thực với đủ lượng dữ liệu huấn luyện phải là một định luật lũy thừa trơn gần đúng như một hàm của kích thước. Các mô hình đào tạo có quy mô khác nhau cho phép các nhà phát triển kiểm tra giả thuyết cho cả nhiệm vụ ngôn ngữ xuôi dòng cũng như mất xác thực.

Hình trên so sánh kích thước và kiến trúc của 8 mô hình khác nhau được sử dụng để phát triển GPT-3. Ở đây, n(params) xác định tổng số mẫu có thể huấn luyện, n(lớp) xác định tổng số lớp trong mô hình, d(model) xác định số lượng đơn vị trong mỗi lớp của nút cổ chai và d(head) xác định kích thước của mỗi đầu chú ý. Cửa sổ ngữ cảnh cho mỗi mô hình giống nhau với 2048 mã thông báo.

Hơn nữa, để giảm thiểu việc truyền dữ liệu giữa các nút, mô hình được phân vùng trên các GPU dọc theo chiều sâu và chiều rộng của kích thước. Các tham số kiến trúc cho từng mô hình đã được chọn trên cơ sở hiệu quả tính toán và cân bằng tải để tối đa hóa độ chính xác trong việc bố trí các mô hình trên các GPU.

Bộ dữ liệu đào tạo

Thông thường, các mô hình ngôn ngữ lớn sử dụng các tập dữ liệu đã được mở rộng đáng kể theo những phát triển gần đây và đạt đến đỉnh cao là tập dữ liệu Thu thập thông tin chung bao gồm hơn một nghìn tỷ từ khác nhau. Kích thước của tập dữ liệu đủ để huấn luyện mô hình GPT-3 mà không cần cập nhật nhiều lần trên cùng một chuỗi. Tuy nhiên, các nghiên cứu & phân tích hiệu suất chỉ ra rằng các phiên bản được lọc nhẹ hoặc phiên bản chưa được lọc của tập dữ liệu Thu thập thông tin thông thường có chất lượng thấp khi so sánh với tập dữ liệu được quản lý chặt chẽ hơn.

Để giải quyết vấn đề về chất lượng trung bình của tập dữ liệu, các nhà phát triển đã thực hiện 3 bước để nâng cao chất lượng của tập dữ liệu.

Các nhà phát triển đã tải xuống và lọc một phiên bản của tập dữ liệu Thu thập thông tin chung dựa trên một phạm vi tương tự như tập dữ liệu tham chiếu chất lượng cao.
Các nhà phát triển đã thực hiện sao chép mờ ở cấp độ tài liệu trên tập dữ liệu nhằm cố gắng duy trì tính toàn vẹn của bộ xác thực được tổ chức của họ như một phép đo hiệu quả về tình trạng trang bị quá mức và cũng để ngăn chặn tình trạng dư thừa.
Các nhà phát triển cũng đã thêm tập dữ liệu tham chiếu chất lượng cao vào dữ liệu đào tạo để tăng cường tập dữ liệu Thu thập thông tin chung và để tăng thêm tính đa dạng của tập dữ liệu.

Hình sau đây hiển thị tỷ lệ hoặc hỗn hợp cuối cùng của các tập dữ liệu được sử dụng để huấn luyện mô hình GPT-3. Dữ liệu Thu thập thông tin chung bao gồm hơn 45 TB văn bản gốc trước khi lọc đã giảm xuống còn 570 GB dữ liệu sau khi lọc, tương đương sơ bộ với hơn 400 tỷ mã thông báo được mã hóa theo cặp byte. Điều đáng lưu ý là các tập dữ liệu trong quá trình đào tạo được xem là có chất lượng cao hơn sẽ được lấy mẫu với tần suất cao hơn thay vì lấy mẫu tỷ lệ tập dữ liệu theo kích thước của chúng. Do đó, các tập dữ liệu như Books2 & Common Crawl được lấy mẫu ít hơn một lần trong quá trình đào tạo, trong khi các tập dữ liệu khác được lấy mẫu nhiều lần. Nó cho phép mô hình chấp nhận một lượng nhỏ quá khớp để đổi lấy việc huấn luyện dữ liệu huấn luyện với chất lượng cao hơn.

Một mối quan tâm đáng kể với các mô hình ngôn ngữ lớn được đào tạo trước trên một lượng lớn dữ liệu internet có khả năng ghi nhớ và học một lượng lớn nội dung là khả năng ô nhiễm của các nhiệm vụ tiếp theo do việc phát triển hoặc các bộ thử nghiệm của chúng được nhìn thấy trong quá trình chuẩn bị trước. quá trình đào tạo. Để giảm khả năng lây nhiễm tiềm ẩn như vậy, các nhà phát triển đã tìm kiếm bất kỳ điểm trùng lặp nào với bộ tiêu chuẩn thử nghiệm & phát triển được nghiên cứu cho GPT-3 và cố gắng loại bỏ những điểm trùng lặp này.

Hình ảnh trên cho thấy tổng số điện toán được sử dụng trong quá trình đào tạo mô hình GPT-3. Mô hình này sử dụng Luật chia tỷ lệ cho các mô hình ngôn ngữ thần kinh để huấn luyện các mô hình lớn hơn nhiều với ít mã thông báo hơn so với thông thường. Do đó, cả mô hình GPT-3 và RoBERTa-Large, nhỏ hơn 10 lần so với mô hình GPT-3, đều tiêu tốn gần 50 petaflop/ngày tính toán trong quá trình đào tạo trước.

Đánh giá

Đối với một số lần học bắn, mô hình sẽ đánh giá từng ví dụ có trong tập dữ liệu đánh giá bằng cách rút ngẫu nhiên K ví dụ từ tập dữ liệu huấn luyện của nhiệm vụ đó làm điều kiện và phân định nó bằng 1 hoặc 2 dòng mới tùy thuộc vào nhiệm vụ. Đối với Storycloze và LAMBADA, mô hình này lấy các ví dụ có điều kiện từ tập phát triển và đánh giá nó trên tập kiểm tra do không có tập huấn luyện được giám sát. Đối với Winograd, chỉ tồn tại một tập dữ liệu và do đó các mẫu điều hòa được lấy trực tiếp từ đó.

K có thể là bất kỳ giá trị nào từ 0 đến giá trị tối đa được cho phép bởi cửa sổ ngữ cảnh của mô hình là next = 2048 cho tất cả các mô hình và thường phù hợp với khoảng 10 đến 100 ví dụ. Giá trị K lớn hơn thường mang lại kết quả tốt hơn, nhưng không phải lúc nào cũng vậy, đó là lý do tại sao khi mô hình có bộ thử nghiệm và bộ phát triển riêng biệt, mô hình sẽ thử nghiệm trên một vài giá trị của K trên tập phát triển và dựa trên kết quả , nó chạy giá trị tốt nhất trên tập kiểm tra.

Hơn nữa, đối với các nhiệm vụ yêu cầu chọn cách hoàn thành chính xác từ nhiều tùy chọn, nhà phát triển sẽ cung cấp K ví dụ về sửa lỗi cộng với hoàn thành ngữ cảnh và theo dõi nó bằng cách chỉ cung cấp một ví dụ về ngữ cảnh, sau đó các nhiệm vụ sẽ được so sánh trên cơ sở khả năng LM của mỗi lần hoàn thành. Đối với các tác vụ yêu cầu phân loại nhị phân, các mô hình thường đưa ra các tùy chọn về mặt ngữ nghĩa hơn và với các tên có ý nghĩa hơn, sau đó xử lý tác vụ dưới dạng trắc nghiệm và đôi khi cũng đóng khung tác vụ tương tự như những gì được thực hiện bởi mô hình & kiến trúc RSR.

Đối với các tác vụ yêu cầu hoàn thành ở dạng tự do, mô hình sử dụng tìm kiếm chùm tia với các tham số giống hệt như được sử dụng trong khung RSR, với chùm có độ dài 4 và mức phạt là 0.6. Sau đó, mô hình được tính điểm bằng cách sử dụng điểm tương tự F1, kết quả khớp chính xác hoặc BLEU, tùy thuộc vào tiêu chuẩn của tập dữ liệu.

Kết quả

Hình trên hiển thị đường cong huấn luyện cho 8 mô hình được sử dụng trong kiến trúc mô hình GPT-3, như được mô tả trong các phần trước. Tương tự như kết quả từ mô hình ngôn ngữ KMH, hiệu suất của mô hình GPT-3 tuân theo quy luật phù hợp khi sử dụng tính toán đào tạo một cách hiệu quả. Có một sự khác biệt nhỏ so với quy luật chỉ khi xu hướng được mở rộng thêm hai bậc độ lớn nữa. Mọi người có thể nhận ra rằng những cải thiện về mất mát entropy chéo có thể là kết quả của việc lập mô hình các chi tiết giả của kho dữ liệu huấn luyện. Tuy nhiên, những cải thiện về tổn thất entropy chéo dẫn đến mức tăng nhất quán về hiệu suất tổng thể trên phạm vi rộng của nhiều nhiệm vụ NLP khác nhau.

Trước khi đánh giá 8 mô hình khác nhau trên nhiều loại dữ liệu huấn luyện, các bộ dữ liệu được nhóm thành 8 loại khác nhau đại diện cho các nhiệm vụ tương tự. Những danh mục này là

Đánh giá các nhiệm vụ mô hình hóa ngôn ngữ truyền thống và các nhiệm vụ tương tự như mô hình hóa ngôn ngữ như nhiệm vụ Cloze hoặc nhiệm vụ hoàn thành câu/đoạn.
Đánh giá các nhiệm vụ trả lời câu hỏi “sách đóng”.
Đánh giá khả năng dịch giữa các ngôn ngữ của mô hình (đặc biệt là one-shot và few-shot)
Đánh giá hiệu suất của mô hình đối với các tác vụ giống như Lược đồ Winograd.
Đánh giá trên các tập dữ liệu liên quan đến lý luận thông thường hoặc trả lời câu hỏi.
Đánh giá các nhiệm vụ đọc hiểu.
Đánh giá trên bộ benchmark SuperGLUE.
Khám phá NLI.

Nhiệm vụ mô hình hóa, hoàn thành và kết thúc ngôn ngữ

Trong phần này, hiệu suất của mô hình GPT-3 được đánh giá dựa trên các nhiệm vụ mô hình hóa ngôn ngữ truyền thống cũng như các nhiệm vụ yêu cầu dự đoán một từ quan tâm hoặc hoàn thành một đoạn văn hoặc một câu hoặc hoàn thành một đoạn văn bản. Hãy thảo luận về chúng một cách chi tiết ngắn gọn.

Mô hình ngôn ngữ

Mô hình GPT-3 tính toán mức độ bối rối khi không bắn được trên tập dữ liệu PTB hoặc Penn Tree Bank. Mô hình này bỏ qua các nhiệm vụ liên quan đến Wikipedia vì nó đã được đưa vào dữ liệu huấn luyện của mô hình và điểm chuẩn một tỷ từ cũng bị bỏ qua vì nó gây ra sự xung đột đáng kể đối với tập dữ liệu nằm trong dữ liệu huấn luyện. Tuy nhiên, bộ dữ liệu PTB đã giải quyết được những vấn đề này vì nó có thể có trước Internet hiện đại. Mô hình lớn nhất trong kiến trúc mô hình GPT-3 thiết lập SOTA mới trên tập dữ liệu PTB với mức chênh lệch đáng chú ý là 15 điểm và đạt được độ phức tạp là 20.50.

LAMBADA

Bộ dữ liệu LAMBADA được sử dụng để kiểm tra mô hình hóa của mô hình về các phần phụ thuộc tầm xa trong các đoạn văn hoặc văn bản. Điều đó có nghĩa là người mẫu được yêu cầu dự đoán từ cuối cùng của câu sau khi đọc đoạn văn theo ngữ cảnh. Hơn nữa, việc mở rộng quy mô liên tục của các mô hình ngôn ngữ mang lại lợi nhuận giảm dần trên điểm chuẩn.

Mẫu GPT-3 đạt được độ chính xác 76% trên LAMBADA và tăng hơn 8% so với các mẫu tốt nhất trước đó. Hơn nữa, mô hình LAMBADA thể hiện tính linh hoạt của phương pháp học vài lần vì nó giải quyết vấn đề theo cách xảy ra cổ điển với tập dữ liệu. Phần hoàn thành một câu trong LAMBADA thường là từ cuối cùng của câu, nhưng vì mô hình ngôn ngữ không thể biết được điều đó nên nó gán xác suất không chỉ cho phần kết thúc đúng mà còn cho các phần tiếp theo khác trong đoạn văn.

Hơn nữa, khi các ví dụ được cung cấp cho mô hình GPT-3 được sửa đổi theo một cách nhất định, mô hình sẽ trả về độ chính xác trên 86%, tăng hơn 18% so với các mô hình trước đó. Ngoài ra, kết quả cũng chỉ ra rằng hiệu suất của mô hình trong cài đặt vài ảnh tăng tỷ lệ thuận với việc tăng kích thước mô hình. Mặc dù chiến lược này giúp giảm 3% mô hình nhỏ nhất trong kiến trúc GPT-20 nhưng nó lại nâng cao độ chính xác của mô hình GPT-3 chính với 175 tỷ tham số lên 10%.

Trả lời câu hỏi sách đóng

Trả lời câu hỏi sách đóng là một nỗ lực nhằm đo lường khả năng trả lời các câu hỏi của mô hình GPT-3 dựa trên kiến thức thực tế rộng rãi. Bởi vì những câu hỏi như vậy thường có số lượng truy vấn khả thi cao nên nhiệm vụ thường đạt được bằng cách sử dụng hệ thống truy xuất thông tin cho phép mô hình tìm văn bản có liên quan kết hợp với mô hình học cách tạo phản hồi cho câu trả lời cho văn bản được truy xuất và câu hỏi.

Hình ảnh trên so sánh kết quả của mô hình GPT-3 với các mô hình khác nhau và chạy trên các bộ dữ liệu khác nhau. Trên tập dữ liệu TriviaQA, mô hình đạt được điểm chính xác là 64.3% ở cài đặt không chụp, trong khi nó đạt được điểm chính xác lần lượt là 68% và 71.2% ở cài đặt một lần chụp và ít lần chụp.

Rõ ràng có thể thấy rằng mẫu GPT-3 ở cài đặt không bắn tốt hơn mẫu T5-11B đã tinh chỉnh hơn 14%.

Hình trên cho thấy hiệu suất của mẫu GPT-3 tăng trưởng ổn định khi kích thước mẫu tăng lên. Hiệu suất cho thấy các mô hình ngôn ngữ tiếp tục học từ tập dữ liệu khi dung lượng của chúng tăng lên.

Kết luận:

Sẽ an toàn khi nói rằng GPT-3 là một giai đoạn cách mạng hóa trong ngành LLM vì GPT-3 đã giúp nâng cao các giới hạn mà một mô hình ngôn ngữ có thể làm. Chính những bước phát triển và những trở ngại mà GPT-3 đã vượt qua đã mở đường cho mô hình ngôn ngữ lớn chính xác và tiên tiến nhất cho đến nay, GPT-4.

Chủ đề liên quan:GPT-3 LLM OpenAI

Meta tiết lộ mã công cụ mã hóa mới Llama

Đừng bỏ lỡ

Báo cáo thu nhập của NVIDIA tiết lộ sự thống trị trong cuộc cách mạng AI

Kunal Kejriwal

"Kỹ sư chuyên nghiệp, nhà văn có tâm". Kunal là một nhà văn kỹ thuật có niềm yêu thích và hiểu biết sâu sắc về AI và ML, chuyên đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và nhiều thông tin của mình.