sơ khai Tạo diễn giải bằng cách sử dụng Deep Reinforcement Learning - Thought Leaders - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Tạo diễn giải bằng cách sử dụng Deep Reinforcement Learning – Thought Leaders

mm
cập nhật on

Khi viết hoặc nói, tất cả chúng ta đều tự hỏi liệu có cách nào tốt hơn để truyền đạt ý tưởng cho người khác hay không. Tôi nên sử dụng những từ nào? Tôi nên cấu trúc suy nghĩ như thế nào? Làm thế nào có khả năng họ sẽ trả lời? Tại Phrasee, chúng tôi dành nhiều thời gian suy nghĩ về ngôn ngữ – ngôn ngữ nào hiệu quả và ngôn ngữ nào không.

Hãy tưởng tượng bạn đang viết dòng chủ đề cho một chiến dịch email sẽ gửi tới 10 triệu người trong danh sách của bạn để quảng cáo giảm giá 20% cho một chiếc máy tính xách tay mới lạ mắt.

Bạn sẽ chọn dòng nào:

  • Bây giờ bạn có thể giảm thêm 20% cho đơn hàng tiếp theo của mình
  • Hãy sẵn sàng - giảm thêm 20%

Mặc dù chúng truyền tải cùng một thông tin, nhưng một cái đạt được tỷ lệ mở cao hơn gần 15% so với cái kia (và tôi cá là bạn không thể đánh bại mô hình của chúng tôi khi dự đoán cái nào ?). Trong khi ngôn ngữ thường có thể được kiểm tra thông qua Thử nghiệm A / B or băng cướp nhiều vũ trang, tự động tạo các diễn giải vẫn là một vấn đề nghiên cứu thực sự thách thức.

Hai câu được coi là diễn giải của nhau nếu chúng có cùng nghĩa và có thể dùng thay thế cho nhau. Một điều quan trọng khác thường được coi là hiển nhiên là liệu một câu do máy tạo ra có trôi chảy hay không.

Không giống như học có giám sát, các tác nhân Học tăng cường (RL) học thông qua tương tác với môi trường của họ và quan sát kết quả mà họ nhận được. Sự khác biệt đôi chút về sắc thái này có ý nghĩa to lớn đối với cách thức hoạt động của các thuật toán và cách các mô hình được đào tạo. Học tập củng cố sâu sử dụng mạng thần kinh như một công cụ xấp xỉ chức năng để cho phép tác nhân học cách vượt trội hơn con người trong các môi trường phức tạp như Go, Atari, và StarCraft II.

Bất chấp thành công này, học tăng cường vẫn chưa được áp dụng rộng rãi cho các vấn đề trong thế giới thực, bao gồm cả Xử lý ngôn ngữ tự nhiên (NLP).

Là một phần của tôi Luận văn thạc sĩ khoa học dữ liệu, chúng tôi trình bày cách Deep RL có thể được sử dụng để vượt trội hơn các phương pháp học có giám sát trong việc tự động tạo các phiên bản của văn bản đầu vào. Vấn đề tạo ra cách diễn giải tốt nhất có thể được xem như việc tìm ra chuỗi từ tối đa hóa sự giống nhau về ngữ nghĩa giữa các câu trong khi vẫn duy trì sự trôi chảy trong đầu ra. Các tác nhân RL rất phù hợp để tìm ra tập hợp hành động tốt nhất nhằm đạt được phần thưởng mong đợi tối đa trong môi trường kiểm soát.

Ngược lại với hầu hết các vấn đề trong học máy, vấn đề lớn nhất trong hầu hết các ứng dụng Tạo ngôn ngữ tự nhiên (NLG) không nằm ở mô hình hóa mà nằm ở việc đánh giá. Mặc dù đánh giá của con người hiện được coi là tiêu chuẩn vàng trong đánh giá NLG, nhưng nó có những nhược điểm đáng kể bao gồm tốn kém, mất thời gian, khó điều chỉnh và thiếu khả năng tái tạo giữa các thử nghiệm và tập dữ liệu. (Hân, 2016). Do đó, các nhà nghiên cứu từ lâu đã tìm kiếm các số liệu tự động đơn giản, có thể khái quát hóa và phản ánh phán đoán của con người. (Papineni và cộng sự, 2002).

Các phương pháp đánh giá tự động phổ biến nhất trong việc đánh giá chú thích hình ảnh do máy tạo ra được tóm tắt dưới đây cùng với ưu và nhược điểm của chúng:

Tạo diễn giải bằng cách sử dụng quy trình học tăng cường

Chúng tôi đã phát triển một hệ thống có tên ParaPhrasee để tạo ra các phiên bản chất lượng cao. Hệ thống bao gồm nhiều bước để áp dụng học tăng cường theo cách tính toán hiệu quả. Một bản tóm tắt ngắn gọn về quy trình cấp cao được hiển thị bên dưới với nhiều chi tiết hơn có trong luận văn.

Bộ dữ liệu

Có một số bộ dữ liệu diễn giải có sẵn được sử dụng trong nghiên cứu bao gồm: Văn bản diễn giải của Microsoft, Cuộc thi tương tự văn bản ngữ nghĩa của ACL, Câu hỏi trùng lặp QuoraLiên kết được chia sẻ trên Twitter. chúng tôi đã chọn MS-COCO với kích thước, độ sạch sẽ và được sử dụng làm tiêu chuẩn cho hai bài báo tạo diễn giải đáng chú ý. MS-COCO chứa 120 nghìn hình ảnh về các cảnh phổ biến với 5 chú thích hình ảnh trên mỗi hình ảnh được cung cấp bởi 5 người chú thích con người khác nhau.

Mặc dù nó được thiết kế chủ yếu cho nghiên cứu thị giác máy tính nhưng các chú thích có xu hướng có độ tương đồng cao về ngữ nghĩa và là những cách diễn giải thú vị. Do chú thích hình ảnh được cung cấp bởi những người khác nhau nên chúng có xu hướng có những khác biệt nhỏ về chi tiết được cung cấp trong cảnh, do đó các câu được tạo ra có xu hướng gây ảo giác về chi tiết.

Mô hình được giám sát

Mặc dù học tăng cường đã được cải thiện đáng kể về hiệu quả mẫu, thời gian đào tạo và các phương pháp hay nhất về tổng thể, nhưng việc đào tạo các mô hình RL từ đầu vẫn tương đối chậm và không ổn định (Arulkumaran và cộng sự, 2017). Do đó, thay vì đào tạo từ đầu, trước tiên chúng tôi đào tạo một mô hình được giám sát và sau đó tinh chỉnh mô hình đó bằng RL.

Chúng tôi sử dụng một Bộ mã hóa-Bộ giải mã khung mô hình và đánh giá hiệu suất của một số mô hình được giám sát cơ bản. Khi tinh chỉnh mô hình bằng RL, chúng tôi chỉ tinh chỉnh mạng bộ giải mã và coi mạng bộ mã hóa là tĩnh. Như vậy, chúng tôi xem xét hai khuôn khổ chính:

  • Huấn luyện mô hình được giám sát từ đầu bằng cách sử dụng bộ giải mã bộ mã hóa tiêu chuẩn/vanilla với GRU
  • Sử dụng các mô hình nhúng câu được đào tạo trước cho bộ mã hóa, bao gồm: nhúng từ tổng hợp (GloVe), InferSent và BERT

Các mô hình được giám sát có xu hướng hoạt động khá giống nhau giữa các mô hình với BERT và bộ giải mã-mã hóa vanilla đạt được hiệu suất tốt nhất.

Mặc dù hiệu suất có xu hướng hợp lý, nhưng có ba nguồn lỗi phổ biến: nói lắp, tạo ra các đoạn câu và ảo giác. Đây là những vấn đề chính mà việc sử dụng RL nhằm mục đích giải quyết.

Mô hình học tăng cường

Việc triển khai các thuật toán RL rất khó khăn, đặc biệt là khi bạn không biết liệu vấn đề có thể được giải quyết hay không. Có thể có vấn đề trong việc triển khai môi trường, tác nhân, siêu tham số, chức năng phần thưởng của bạn hoặc kết hợp tất cả những điều trên! Những vấn đề này trở nên trầm trọng hơn khi thực hiện RL sâu khi bạn cảm thấy thú vị với sự phức tạp gia tăng của gỡ lỗi mạng thần kinh.

Như với tất cả việc sửa lỗi, điều quan trọng là bắt đầu đơn giản. Chúng tôi đã triển khai các biến thể của hai môi trường RL đồ chơi đã được hiểu rõ (CartPole và FrozenLake) để thử nghiệm các thuật toán RL và tìm ra chiến lược có thể lặp lại để chuyển giao kiến ​​thức từ mô hình được giám sát.

Chúng tôi thấy rằng bằng cách sử dụng một Thuật toán diễn viên-nhà phê bình REINFORCE vượt trội trong những môi trường này. Về mặt chuyển kiến ​​thức sang mô hình diễn viên-nhà phê bình, chúng tôi nhận thấy rằng việc khởi tạo trọng số của diễn viên với mô hình được giám sát đã đào tạo và đào tạo trước nhà phê bình đạt được hiệu suất tốt nhất. Chúng tôi nhận thấy việc khái quát hóa các phương pháp chắt lọc chính sách tinh vi cho các môi trường mới là một thách thức khi chúng giới thiệu nhiều siêu đường kính mới đòi hỏi phải điều chỉnh để hoạt động.

Được hỗ trợ bởi những hiểu biết sâu sắc này, sau đó chúng tôi chuyển sang phát triển một cách tiếp cận cho nhiệm vụ tạo diễn giải. Đầu tiên chúng ta cần tạo môi trường.

Môi trường cho phép chúng tôi dễ dàng kiểm tra tác động của việc sử dụng các số liệu đánh giá khác nhau làm chức năng khen thưởng.

Sau đó, chúng tôi xác định tác nhân, với nhiều ưu điểm của nó, chúng tôi sử dụng kiến ​​trúc diễn viên-phê bình. Tác nhân được sử dụng để chọn từ tiếp theo trong chuỗi và khởi tạo trọng số của nó bằng mô hình được giám sát. Nhà phê bình đưa ra ước tính về phần thưởng dự kiến ​​mà một quốc gia có thể nhận được để giúp tác nhân học hỏi.

Thiết kế chức năng phần thưởng phù hợp

Thành phần quan trọng nhất của việc thiết kế hệ thống RL là chức năng phần thưởng vì đây là điều mà tác nhân RL đang cố gắng tối ưu hóa. Nếu chức năng phần thưởng không chính xác, thì kết quả sẽ bị ảnh hưởng ngay cả khi mọi phần khác của hệ thống hoạt động!

Một ví dụ cổ điển về điều này là Bờ BiểnRunners trong đó các nhà nghiên cứu OpenAI đặt chức năng phần thưởng là tối đa hóa tổng số điểm thay vì chiến thắng cuộc đua. Kết quả của việc này là đặc vụ đã phát hiện ra một vòng lặp trong đó nó có thể đạt điểm cao nhất bằng cách đánh vào tuabin mà không cần hoàn thành cuộc đua.

Bản thân việc đánh giá chất lượng của các phiên bản đã là một vấn đề chưa được giải quyết, nên việc thiết kế một chức năng phần thưởng tự động đạt được mục tiêu này thậm chí còn khó hơn. Hầu hết các khía cạnh của ngôn ngữ không phân tách độc đáo thành các số liệu tuyến tính và phụ thuộc vào nhiệm vụ (Novikova và cộng sự, 2017).

Tác nhân RL thường phát hiện ra một chiến lược thú vị để tối đa hóa phần thưởng, chiến lược này khai thác các điểm yếu trong chỉ số đánh giá thay vì tạo ra văn bản chất lượng cao. Điều này có xu hướng dẫn đến hiệu suất kém đối với các chỉ số mà tác nhân không trực tiếp tối ưu hóa.

Chúng tôi xem xét ba cách tiếp cận chính:

  1. Số liệu chồng chéo từ

Các chỉ số đánh giá NLP phổ biến xem xét tỷ lệ trùng lặp từ giữa cách diễn giải được tạo và câu đánh giá. Sự trùng lặp càng lớn thì phần thưởng càng lớn. Thách thức với cách tiếp cận ở cấp độ từ là tác nhân bao gồm quá nhiều từ kết nối chẳng hạn như “a is on of” và không có thước đo mức độ trôi chảy. Điều này dẫn đến các phiên bản chất lượng rất thấp.

  1. Số liệu tương tự và trôi chảy ở cấp độ câu

Các thuộc tính chính của một diễn giải được tạo ra là nó phải trôi chảy và tương tự về mặt ngữ nghĩa với câu đầu vào. Do đó, chúng tôi cố gắng chấm điểm các chỉ số này một cách rõ ràng, sau đó kết hợp các chỉ số. Đối với sự giống nhau về ngữ nghĩa, chúng tôi sử dụng độ tương tự cosin giữa các phần nhúng câu từ các mô hình được đào tạo trước bao gồm BERT. Để nói trôi chảy, chúng tôi sử dụng điểm dựa trên mức độ phức tạp của một câu trong GPT-2. Điểm tương đồng cosin và mức độ lưu loát càng lớn thì phần thưởng càng lớn.

Chúng tôi đã thử nhiều cách kết hợp khác nhau giữa mô hình nhúng câu và mô hình lưu loát và mặc dù hiệu suất là hợp lý, nhưng vấn đề chính mà tác nhân gặp phải là không đủ cân bằng giữa sự tương đồng về ngữ nghĩa với tính lưu loát. Đối với hầu hết các cấu hình, tác nhân ưu tiên sự trôi chảy dẫn đến việc loại bỏ chi tiết và hầu hết các thực thể được đặt “ở giữa” một thứ gì đó hoặc được di chuyển “trên bàn” hoặc “bên lề đường”.

Học tăng cường đa mục tiêu là một câu hỏi nghiên cứu mở và rất thách thức trong trường hợp này.

  1. Sử dụng Mô hình Đối thủ làm Chức năng Phần thưởng

Do con người được coi là tiêu chuẩn vàng trong việc đánh giá, nên chúng tôi đào tạo một mô hình riêng gọi là bộ phân biệt đối xử để dự đoán liệu hai câu có phải là cách diễn giải của nhau hay không (tương tự như cách con người sẽ đánh giá). Sau đó, mục tiêu của mô hình RL là thuyết phục mô hình này rằng câu được tạo là một cách diễn giải của đầu vào. Người phân biệt đối xử tạo ra một số điểm về khả năng hai câu là phiên bản của nhau, được sử dụng làm phần thưởng để huấn luyện tác nhân.

Cứ sau 5,000 lần đoán, người phân biệt được cho biết cách diễn giải nào đến từ tập dữ liệu và cách diễn giải nào được tạo ra để nó có thể cải thiện các lần đoán trong tương lai. Quá trình tiếp tục trong nhiều vòng với tác nhân cố gắng đánh lừa người phân biệt đối xử và người phân biệt đối xử cố gắng phân biệt giữa các phiên bản được tạo và các phiên bản đánh giá từ tập dữ liệu.

Sau một số vòng đào tạo, tác nhân tạo ra các phiên bản vượt trội hơn các mô hình được giám sát và các chức năng khen thưởng khác.

Kết luận và Hạn chế

Các phương pháp tiếp cận đối thủ (bao gồm cả tự chơi trò chơi) cung cấp một phương pháp cực kỳ hứa hẹn để đào tạo các thuật toán RL để vượt quá hiệu suất ở cấp độ con người đối với các nhiệm vụ nhất định mà không cần xác định chức năng phần thưởng rõ ràng.

Mặc dù RL có thể làm tốt hơn việc học có giám sát trong trường hợp này, nhưng lượng chi phí bổ sung về mã, tính toán và độ phức tạp không đáng để đạt được hiệu suất cho hầu hết các ứng dụng. RL tốt nhất nên dành cho các tình huống không thể áp dụng dễ dàng việc học có giám sát và chức năng phần thưởng dễ xác định (chẳng hạn như trò chơi Atari). Các phương pháp tiếp cận và thuật toán hoàn thiện hơn nhiều trong học tập có giám sát và tín hiệu lỗi mạnh hơn nhiều dẫn đến đào tạo nhanh hơn và ổn định hơn nhiều.

Một cân nhắc khác, cũng như các phương pháp tiếp cận thần kinh khác, tác nhân có thể thất bại rất nghiêm trọng trong trường hợp đầu vào khác với đầu vào mà nó đã thấy trước đó, yêu cầu một lớp kiểm tra độ chính xác bổ sung cho các ứng dụng sản xuất.

Sự bùng nổ mối quan tâm đến các phương pháp RL và những tiến bộ trong cơ sở hạ tầng máy tính trong vài năm qua sẽ mở ra những cơ hội lớn để áp dụng RL trong ngành, đặc biệt là trong NLP.

Andrew Gibbs-Bravo là Nhà khoa học dữ liệu tại Phrasee tập trung vào việc cải thiện công nghệ đằng sau Viết quảng cáo dựa trên AI hàng đầu thế giới của Phrasee. Anh ấy cũng là người đồng tổ chức Cuộc gặp gỡ cộng đồng học tập tăng cường ở London và quan tâm đến tất cả mọi thứ về RL, NLP và học máy.