Tốt nhất
10 Thuật Toán Học Máy Tốt Nhất

Mặc dù chúng ta đang sống trong một thời kỳ đổi mới đặc biệt trong học máy tăng tốc bằng GPU, nhưng các bài nghiên cứu mới nhất thường xuyên (và nổi bật) giới thiệu các thuật toán đã có từ vài thập kỷ, thậm chí 70 năm trước.
Một số người có thể cho rằng nhiều phương pháp cũ hơn thuộc về lĩnh vực ‘phân tích thống kê’ hơn là học máy, và thích định ngày bắt đầu của lĩnh vực này chỉ từ năm 1957, với sự phát minh của Perceptron.
Tuy nhiên, xét đến mức độ mà các thuật toán cũ này hỗ trợ và gắn liền với các xu hướng mới nhất và các phát triển nổi bật trong học máy, thì đây là một quan điểm có thể tranh cãi. Vậy hãy cùng xem xét một số ‘khối xây dựng cổ điển’ dướipinning cho các đổi mới mới nhất, cũng như một số entry mới đang cố gắng giành vị trí trong hội trường danh vọng AI.
1: Transformers
Năm 2017, Google Research đã dẫn đầu một hợp tác nghiên cứu kết thúc với bài báo paper Attention Is All You Need. Công việc này đã phác thảo một kiến trúc mới thúc đẩy cơ chế chú ý từ ‘đường ống’ trong các mô hình mã hóa/giải mã và mạng hồi quy sang một công nghệ chuyển đổi trung tâm.
Cách tiếp cận này được gọi là Transformer, và đã trở thành một phương pháp luận cách mạng trong Xử lý Ngôn ngữ Tự nhiên (NLP), cung cấp sức mạnh cho, trong số nhiều ví dụ khác, mô hình ngôn ngữ tự hồi quy GPT-3.

Transformers đã giải quyết một cách优雅 vấn đề chuyển đổi chuỗi, cũng được gọi là ‘chuyển đổi’, liên quan đến việc xử lý các chuỗi đầu vào thành chuỗi đầu ra. Một transformer cũng nhận và quản lý dữ liệu một cách liên tục, chứ không phải theo lô tuần tự, cho phép ‘sự tồn tại của bộ nhớ’ mà các kiến trúc RNN không được thiết kế để đạt được. Để có cái nhìn tổng quan chi tiết hơn về transformers, hãy xem bài viết tham khảo của chúng tôi.
Ngược lại với các Mạng Nơ-ron Hồi quy (RNN) đã bắt đầu thống trị nghiên cứu ML trong kỷ nguyên CUDA, kiến trúc Transformer cũng có thể được song song hóa một cách dễ dàng, mở ra con đường để giải quyết một lượng dữ liệu lớn hơn nhiều so với RNN.
Sử dụng phổ biến
Transformers đã thu hút trí tưởng tượng của công chúng vào năm 2020 với việc phát hành GPT-3 của OpenAI, vốn đã tự hào với 175 tỷ tham số tại thời điểm đó. Thành tựu này sau đó đã bị lu mờ bởi các dự án sau này, chẳng hạn như phát hành Megatron-Turing NLG 530B của Microsoft vào năm 2021, vốn có hơn 530 tỷ tham số.

Dòng thời gian của các dự án NLP Transformer siêu quy mô. Nguồn: Microsoft
Kiến trúc Transformer cũng đã vượt qua từ NLP sang thị giác máy tính, cung cấp sức mạnh cho một thế hệ mới các khuôn khổ tổng hợp hình ảnh như CLIP và DALL-E của OpenAI, sử dụng ánh xạ miền văn bản > hình ảnh để hoàn thành các hình ảnh không đầy đủ và tổng hợp các hình ảnh mới từ các miền đã được đào tạo, trong số nhiều ứng dụng khác.

DALL-E cố gắng hoàn thành một hình ảnh không đầy đủ của một bức tượng Plato. Nguồn: https://openai.com/blog/dall-e/
2: Mạng Đối Thủ Generative (GANs)
Mặc dù transformers đã thu hút sự chú ý của truyền thông một cách đặc biệt thông qua việc phát hành và áp dụng GPT-3, nhưng Mạng Đối Thủ Generative (GAN) đã trở thành một thương hiệu riêng và có thể cuối cùng sẽ tham gia deepfake như một động từ.
Đầu tiên được đề xuất vào năm 2014 và chủ yếu được sử dụng cho tổng hợp hình ảnh, một kiến trúc GAN bao gồm một Generator và một Discriminator. Generator lặp qua hàng nghìn hình ảnh trong một tập dữ liệu, cố gắng tái tạo chúng một cách lặp đi lặp lại. Đối với mỗi lần cố gắng, Discriminator đánh giá công việc của Generator và gửi Generator trở lại để làm tốt hơn, nhưng không có cái nhìn sâu sắc về cách mà lần tái tạo trước đó đã sai lầm.

Nguồn: https://developers.google.com/machine-learning/gan/gan_structure
Điều này buộc Generator phải khám phá nhiều con đường khác nhau, thay vì theo đuổi các con đường mù mà có thể đã xảy ra nếu Discriminator đã cho nó biết nó đang sai lầm (xem #8 dưới đây). Khi quá trình đào tạo kết thúc, Generator đã có một bản đồ chi tiết và toàn diện về các mối quan hệ giữa các điểm trong tập dữ liệu.

Từ bài báo Improving GAN Equilibrium by Raising Spatial Awareness: một khuôn khổ mới lặp qua không gian tiềm ẩn của một GAN, cung cấp công cụ điều khiển phản hồi cho một kiến trúc tổng hợp hình ảnh. Nguồn: https://genforce.github.io/eqgan/
Bằng cách tương tự, đây là sự khác biệt giữa việc học một hành trình đơn điệu đến trung tâm London, hoặc có được Kiến thức.
Kết quả là một tập hợp các tính năng cấp cao trong không gian tiềm ẩn của mô hình đã được đào tạo. Chỉ thị ngữ nghĩa cho một tính năng cấp cao có thể là ‘người’, trong khi một sự suy giảm về tính đặc hiệu liên quan đến tính năng có thể tiết lộ các đặc điểm đã học khác, chẳng hạn như ‘nam’ và ‘nữ’. Ở các cấp thấp hơn, các tính năng con có thể bị phá vỡ thành, ‘tóc vàng’, ‘người da trắng’, v.v.
Sự gắn kết là một vấn đề đáng chú ý trong không gian tiềm ẩn của GAN và các khuôn khổ mã hóa/giải mã: liệu nụ cười trên một khuôn mặt được tạo bởi GAN có phải là một tính năng gắn kết của ‘hội thoại’ trong không gian tiềm ẩn hay không, hay nó là một nhánh song song?

Khuôn mặt được tạo bởi GAN từ thispersondoesnotexist. Nguồn: https://this-person-does-not-exist.com/en
Những năm gần đây đã chứng kiến sự xuất hiện của một số lượng ngày càng tăng các sáng kiến nghiên cứu mới trong khía cạnh này, có thể mở đường cho việc chỉnh sửa cấp tính năng, kiểu như Photoshop, cho không gian tiềm ẩn của một GAN, nhưng hiện tại, nhiều biến đổi hiệu quả là ‘tất cả hoặc không có gì’ gói.
Đáng chú ý, bản phát hành EditGAN của NVIDIA vào cuối năm 2021 đạt được mức độ giải thích cao trong không gian tiềm ẩn bằng cách sử dụng các mặt nạ phân đoạn ngữ nghĩa.
Sử dụng phổ biến
Ngoài việc tham gia hạn chế vào các video deepfake phổ biến, GAN tập trung vào hình ảnh/đồ họa đã lan rộng trong bốn năm qua, thu hút các nhà nghiên cứu và công chúng. Việc theo dõi tốc độ và tần suất của các bản phát hành mới là một thách thức, mặc dù kho lưu trữ GitHub Awesome GAN Applications nhằm cung cấp một danh sách toàn diện.
Mạng Đối Thủ Generative có thể về mặt lý thuyết suy dẫn các tính năng từ bất kỳ miền nào được xác định rõ, bao gồm cả văn bản.












