Tốt nhất
10 Thuật Toán Học Máy Tốt Nhất

Mặc dù chúng ta đang sống trong thời kỳ đổi mới phi thường của học máy được tăng tốc bằng GPU, các bài báo nghiên cứu mới nhất thường xuyên (và nổi bật) giới thiệu các thuật toán đã có từ hàng thập kỷ, trong một số trường hợp là 70 năm tuổi. Một số người có thể cho rằng nhiều phương pháp cũ này thuộc về nhóm ‘phân tích thống kê’ hơn là học máy, và thích xác định thời điểm ra đời của lĩnh vực này chỉ từ năm 1957, với sự phát minh ra Perceptron. Xét đến mức độ mà các thuật toán cũ này hỗ trợ và được lồng ghép trong các xu hướng mới nhất và những phát triển thu hút sự chú ý trong học máy, đây là một quan điểm có thể tranh luận. Vì vậy, hãy cùng xem xét một số ‘khối xây dựng cổ điển’ làm nền tảng cho những đổi mới mới nhất, cũng như một số phương pháp mới hơn đang sớm tranh giành một vị trí trong đại sảnh danh vọng của AI.
1: Transformers
Năm 2017, Google Research đã dẫn đầu một sự hợp tác nghiên cứu, đỉnh điểm là bài báo Attention Is All You Need. Công trình này phác thảo một kiến trúc mới lạ, nâng cấp cơ chế chú ý từ vai trò ‘đường ống dẫn’ trong các mô hình mạng mã hóa/giải mã và mạng hồi quy thành một công nghệ chuyển đổi trung tâm độc lập. Phương pháp này được đặt tên là Transformer, và từ đó đã trở thành một phương pháp luận cách mạng trong Xử lý Ngôn ngữ Tự nhiên (NLP), cung cấp năng lượng cho, trong số nhiều ví dụ khác, mô hình ngôn ngữ tự hồi quy và hình mẫu AI GPT-3. 

Dòng thời gian của các dự án NLP Transformer siêu quy mô. Nguồn: Microsoft
Kiến trúc Transformer cũng đã vượt ra khỏi NLP sang thị giác máy tính, cung cấp năng lượng cho một thế hệ mới các framework tổng hợp hình ảnh như CLIP và DALL-E của OpenAI, những mô hình sử dụng ánh xạ miền văn bản>hình ảnh để hoàn thiện các hình ảnh chưa đầy đủ và tổng hợp các hình ảnh mới từ các miền đã được huấn luyện, trong số ngày càng nhiều ứng dụng liên quan khác.

DALL-E cố gắng hoàn thiện một hình ảnh một phần của bức tượng bán thân Plato. Nguồn: https://openai.com/blog/dall-e/
2: Mạng Đối Kháng Tạo Sinh (GANs)
Mặc dù transformers đã nhận được sự quan tâm đặc biệt từ truyền thông thông qua việc phát hành và áp dụng GPT-3, Mạng Đối Kháng Tạo Sinh (GAN) đã trở thành một thương hiệu có thể nhận biết được, và cuối cùng có thể gia nhập từ deepfake như một động từ. Được đề xuất lần đầu vào năm 2014 và chủ yếu được sử dụng để tổng hợp hình ảnh, một kiến trúc Mạng Đối Kháng Tạo Sinh được cấu thành từ một Bộ Tạo và một Bộ Phân Biệt. Bộ Tạo lặp qua hàng nghìn hình ảnh trong một tập dữ liệu, liên tục cố gắng tái tạo chúng. Với mỗi lần thử, Bộ Phân Biệt chấm điểm công việc của Bộ Tạo, và gửi Bộ Tạo trở lại để làm tốt hơn, nhưng không cung cấp bất kỳ thông tin chi tiết nào về cách mà lần tái tạo trước đó đã sai.

Nguồn: https://developers.google.com/machine-learning/gan/gan_structure
Điều này buộc Bộ Tạo phải khám phá nhiều con đường khác nhau, thay vì đi theo những ngõ cụt tiềm ẩn có thể xảy ra nếu Bộ Phân Biệt nói cho nó biết nó đã sai ở đâu (xem #8 bên dưới). Đến khi quá trình huấn luyện kết thúc, Bộ Tạo đã có một bản đồ chi tiết và toàn diện về mối quan hệ giữa các điểm trong tập dữ liệu.

Từ bài báo Improving GAN Equilibrium by Raising Spatial Awareness: một framework mới lặp qua không gian tiềm ẩn đôi khi bí ẩn của một GAN, cung cấp tính năng điều khiển phản hồi cho một kiến trúc tổng hợp hình ảnh. Nguồn: https://genforce.github.io/eqgan/
Theo phép loại suy, đây là sự khác biệt giữa việc học một lộ trình đi làm nhàm chán duy nhất đến trung tâm London, hoặc kiên nhẫn thu thập The Knowledge. Kết quả là một tập hợp các đặc trưng cấp cao trong không gian tiềm ẩn của mô hình đã được huấn luyện. Chỉ báo ngữ nghĩa cho một đặc trưng cấp cao có thể là ‘người’, trong khi việc đi sâu vào tính cụ thể liên quan đến đặc trưng có thể khám phá ra các đặc điểm đã học khác, chẳng hạn như ‘nam’ và ‘nữ’. Ở các cấp độ thấp hơn, các đặc trưng phụ có thể phân rã thành, ‘tóc vàng’, ‘da trắng’, v.v. Sự ràng buộc là một vấn đề đáng chú ý trong không gian tiềm ẩn của GANs và các framework mã hóa/giải mã: nụ cười trên khuôn mặt nữ được tạo bởi GAN có phải là một đặc trưng bị ràng buộc với ‘danh tính’ của cô ấy trong không gian tiềm ẩn, hay nó là một nhánh song song?

Khuôn mặt được tạo bởi GAN từ thispersondoesnotexist. Nguồn: https://this-person-does-not-exist.com/en
Vài năm qua đã chứng kiến ngày càng nhiều sáng kiến nghiên cứu mới về khía cạnh này, có thể mở đường cho việc chỉnh sửa ở cấp độ đặc trưng, kiểu Photoshop, cho không gian tiềm ẩn của một GAN, nhưng ở thời điểm hiện tại, nhiều phép biến đổi thực chất là các gói ‘tất cả hoặc không có gì’. Đáng chú ý, bản phát hành EditGAN của NVIDIA vào cuối năm 2021 đạt được mức độ khả diễn giải cao trong không gian tiềm ẩn bằng cách sử dụng các mặt nạ phân đoạn ngữ nghĩa. Ứng Dụng Phổ Biến Bên cạnh sự tham gia (thực ra khá hạn chế) của chúng trong các video deepfake phổ biến, các GAN tập trung vào hình ảnh/video đã sinh sôi nảy nở trong bốn năm qua, thu hút cả các nhà nghiên cứu và công chúng. Việc theo kịp tốc độ và tần suất phát hành mới chóng mặt là một thách thức, mặc dù kho lưu trữ GitHub Awesome GAN Applications nhằm mục đích cung cấp một danh sách toàn diện. Về lý thuyết, Mạng Đối Kháng Tạo Sinh có thể rút ra các đặc trưng từ bất kỳ miền được định khung tốt nào, bao gồm cả văn bản.
3: SVM
Được khởi nguồn vào năm 1963, Máy Vector Hỗ trợ (SVM) là một thuật toán cốt lõi thường xuyên xuất hiện trong nghiên cứu mới. Trong SVM, các vector ánh xạ sự sắp xếp tương đối của các điểm dữ liệu trong một tập dữ liệu, trong khi các vector hỗ trợ phác thảo ranh giới giữa các nhóm, đặc trưng hoặc đặc điểm khác nhau. 












