Connect with us

Tốt nhất

10 Thuật Toán Học Máy Tốt Nhất

mm

Mặc dù chúng ta đang sống trong thời kỳ đổi mới phi thường của học máy được tăng tốc bằng GPU, các bài báo nghiên cứu mới nhất thường xuyên (và nổi bật) giới thiệu các thuật toán đã có từ hàng thập kỷ, trong một số trường hợp là 70 năm tuổi. Một số người có thể cho rằng nhiều phương pháp cũ này thuộc về nhóm ‘phân tích thống kê’ hơn là học máy, và thích xác định thời điểm ra đời của lĩnh vực này chỉ từ năm 1957, với sự phát minh ra Perceptron. Xét đến mức độ mà các thuật toán cũ này hỗ trợ và được lồng ghép trong các xu hướng mới nhất và những phát triển thu hút sự chú ý trong học máy, đây là một quan điểm có thể tranh luận. Vì vậy, hãy cùng xem xét một số ‘khối xây dựng cổ điển’ làm nền tảng cho những đổi mới mới nhất, cũng như một số phương pháp mới hơn đang sớm tranh giành một vị trí trong đại sảnh danh vọng của AI.

1: Transformers

Năm 2017, Google Research đã dẫn đầu một sự hợp tác nghiên cứu, đỉnh điểm là bài báo Attention Is All You Need. Công trình này phác thảo một kiến trúc mới lạ, nâng cấp cơ chế chú ý từ vai trò ‘đường ống dẫn’ trong các mô hình mạng mã hóa/giải mã và mạng hồi quy thành một công nghệ chuyển đổi trung tâm độc lập. Phương pháp này được đặt tên là Transformer, và từ đó đã trở thành một phương pháp luận cách mạng trong Xử lý Ngôn ngữ Tự nhiên (NLP), cung cấp năng lượng cho, trong số nhiều ví dụ khác, mô hình ngôn ngữ tự hồi quy và hình mẫu AI GPT-3. Transformers đã giải quyết một cách tinh tế vấn đề chuyển đổi chuỗi, còn được gọi là ‘biến đổi’, liên quan đến việc xử lý các chuỗi đầu vào thành chuỗi đầu ra. Một transformer cũng nhận và quản lý dữ liệu một cách liên tục, thay vì theo từng đợt tuần tự, cho phép một ‘sự tồn tại của bộ nhớ’ mà các kiến trúc RNN không được thiết kế để đạt được. Để có cái nhìn tổng quan chi tiết hơn về transformers, hãy xem bài viết tham khảo của chúng tôi. Trái ngược với Mạng nơ-ron Hồi quy (RNNs) vốn đã bắt đầu thống trị nghiên cứu ML trong kỷ nguyên CUDA, kiến trúc Transformer cũng có thể dễ dàng được song song hóa, mở đường để xử lý hiệu quả một kho ngữ liệu dữ liệu lớn hơn nhiều so với RNNs. Ứng Dụng Phổ Biến Transformers đã chiếm lấy trí tưởng tượng của công chúng vào năm 2020 với việc phát hành GPT-3 của OpenAI, mô hình này tự hào có 175 tỷ tham số kỷ lục vào thời điểm đó. Thành tựu đáng kinh ngạc này rốt cuộc đã bị lu mờ bởi các dự án sau này, chẳng hạn như việc phát hành năm 2021 của Microsoft Megatron-Turing NLG 530B, mô hình này (như tên gọi cho thấy) có hơn 530 tỷ tham số.

A timeline of hyperscale Transformer NLP projects. Source: Microsoft

Dòng thời gian của các dự án NLP Transformer siêu quy mô. Nguồn: Microsoft

Kiến trúc Transformer cũng đã vượt ra khỏi NLP sang thị giác máy tính, cung cấp năng lượng cho một thế hệ mới các framework tổng hợp hình ảnh như CLIPDALL-E của OpenAI, những mô hình sử dụng ánh xạ miền văn bản>hình ảnh để hoàn thiện các hình ảnh chưa đầy đủ và tổng hợp các hình ảnh mới từ các miền đã được huấn luyện, trong số ngày càng nhiều ứng dụng liên quan khác.

DALL-E attempts to complete a partial image of a bust of Plato. Source: https://openai.com/blog/dall-e/

DALL-E cố gắng hoàn thiện một hình ảnh một phần của bức tượng bán thân Plato. Nguồn: https://openai.com/blog/dall-e/

2: Mạng Đối Kháng Tạo Sinh (GANs)

Mặc dù transformers đã nhận được sự quan tâm đặc biệt từ truyền thông thông qua việc phát hành và áp dụng GPT-3, Mạng Đối Kháng Tạo Sinh (GAN) đã trở thành một thương hiệu có thể nhận biết được, và cuối cùng có thể gia nhập từ deepfake như một động từ. Được đề xuất lần đầu vào năm 2014 và chủ yếu được sử dụng để tổng hợp hình ảnh, một kiến trúc Mạng Đối Kháng Tạo Sinh được cấu thành từ một Bộ Tạo và một Bộ Phân Biệt. Bộ Tạo lặp qua hàng nghìn hình ảnh trong một tập dữ liệu, liên tục cố gắng tái tạo chúng. Với mỗi lần thử, Bộ Phân Biệt chấm điểm công việc của Bộ Tạo, và gửi Bộ Tạo trở lại để làm tốt hơn, nhưng không cung cấp bất kỳ thông tin chi tiết nào về cách mà lần tái tạo trước đó đã sai.

Source: https://developers.google.com/machine-learning/gan/gan_structure

Nguồn: https://developers.google.com/machine-learning/gan/gan_structure

Điều này buộc Bộ Tạo phải khám phá nhiều con đường khác nhau, thay vì đi theo những ngõ cụt tiềm ẩn có thể xảy ra nếu Bộ Phân Biệt nói cho nó biết nó đã sai ở đâu (xem #8 bên dưới). Đến khi quá trình huấn luyện kết thúc, Bộ Tạo đã có một bản đồ chi tiết và toàn diện về mối quan hệ giữa các điểm trong tập dữ liệu.

An excerpt from the researchers' accompanying video (see embed at end of article). Note that the user is manipulating the transformations with a 'grab' cursor (top left). Source:

Từ bài báo Improving GAN Equilibrium by Raising Spatial Awareness: một framework mới lặp qua không gian tiềm ẩn đôi khi bí ẩn của một GAN, cung cấp tính năng điều khiển phản hồi cho một kiến trúc tổng hợp hình ảnh. Nguồn: https://genforce.github.io/eqgan/

Theo phép loại suy, đây là sự khác biệt giữa việc học một lộ trình đi làm nhàm chán duy nhất đến trung tâm London, hoặc kiên nhẫn thu thập The Knowledge. Kết quả là một tập hợp các đặc trưng cấp cao trong không gian tiềm ẩn của mô hình đã được huấn luyện. Chỉ báo ngữ nghĩa cho một đặc trưng cấp cao có thể là ‘người’, trong khi việc đi sâu vào tính cụ thể liên quan đến đặc trưng có thể khám phá ra các đặc điểm đã học khác, chẳng hạn như ‘nam’ và ‘nữ’. Ở các cấp độ thấp hơn, các đặc trưng phụ có thể phân rã thành, ‘tóc vàng’, ‘da trắng’, v.v. Sự ràng buộc là một vấn đề đáng chú ý trong không gian tiềm ẩn của GANs và các framework mã hóa/giải mã: nụ cười trên khuôn mặt nữ được tạo bởi GAN có phải là một đặc trưng bị ràng buộc với ‘danh tính’ của cô ấy trong không gian tiềm ẩn, hay nó là một nhánh song song?

GAN-generated faces from thispersondoesnotexist. Source: https://this-person-does-not-exist.com/en

Khuôn mặt được tạo bởi GAN từ thispersondoesnotexist. Nguồn: https://this-person-does-not-exist.com/en

Vài năm qua đã chứng kiến ngày càng nhiều sáng kiến nghiên cứu mới về khía cạnh này, có thể mở đường cho việc chỉnh sửa ở cấp độ đặc trưng, kiểu Photoshop, cho không gian tiềm ẩn của một GAN, nhưng ở thời điểm hiện tại, nhiều phép biến đổi thực chất là các gói ‘tất cả hoặc không có gì’. Đáng chú ý, bản phát hành EditGAN của NVIDIA vào cuối năm 2021 đạt được mức độ khả diễn giải cao trong không gian tiềm ẩn bằng cách sử dụng các mặt nạ phân đoạn ngữ nghĩa. Ứng Dụng Phổ Biến Bên cạnh sự tham gia (thực ra khá hạn chế) của chúng trong các video deepfake phổ biến, các GAN tập trung vào hình ảnh/video đã sinh sôi nảy nở trong bốn năm qua, thu hút cả các nhà nghiên cứu và công chúng. Việc theo kịp tốc độ và tần suất phát hành mới chóng mặt là một thách thức, mặc dù kho lưu trữ GitHub Awesome GAN Applications nhằm mục đích cung cấp một danh sách toàn diện. Về lý thuyết, Mạng Đối Kháng Tạo Sinh có thể rút ra các đặc trưng từ bất kỳ miền được định khung tốt nào, bao gồm cả văn bản.

3: SVM

Được khởi nguồn vào năm 1963, Máy Vector Hỗ trợ (SVM) là một thuật toán cốt lõi thường xuyên xuất hiện trong nghiên cứu mới. Trong SVM, các vector ánh xạ sự sắp xếp tương đối của các điểm dữ liệu trong một tập dữ liệu, trong khi các vector hỗ trợ phác thảo ranh giới giữa các nhóm, đặc trưng hoặc đặc điểm khác nhau. Support vectors define the boundaries between groups. Source: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html Các vector hỗ trợ xác định ranh giới giữa các nhóm. Nguồn: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation

Nhà văn về học máy, chuyên gia trong lĩnh vực tổng hợp hình ảnh con người. Nguyên trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]