Best Of

10 thuật toán học máy tốt nhất

cập nhật on 10 Tháng hai, 2022

Mặc dù chúng ta đang sống trong thời kỳ đổi mới phi thường trong lĩnh vực học máy được tăng tốc bằng GPU, nhưng các tài liệu nghiên cứu mới nhất thường xuyên (và nổi bật) đề cập đến các thuật toán đã có tuổi đời hàng thập kỷ, trong một số trường hợp nhất định đã 70 năm tuổi.

Một số người có thể cho rằng nhiều trong số các phương pháp cũ này thuộc nhóm 'phân tích thống kê' hơn là học máy và thích xác định niên đại của lĩnh vực này chỉ từ năm 1957, với phát minh ra Perceptron.

Với mức độ hỗ trợ của các thuật toán cũ hơn này và được bắt kịp với các xu hướng mới nhất và sự phát triển gây chú ý trong lĩnh vực học máy, đó là một lập trường có thể gây tranh cãi. Vì vậy, chúng ta hãy xem xét một số khối xây dựng 'cổ điển' làm nền tảng cho những cải tiến mới nhất, cũng như một số mục mới hơn đang đặt giá thầu sớm cho đại sảnh danh vọng AI.

1: Máy biến thế

Vào năm 2017, Google Research đã dẫn đầu một sự hợp tác nghiên cứu mà đỉnh cao là giấy Chú ý là tất cả những gì bạn cần. Công trình đã vạch ra một kiến trúc mới thúc đẩy cơ chế chú ý từ 'đường ống' trong bộ mã hóa/bộ giải mã và mô hình mạng hồi quy sang công nghệ chuyển đổi trung tâm theo đúng nghĩa của chúng.

Cách tiếp cận được mệnh danh là Transformer, và từ đó đã trở thành một phương pháp mang tính cách mạng trong Xử lý ngôn ngữ tự nhiên (NLP), hỗ trợ, trong số nhiều ví dụ khác, mô hình ngôn ngữ tự hồi phục và GPT-3 hậu thế AI.

Transformers giải quyết vấn đề một cách tao nhã trình tự tải nạp, còn được gọi là 'chuyển đổi', liên quan đến việc xử lý các chuỗi đầu vào thành các chuỗi đầu ra. Máy biến áp cũng nhận và quản lý dữ liệu một cách liên tục, thay vì theo từng đợt tuần tự, cho phép 'sự ổn định của bộ nhớ' mà kiến trúc RNN không được thiết kế để có được. Để có cái nhìn tổng quan chi tiết hơn về máy biến áp, hãy xem bài viết tham khảo của chúng tôi.

Ngược lại với Mạng thần kinh tái phát (RNN) đã bắt đầu thống trị nghiên cứu ML trong kỷ nguyên CUDA, kiến trúc Transformer cũng có thể dễ dàng song song hóa, mở ra cách giải quyết hiệu quả một kho dữ liệu lớn hơn nhiều so với RNN.

Cách sử dụng phổ biến

Transformers đã chiếm được trí tưởng tượng của công chúng vào năm 2020 với việc phát hành GPT-3 của OpenAI, tự hào về tốc độ phá kỷ lục khi đó. 175 tỷ thông số. Thành tích rõ ràng đáng kinh ngạc này cuối cùng đã bị lu mờ bởi các dự án sau này, chẳng hạn như 2021 phát hành của Megatron-Turing NLG 530B của Microsoft, (đúng như tên gọi) có hơn 530 tỷ thông số.

Dòng thời gian của các dự án Transformer NLP siêu quy mô. nguồn: microsoft

Kiến trúc máy biến áp cũng đã chuyển từ NLP sang thị giác máy tính, cung cấp năng lượng cho thế hệ mới của các khung tổng hợp hình ảnh như OpenAI's CLIP và DALL-E, sử dụng ánh xạ miền văn bản>hình ảnh để hoàn thành các hình ảnh chưa hoàn chỉnh và tổng hợp các hình ảnh mới từ các miền được đào tạo, trong số các ứng dụng liên quan ngày càng tăng.

DALL-E cố gắng hoàn thành một phần hình ảnh tượng bán thân của Plato. Nguồn: https://openai.com/blog/dall-e/

2: Mạng đối thủ chung (GAN)

Mặc dù máy biến áp đã đạt được mức độ phủ sóng truyền thông phi thường thông qua việc phát hành và áp dụng GPT-3, Mạng đối thủ sáng tạo (GAN) đã trở thành một thương hiệu dễ nhận biết theo đúng nghĩa của nó và cuối cùng có thể tham gia sâu sắc như một động từ.

đề xuất đầu tiên trong 2014 và chủ yếu được sử dụng để tổng hợp hình ảnh, Mạng đối thủ sáng tạo kiến trúc bao gồm một Máy phát điện và Người phân biệt đối xử. Trình tạo quay vòng qua hàng nghìn hình ảnh trong tập dữ liệu, lặp đi lặp lại việc cố gắng tái tạo lại chúng. Đối với mỗi lần thử, Người phân biệt sẽ chấm điểm công việc của Trình tạo và gửi Trình tạo trở lại để làm tốt hơn, nhưng không có bất kỳ thông tin chi tiết nào về cách mà quá trình tái tạo trước đó đã mắc lỗi.

Nguồn: https://developers.google.com/machine-learning/gan/gan_structure

Điều này buộc Máy phát điện phải khám phá vô số con đường, thay vì đi theo những ngõ cụt tiềm tàng có thể xảy ra nếu Người phân biệt đối xử nói cho nó biết nó sai ở đâu (xem #8 bên dưới). Khi khóa đào tạo kết thúc, Trình tạo có một bản đồ chi tiết và toàn diện về mối quan hệ giữa các điểm trong tập dữ liệu.

Một đoạn trích từ video đi kèm của các nhà nghiên cứu (xem phần nhúng ở cuối bài viết). Lưu ý rằng người dùng đang thao tác các phép biến đổi bằng con trỏ 'lấy' (trên cùng bên trái). Nguồn: https://www.youtube.com/watch?v=k7sG4XY5rIc

Từ tờ báo Cải thiện sự cân bằng của GAN bằng cách nâng cao nhận thức về không gian: một khung mới quay vòng qua không gian tiềm ẩn đôi khi bí ẩn của GAN, cung cấp công cụ đáp ứng cho kiến trúc tổng hợp hình ảnh. Nguồn: https://genforce.github.io/eqgan/

Tương tự như vậy, đây là sự khác biệt giữa việc học một cách buồn tẻ đơn lẻ trên đường đi làm đến trung tâm Luân Đôn hoặc việc học một cách chăm chỉ Kiến thức.

Kết quả là một bộ sưu tập các tính năng cấp cao trong không gian tiềm ẩn của mô hình được đào tạo. Chỉ báo ngữ nghĩa cho một tính năng cấp cao có thể là 'người', trong khi việc giảm dần thông qua tính đặc hiệu liên quan đến tính năng này có thể khai quật các đặc điểm đã học khác, chẳng hạn như 'nam' và 'nữ'. Ở cấp độ thấp hơn, các tính năng phụ có thể được chia thành 'tóc vàng', 'Da trắng', v.v.

Lôi kéo là một vấn đề đáng chú ý trong không gian tiềm ẩn của GAN và khung mã hóa/giải mã: nụ cười trên khuôn mặt phụ nữ do GAN tạo ra có phải là một đặc điểm vướng mắc của 'danh tính' của cô ấy trong không gian tiềm ẩn hay đó là một nhánh song song?

Các khuôn mặt do GAN tạo từ người này không tồn tại. Nguồn: https://this-person-does-not-exist.com/en

Các khuôn mặt do GAN tạo từ người này không tồn tại. Nguồn: https://this-person-does-not-exist.com/vi

Vài năm qua đã đưa ra ngày càng nhiều sáng kiến nghiên cứu mới về mặt này, có lẽ mở đường cho việc chỉnh sửa kiểu Photoshop, cấp độ tính năng cho không gian tiềm ẩn của GAN, nhưng hiện tại, nhiều chuyển đổi đang hoạt động hiệu quả ' gói tất cả hoặc không có gì'. Đáng chú ý, bản phát hành EditGAN của NVIDIA vào cuối năm 2021 đã đạt được mức độ dễ hiểu cao trong không gian tiềm ẩn bằng cách sử dụng mặt nạ phân đoạn ngữ nghĩa.

Cách sử dụng phổ biến

Bên cạnh sự tham gia (thực sự khá hạn chế) của họ vào các video deepfake phổ biến, các GAN tập trung vào hình ảnh/video đã phát triển mạnh mẽ trong bốn năm qua, khiến các nhà nghiên cứu cũng như công chúng say mê. Theo kịp tốc độ và tần suất phát hành mới chóng mặt là một thách thức, mặc dù kho lưu trữ GitHub Ứng dụng GAN tuyệt vời nhằm mục đích cung cấp một danh sách toàn diện.

Về lý thuyết, Mạng đối thủ chung có thể lấy được các tính năng từ bất kỳ miền được đóng khung tốt nào, bao gồm cả văn bản.

3: SVM

Xuất xứ trong 1963, Máy hỗ trợ vector (SVM) là thuật toán cốt lõi xuất hiện thường xuyên trong nghiên cứu mới. Trong SVM, vectơ ánh xạ vị trí tương đối của các điểm dữ liệu trong tập dữ liệu, trong khi hỗ trợ các vectơ phân định ranh giới giữa các nhóm, tính năng hoặc đặc điểm khác nhau.

Các vectơ hỗ trợ xác định ranh giới giữa các nhóm. Nguồn: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Ranh giới dẫn xuất được gọi là một siêu phẳng.

Ở mức tính năng thấp, SVM là hai chiều (hình trên), nhưng ở nơi có số lượng nhóm hoặc loại được công nhận cao hơn, nó sẽ trở thành ba chiều.

Một mảng sâu hơn của các điểm và nhóm đòi hỏi một SVM ba chiều. Nguồn: https://cml.rhul.ac.uk/svm.html

Cách sử dụng phổ biến

Vì Máy Vector hỗ trợ có thể xử lý nhiều loại dữ liệu nhiều chiều một cách hiệu quả và bất khả tri, nên chúng xuất hiện rộng rãi trên nhiều lĩnh vực học máy, bao gồm phát hiện deepfake, phân loại hình ảnh, phân loại lời nói căm thù, Phân tích DNA và dự báo cơ cấu dân số, trong số nhiều người khác.

4: Phân cụm K-Mean

Phân cụm nói chung là một học tập không giám sát phương pháp tìm cách phân loại các điểm dữ liệu thông qua ước tính mật độ, tạo bản đồ phân phối dữ liệu đang được nghiên cứu.

K-Means phân cụm phân chia các phân đoạn, nhóm và cộng đồng trong dữ liệu. Nguồn: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

Phân cụm K-Means đã trở thành cách triển khai phổ biến nhất của phương pháp này, sắp xếp các điểm dữ liệu thành các 'Nhóm K' đặc biệt, có thể chỉ ra các lĩnh vực nhân khẩu học, cộng đồng trực tuyến hoặc bất kỳ tập hợp bí mật khả thi nào khác đang chờ được khám phá trong dữ liệu thống kê thô.

Các cụm hình thành trong phân tích K-Means. Nguồn: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

Bản thân giá trị K là yếu tố quyết định trong tiện ích của quy trình và trong việc thiết lập giá trị tối ưu cho một cụm. Ban đầu, giá trị K được gán một cách ngẫu nhiên, và các đặc trưng và véc tơ đặc trưng của nó so với các lân cận của nó. Những hàng xóm gần giống với điểm dữ liệu nhất với giá trị được gán ngẫu nhiên sẽ được gán lặp lại cho cụm của nó cho đến khi dữ liệu tạo ra tất cả các nhóm mà quy trình cho phép.

Biểu đồ cho lỗi bình phương hoặc 'chi phí' của các giá trị khác nhau giữa các cụm sẽ tiết lộ một điểm khuỷu tay cho dữ liệu:

'Điểm khuỷu tay' trong biểu đồ cụm. Nguồn: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

Điểm khuỷu tay về mặt khái niệm tương tự như cách mà tổn thất giảm dần thành lợi nhuận giảm dần vào cuối buổi đào tạo cho một tập dữ liệu. Nó đại diện cho điểm mà tại đó không có sự phân biệt nào nữa giữa các nhóm sẽ trở nên rõ ràng, cho biết thời điểm để chuyển sang các giai đoạn tiếp theo trong quy trình cung cấp dữ liệu hoặc để báo cáo các phát hiện.

Cách sử dụng phổ biến

Vì những lý do rõ ràng, K-Means Clustering là một công nghệ chính trong phân tích khách hàng, vì nó cung cấp một phương pháp rõ ràng và dễ giải thích để dịch số lượng lớn hồ sơ thương mại thành thông tin chi tiết về nhân khẩu học và 'khách hàng tiềm năng'.

Ngoài ứng dụng này, K-Means Clustering cũng được sử dụng cho dự đoán sạt lở đất, phân đoạn hình ảnh y tế, tổng hợp hình ảnh với GAN, phân loại tài liệuvà quy hoạch thành phố, trong số nhiều mục đích sử dụng tiềm năng và thực tế khác.

5: Rừng ngẫu nhiên

Rừng ngẫu nhiên là một học tập chung phương pháp tính trung bình kết quả từ một mảng cây quyết định để thiết lập một dự đoán tổng thể cho kết quả.

Nguồn: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Nếu bạn đã nghiên cứu về nó dù chỉ là xem Chuyển đến tương lai bộ ba, bản thân cây quyết định khá dễ khái niệm hóa: một số con đường nằm trước mặt bạn và mỗi con đường lại dẫn đến một kết quả mới, từ đó chứa đựng những con đường khả thi khác.

In học tăng cường, bạn có thể rút lui khỏi một con đường và bắt đầu lại từ thế đứng trước đó, trong khi cây quyết định cam kết hành trình của chúng.

Do đó, thuật toán Rừng ngẫu nhiên về cơ bản là đặt cược chênh lệch cho các quyết định. Thuật toán được gọi là 'ngẫu nhiên' vì nó làm cho đặc biệt lựa chọn và quan sát để hiểu trung vị tổng các kết quả từ mảng cây quyết định.

Vì nó tính đến nhiều yếu tố, nên cách tiếp cận Rừng ngẫu nhiên có thể khó chuyển đổi thành các biểu đồ có ý nghĩa hơn so với cây quyết định, nhưng có khả năng hiệu quả hơn đáng kể.

Cây quyết định có thể bị quá khớp, trong đó kết quả thu được là dữ liệu cụ thể và không có khả năng khái quát hóa. Lựa chọn tùy ý các điểm dữ liệu của Random Forest chống lại xu hướng này, đi sâu vào các xu hướng đại diện có ý nghĩa và hữu ích trong dữ liệu.

Hồi quy cây quyết định. Nguồn: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Cách sử dụng phổ biến

Cũng như nhiều thuật toán trong danh sách này, Random Forest thường hoạt động như một công cụ phân loại và lọc dữ liệu 'sớm', và do đó luôn xuất hiện trong các tài liệu nghiên cứu mới. Một số ví dụ về việc sử dụng Rừng ngẫu nhiên bao gồm Tổng Hợp Hình Ảnh Cộng Hưởng Từ, Dự đoán giá bitcoin, phân khúc điều tra dân số, phân loại văn bản và phát hiện gian lận thẻ tín dụng.

Vì Random Forest là một thuật toán cấp thấp trong kiến trúc máy học nên nó cũng có thể đóng góp vào hiệu suất của các phương pháp cấp thấp khác, cũng như các thuật toán trực quan hóa, bao gồm Phân cụm quy nạp, Chuyển đổi tính năng, phân loại văn bản sử dụng các tính năng thưa thớtvà hiển thị đường ống.

6: Bayes ngây thơ

Cùng với ước tính mật độ (xem 4, ở trên), một Bayes ngây thơ phân loại là một thuật toán mạnh mẽ nhưng tương đối nhẹ có khả năng ước tính xác suất dựa trên các tính năng được tính toán của dữ liệu.

Tính năng các mối quan hệ trong một trình phân loại Bayes ngây thơ. Nguồn: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Thuật ngữ 'ngây thơ' đề cập đến giả định trong Định lý Bayes các tính năng đó không liên quan, được gọi là độc lập có điều kiện. Nếu bạn áp dụng quan điểm này, thì việc đi và nói như một con vịt không đủ để chứng minh rằng chúng ta đang đối phó với một con vịt và không có giả định 'hiển nhiên' nào được áp dụng sớm.

Mức độ chặt chẽ về học thuật và điều tra này sẽ là quá mức cần thiết khi có sẵn 'lẽ thường', nhưng lại là một tiêu chuẩn có giá trị khi vượt qua nhiều điểm mơ hồ và các mối tương quan tiềm ẩn không liên quan có thể tồn tại trong tập dữ liệu máy học.

Trong một mạng Bayesian ban đầu, các tính năng phải tuân theo chức năng chấm điểm, bao gồm độ dài mô tả tối thiểu và tính điểm Bayesian, có thể áp đặt các hạn chế đối với dữ liệu theo các kết nối ước tính được tìm thấy giữa các điểm dữ liệu và hướng mà các kết nối này lưu chuyển.

Ngược lại, một bộ phân loại Bayes ngây thơ hoạt động bằng cách giả định rằng các tính năng của một đối tượng nhất định là độc lập, sau đó sử dụng định lý Bayes để tính xác suất của một đối tượng nhất định, dựa trên các tính năng của nó.

Cách sử dụng phổ biến

Bộ lọc Naive Bayes được thể hiện tốt trong dự đoán bệnh và phân loại tài liệu, lọc thư rác, phân loại tình cảm, hệ thống giới thiệuvà phát hiện gian lận, trong số các ứng dụng khác.

7: K- Láng giềng gần nhất (KNN)

Lần đầu tiên được đề xuất bởi Trường Y học Hàng không Không quân Hoa Kỳ trong 1951và phải thích nghi với phần cứng máy tính hiện đại nhất giữa thế kỷ 20, K-Những người hàng xóm gần nhất (KNN) là một thuật toán tinh gọn vẫn nổi bật trên các bài báo học thuật và các sáng kiến nghiên cứu máy học của khu vực tư nhân.

KNN được gọi là "kẻ lười học", vì nó quét toàn bộ tập dữ liệu để đánh giá mối quan hệ giữa các điểm dữ liệu, thay vì yêu cầu đào tạo một mô hình máy học chính thức.

Một nhóm KNN. Nguồn: https://scikit-learn.org/stable/modules/neighbors.html

Mặc dù KNN mỏng về mặt kiến trúc, nhưng cách tiếp cận có hệ thống của nó đặt ra yêu cầu đáng chú ý đối với các hoạt động đọc/ghi và việc sử dụng nó trong các bộ dữ liệu rất lớn có thể gặp vấn đề nếu không có các công nghệ phụ trợ như Phân tích thành phần chính (PCA), có thể biến đổi các bộ dữ liệu khối lượng lớn và phức tạp vào trong nhóm đại diện mà KNN có thể vượt qua với ít nỗ lực hơn.

A nghiên cứu gần đây đã đánh giá tính hiệu quả và tính kinh tế của một số thuật toán được giao nhiệm vụ dự đoán liệu một nhân viên có rời công ty hay không, nhận thấy rằng KNN bảy tuổi vẫn vượt trội so với các đối thủ hiện đại hơn về độ chính xác và hiệu quả dự đoán.

Cách sử dụng phổ biến

Đối với tất cả sự đơn giản phổ biến về khái niệm và cách thực hiện, KNN không bị mắc kẹt trong những năm 1950 – nó đã được điều chỉnh thành một cách tiếp cận tập trung hơn vào DNN trong một đề xuất năm 2018 của Đại học Bang Pennsylvania và vẫn là một quy trình trung tâm ở giai đoạn đầu (hoặc công cụ phân tích sau xử lý) trong nhiều khung máy học phức tạp hơn nhiều.

Trong các cấu hình khác nhau, KNN đã được sử dụng hoặc cho xác minh chữ ký trực tuyến, phân loại hình ảnh, khai thác văn bản, dự đoán cây trồngvà nhận dạng khuôn mặt, bên cạnh các ứng dụng và công ty khác.

Một hệ thống nhận dạng khuôn mặt dựa trên KNN trong đào tạo. Nguồn: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

Một hệ thống nhận dạng khuôn mặt dựa trên KNN trong đào tạo. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: Quy trình Quyết định Markov (MDP)

Một khung toán học được giới thiệu bởi nhà toán học người Mỹ Richard Bellman trong 1957, Quy trình Quyết định Markov (MDP) là một trong những khối cơ bản nhất của học tăng cường kiến trúc. Một thuật toán khái niệm theo đúng nghĩa của nó, nó đã được điều chỉnh thành một số lượng lớn các thuật toán khác và thường xuyên lặp lại trong vụ nghiên cứu AI/ML hiện tại.

MDP khám phá một môi trường dữ liệu bằng cách sử dụng đánh giá trạng thái hiện tại của môi trường đó (nghĩa là 'nó ở đâu' trong dữ liệu) để quyết định nút nào của dữ liệu sẽ khám phá tiếp theo.

Nguồn: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Quy trình Quyết định Markov cơ bản sẽ ưu tiên lợi thế ngắn hạn hơn các mục tiêu dài hạn mong muốn hơn. Vì lý do này, nó thường được đưa vào bối cảnh của một cấu trúc chính sách toàn diện hơn trong học tăng cường và thường chịu các yếu tố hạn chế như phần thưởng chiết khấuvà các biến môi trường thay đổi khác sẽ ngăn không cho nó lao vào mục tiêu trước mắt mà không xem xét đến kết quả mong muốn rộng lớn hơn.

Cách sử dụng phổ biến

Khái niệm cấp thấp của MDP phổ biến trong cả nghiên cứu và triển khai tích cực của máy học. Nó đã được đề xuất cho Hệ thống phòng thủ an ninh IoT, thu hoạch cávà dự báo thị trường.

Bên cạnh nó khả năng ứng dụng rõ ràng đối với cờ vua và các trò chơi theo trình tự nghiêm ngặt khác, MDP cũng là một ứng cử viên tự nhiên cho đào tạo thủ tục của các hệ thống robot, như chúng ta có thể thấy trong video dưới đây.

Global Planner sử dụng Quy trình Quyết định Markov - Mobile Industrial Robotics

Global Planner using a Markov Decision Process - Mobile Industrial Robotics

Watch this video on YouTube

9: Thuật ngữ tần số-nghịch đảo tần số tài liệu

Kỳ hạn Tần suất (TF) chia số lần một từ xuất hiện trong tài liệu cho tổng số từ trong tài liệu đó. Như vậy từ niêm phong xuất hiện một lần trong một bài viết nghìn từ có tần suất thuật ngữ là 0.001. Bản thân TF phần lớn là vô dụng với tư cách là một chỉ báo về tầm quan trọng của thuật ngữ, do thực tế là các mạo từ vô nghĩa (chẳng hạn như a, và, cácvà it) chiếm ưu thế.

Để có được giá trị có ý nghĩa cho một thuật ngữ, Tần số tài liệu nghịch đảo (IDF) tính toán TF của một từ trên nhiều tài liệu trong tập dữ liệu, chỉ định xếp hạng thấp cho tần suất rất cao ngưng từ, chẳng hạn như các bài báo. Các vectơ đặc trưng thu được được chuẩn hóa thành các giá trị nguyên, với mỗi từ được gán một trọng số thích hợp.

TF-IDF đánh giá mức độ liên quan của các thuật ngữ dựa trên tần suất xuất hiện trên một số tài liệu, với sự xuất hiện hiếm hơn là một chỉ báo về mức độ nổi bật. Nguồn: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

Mặc dù cách tiếp cận này ngăn chặn các từ ngữ quan trọng bị mất như ngoại lệ, đảo ngược trọng số tần số không tự động có nghĩa là thuật ngữ tần số thấp là không một ngoại lệ, bởi vì một số điều rất hiếm và vô giá trị. Do đó, một thuật ngữ có tần suất thấp sẽ cần phải chứng minh giá trị của nó trong ngữ cảnh kiến trúc rộng lớn hơn bằng cách làm nổi bật (thậm chí ở tần suất thấp trên mỗi tài liệu) trong một số tài liệu trong bộ dữ liệu.

Mặc dù tuổi, TF-IDF là một phương pháp mạnh mẽ và phổ biến để lọc lần đầu trong các khung Xử lý ngôn ngữ tự nhiên.

Cách sử dụng phổ biến

Vì TF-IDF đã đóng ít nhất một phần nào đó trong quá trình phát triển thuật toán PageRank phần lớn là bí ẩn của Google trong hai mươi năm qua, nên nó đã trở thành được áp dụng rất rộng rãi như một chiến thuật SEO thao túng, bất chấp năm 2019 của John Mueller chối bỏ tầm quan trọng của nó đối với kết quả tìm kiếm.

Do tính bí mật xung quanh PageRank, không có bằng chứng rõ ràng nào cho thấy TF-IDF là không hiện là một chiến thuật hiệu quả để tăng thứ hạng của Google. gây cháy nổ thảo luận giữa các chuyên gia CNTT gần đây cho thấy một sự hiểu biết phổ biến, đúng hay sai, rằng lạm dụng thuật ngữ vẫn có thể dẫn đến cải thiện vị trí SEO (mặc dù bổ sung cáo buộc lạm dụng độc quyền và quảng cáo quá mức làm mờ giới hạn của lý thuyết này).

10: Giảm dần độ dốc ngẫu nhiên

Độ dốc ngẫu nhiên (SGD) là một phương pháp ngày càng phổ biến để tối ưu hóa việc đào tạo các mô hình máy học.

Bản thân Gradient Descent là một phương pháp tối ưu hóa và sau đó định lượng sự cải thiện mà một mô hình đang thực hiện trong quá trình đào tạo.

Theo nghĩa này, 'độ dốc' biểu thị độ dốc đi xuống (chứ không phải là độ chuyển màu dựa trên màu sắc, xem hình ảnh bên dưới), trong đó điểm cao nhất của 'ngọn đồi', ở bên trái, biểu thị điểm bắt đầu của quá trình đào tạo. Ở giai đoạn này, mô hình vẫn chưa nhìn thấy toàn bộ dữ liệu dù chỉ một lần và chưa tìm hiểu đủ về mối quan hệ giữa dữ liệu để tạo ra các phép biến đổi hiệu quả.

Giảm dần độ dốc trong một buổi đào tạo FaceSwap. Chúng ta có thể thấy rằng quá trình đào tạo đã chững lại một thời gian trong nửa sau, nhưng cuối cùng đã phục hồi theo hướng giảm dần để hướng tới sự hội tụ có thể chấp nhận được.

Điểm thấp nhất, ở bên phải, đại diện cho sự hội tụ (điểm mà tại đó mô hình đạt hiệu quả cao nhất có thể dưới các ràng buộc và cài đặt áp đặt).

Độ dốc hoạt động như một bản ghi và công cụ dự đoán về sự chênh lệch giữa tỷ lệ lỗi (mức độ chính xác của mô hình hiện đã ánh xạ các mối quan hệ dữ liệu) và trọng số (các cài đặt ảnh hưởng đến cách mô hình sẽ học).

Hồ sơ tiến độ này có thể được sử dụng để thông báo cho một biểu đồ tỷ lệ học tập, một quy trình tự động yêu cầu kiến trúc trở nên chi tiết và chính xác hơn khi các chi tiết mơ hồ ban đầu chuyển thành các mối quan hệ và ánh xạ rõ ràng. Trên thực tế, việc mất độ dốc cung cấp một bản đồ tức thời về nơi đào tạo sẽ diễn ra tiếp theo và cách thức tiến hành.

Sự đổi mới của Stochastic Gradient Descent là nó cập nhật các tham số của mô hình trên mỗi ví dụ đào tạo cho mỗi lần lặp lại, điều này thường tăng tốc hành trình đến sự hội tụ. Do sự ra đời của các bộ dữ liệu siêu tỷ lệ trong những năm gần đây, SGD gần đây đã trở nên phổ biến như một phương pháp khả thi để giải quyết các vấn đề hậu cần tiếp theo.

Mặt khác, SGD có ý nghĩa tiêu cực để chia tỷ lệ tính năng và có thể yêu cầu nhiều lần lặp lại hơn để đạt được kết quả tương tự, yêu cầu lập kế hoạch bổ sung và tham số bổ sung, so với Gradient Descent thông thường.

Cách sử dụng phổ biến

Do khả năng cấu hình của nó và bất chấp những thiếu sót của nó, SGD đã trở thành thuật toán tối ưu hóa phổ biến nhất để phù hợp với các mạng thần kinh. Một cấu hình của SGD đang trở nên chiếm ưu thế trong các tài liệu nghiên cứu AI/ML mới là lựa chọn Ước tính thời điểm thích ứng (ADAM, được giới thiệu trong 2015) trình tối ưu hóa.

ADAM điều chỉnh linh hoạt tốc độ học cho từng tham số ('tốc độ học thích ứng'), cũng như kết hợp kết quả từ các bản cập nhật trước đó vào cấu hình tiếp theo ('động lượng'). Ngoài ra, nó có thể được cấu hình để sử dụng các đổi mới sau này, chẳng hạn như Động lượng Nesterov.

Tuy nhiên, một số người cho rằng việc sử dụng động lượng cũng có thể tăng tốc ADAM (và các thuật toán tương tự) đến mức kết luận dưới mức tối ưu. Như với hầu hết các khía cạnh mới nhất của lĩnh vực nghiên cứu máy học, SGD là một công việc đang được tiến hành.

Xuất bản lần đầu vào ngày 10 tháng 2022 năm 10. Đã sửa đổi vào ngày 20.05 tháng XNUMX, XNUMX EET – định dạng.