Trí tuệ nhân tạo

Khơi dậy Mô hình Tầm nhìn Lớn (LVMs) trong Nhiệm vụ Cụ thể thông qua Học chuyển tiếp

Đã xuất bản 21 tháng 2, 2024

Đã cập nhật 22 tháng 5, 2026

Dr. Assad Abbas

Unlock the potential of Large Vision Models (LVMs) in various domains through effective transfer learning

Trí tuệ nhân tạo thị giác là một lĩnh vực của trí tuệ nhân tạo nhằm mục đích cho phép máy móc hiểu và diễn giải thông tin thị giác, chẳng hạn như hình ảnh hoặc video. Trí tuệ nhân tạo thị giác có nhiều ứng dụng trong các lĩnh vực khác nhau, chẳng hạn như hình ảnh y tế, an ninh, lái xe tự động và giải trí. Tuy nhiên, việc phát triển các hệ thống trí tuệ nhân tạo thị giác hoạt động tốt trên các nhiệm vụ và lĩnh vực khác nhau là một thách thức, đòi hỏi nhiều dữ liệu được gắn nhãn và tài nguyên tính toán.

Một cách để giải quyết thách thức này là sử dụng học chuyển tiếp, một kỹ thuật tái sử dụng kiến thức đã học từ một nhiệm vụ hoặc lĩnh vực này sang một nhiệm vụ hoặc lĩnh vực khác. Học chuyển tiếp có thể giảm nhu cầu về dữ liệu và tính toán, đồng thời cải thiện khả năng tổng quát hóa và hiệu suất của các mô hình trí tuệ nhân tạo thị giác. Bài viết này tập trung vào một loại mô hình trí tuệ nhân tạo thị giác cụ thể, được gọi là Mô hình Tầm nhìn Lớn (LVMs), và cách chúng có thể được tận dụng cho các nhiệm vụ cụ thể thông qua học chuyển tiếp.

Mô hình Tầm nhìn Lớn (LVMs) là gì?

LVMs là các mô hình trí tuệ nhân tạo tiên tiến xử lý và diễn giải dữ liệu thị giác, thường là hình ảnh hoặc video. Chúng được gọi là “lớn” vì chúng có nhiều tham số, thường là hàng triệu hoặc thậm chí hàng tỷ, cho phép chúng học các mẫu và tính năng phức tạp trong dữ liệu thị giác. LVMs thường được xây dựng bằng cách sử dụng các kiến trúc mạng nơ-ron tiên tiến, chẳng hạn như Mạng nơ-ron hoặc Mạng nơ-ron tích hợp, có thể xử lý hiệu quả dữ liệu pixel và phát hiện các mẫu phân cấp.

LVMs được đào tạo trên một lượng lớn dữ liệu thị giác, chẳng hạn như hình ảnh Internet hoặc video, cùng với các nhãn hoặc chú thích liên quan. Mô hình học bằng cách điều chỉnh các tham số của nó để giảm thiểu sự khác biệt giữa dự đoán của nó và nhãn thực tế. Quá trình này đòi hỏi sức mạnh tính toán đáng kể và một tập dữ liệu lớn và đa dạng để đảm bảo mô hình có thể tổng quát hóa tốt cho dữ liệu mới, chưa từng thấy.

Một số ví dụ nổi bật về LVMs bao gồm CLIP của OpenAI, excels trong các nhiệm vụ như phân đoạn không giám sát và tìm kiếm hình ảnh bằng cách hiểu hình ảnh thông qua mô tả ngôn ngữ tự nhiên. Tương tự, biến pressure của Google áp dụng kiến trúc biến thể cho phân loại hình ảnh, đạt được kết quả hàng đầu trong các điểm chuẩn khác nhau. LandingLens, được phát triển bởi LandingAI, nổi bật với nền tảng thân thiện với người dùng, cho phép tạo dự án trí tuệ nhân tạo thị giác tùy chỉnh mà không cần chuyên môn lập trình. Nó sử dụng LVMs cụ thể cho lĩnh vực, thể hiện hiệu suất mạnh mẽ trong các nhiệm vụ như phát hiện khuyết tật và định vị đối tượng, thậm chí với dữ liệu được gắn nhãn hạn chế.

Tại sao lại Học chuyển tiếp cho LVMs?

LVMs đã thể hiện khả năng đáng kể trong việc hiểu và tạo ra dữ liệu thị giác, nhưng chúng cũng có những hạn chế. Một trong những hạn chế chính là chúng thường được đào tạo trên các tập dữ liệu chung, chẳng hạn như ImageNet hoặc COCO, có thể khác với nhiệm vụ hoặc lĩnh vực cụ thể mà người dùng quan tâm. Ví dụ, một LVM được đào tạo trên hình ảnh Internet có thể không thể nhận ra các đối tượng hiếm hoặc mới, chẳng hạn như dụng cụ y tế hoặc linh kiện công nghiệp, liên quan đến một lĩnh vực cụ thể.

Hơn nữa, LVMs có thể không thể thích nghi với các biến thể hoặc sắc thái của các lĩnh vực khác nhau, chẳng hạn như điều kiện ánh sáng khác nhau, góc máy hoặc nền, có thể ảnh hưởng đến chất lượng và độ chính xác của dự đoán của mô hình.

Để vượt qua những hạn chế này, học chuyển tiếp có thể tận dụng kiến thức đã học bởi một LVM trên một tập dữ liệu chung để một nhiệm vụ hoặc lĩnh vực cụ thể. Học chuyển tiếp là việc tinh chỉnh hoặc thích nghi một LVM với nhu cầu của người dùng, sử dụng một lượng nhỏ dữ liệu được gắn nhãn từ nhiệm vụ hoặc lĩnh vực mục tiêu.

Sử dụng học chuyển tiếp mang lại nhiều lợi thế cho LVMs. Một trong những lợi ích chính là khả năng chuyển kiến thức từ dữ liệu thị giác đa dạng sang các lĩnh vực cụ thể, cho phép hội tụ nhanh hơn trên các nhiệm vụ mục tiêu. Hơn nữa, nó giảm thiểu các vấn đề phụ thuộc vào dữ liệu bằng cách sử dụng các tính năng đã học của mô hình được đào tạo trước, giảm nhu cầu về dữ liệu được gắn nhãn cụ thể cho lĩnh vực.

Hơn nữa, việc khởi tạo LVMs với trọng số được đào tạo trước dẫn đến hội tụ nhanh hơn trong quá trình tinh chỉnh, đặc biệt là khi tài nguyên tính toán bị hạn chế. Cuối cùng, học chuyển tiếp cải thiện khả năng tổng quát hóa và hiệu suất, điều chỉnh LVMs cho các nhiệm vụ cụ thể và đảm bảo dự đoán chính xác, thúc đẩy sự hài lòng và tin tưởng của người dùng.

Làm thế nào để Học chuyển tiếp cho LVMs?

Các phương pháp và cách tiếp cận khác nhau tồn tại để thực hiện học chuyển tiếp cho LVMs, tùy thuộc vào sự tương đồng và sẵn có của dữ liệu giữa các nhiệm vụ hoặc lĩnh vực nguồn và mục tiêu. Có hai phương pháp học chuyển tiếp chính, đó là học chuyển tiếp quy nạp và học chuyển tiếp chuyển đổi.

Học chuyển tiếp quy nạp giả định rằng các nhiệm vụ nguồn và mục tiêu khác nhau, nhưng các lĩnh vực nguồn và mục tiêu tương tự. Ví dụ, nhiệm vụ nguồn có thể là phân loại hình ảnh, và nhiệm vụ mục tiêu có thể là phát hiện đối tượng, nhưng cả hai nhiệm vụ đều sử dụng hình ảnh từ cùng một lĩnh vực, chẳng hạn như cảnh quan tự nhiên hoặc động vật. Trong trường hợp này, mục tiêu là chuyển kiến thức đã học bởi LVM trên nhiệm vụ nguồn sang nhiệm vụ mục tiêu bằng cách sử dụng một số dữ liệu được gắn nhãn từ nhiệm vụ mục tiêu để tinh chỉnh mô hình. Phương pháp này cũng được gọi là học chuyển tiếp nhiệm vụ hoặc học đa nhiệm.

Mặt khác, học chuyển tiếp chuyển đổi giả định rằng các nhiệm vụ nguồn và mục tiêu tương tự, nhưng các lĩnh vực nguồn và mục tiêu khác nhau. Ví dụ, các nhiệm vụ nguồn và mục tiêu có thể là phân loại hình ảnh, lĩnh vực nguồn có thể là hình ảnh Internet, và lĩnh vực mục tiêu có thể là hình ảnh y tế. Trong trường hợp này, mục tiêu là chuyển kiến thức đã học bởi LVM trên lĩnh vực nguồn sang lĩnh vực mục tiêu bằng cách sử dụng một số dữ liệu được gắn nhãn hoặc không được gắn nhãn từ lĩnh vực mục tiêu để thích nghi mô hình. Phương pháp này cũng được gọi là học chuyển tiếp lĩnh vực hoặc thích nghi lĩnh vực.

Phương pháp cho Học chuyển tiếp

Học chuyển tiếp cho LVMs liên quan đến các phương pháp khác nhau được điều chỉnh cho các cấp độ sửa đổi và truy cập khác nhau vào tham số và kiến trúc mô hình. Trích xuất tính năng là một phương pháp sử dụng các tính năng đã biết bởi LVM trên một nhiệm vụ nguồn như đầu vào cho một mô hình mới trong lĩnh vực mục tiêu. Mặc dù không yêu cầu sửa đổi tham số hoặc kiến trúc của LVM, nó có thể gặp khó khăn trong việc bắt捉 các tính năng cụ thể cho nhiệm vụ mục tiêu. Mặt khác, tinh chỉnh liên quan đến việc điều chỉnh tham số của LVM bằng cách sử dụng dữ liệu được gắn nhãn từ lĩnh vực mục tiêu. Phương pháp này cải thiện khả năng thích nghi với nhiệm vụ hoặc lĩnh vực mục tiêu, yêu cầu truy cập và sửa đổi tham số.

Cuối cùng, học siêu tập trung vào việc đào tạo một mô hình tổng quát có khả năng thích nghi nhanh với các nhiệm vụ hoặc lĩnh vực mới với số lượng dữ liệu điểm tối thiểu. Sử dụng các thuật toán như MAML hoặc Reptile, học siêu cho phép LVMs học từ các nhiệm vụ đa dạng, cho phép học chuyển tiếp hiệu quả trên các lĩnh vực động. Phương pháp này đòi hỏi truy cập và sửa đổi tham số của LVM cho việc thực hiện hiệu quả.

Ví dụ về Học chuyển tiếp Lĩnh vực Cụ thể với LVMs

Học chuyển tiếp cho LVMs đã chứng minh thành công đáng kể trên các lĩnh vực đa dạng. Kiểm tra công nghiệp là một lĩnh vực đòi hỏi hiệu suất và chất lượng cao trong các mô hình trí tuệ nhân tạo thị giác, vì nó liên quan đến việc phát hiện và định vị các khuyết tật hoặc dị thường trong các sản phẩm và linh kiện khác nhau. Tuy nhiên, kiểm tra công nghiệp phải đối mặt với các thách thức như các kịch bản phức tạp và đa dạng, điều kiện môi trường khác nhau và tiêu chuẩn cao.

Học chuyển tiếp có thể giúp vượt qua những thách thức này bằng cách tận dụng LVMs được đào tạo trước trên các tập dữ liệu chung và tinh chỉnh chúng trên dữ liệu cụ thể cho lĩnh vực. Ví dụ, nền tảng LandingLens của LandingAI cho phép người dùng tạo dự án trí tuệ nhân tạo thị giác tùy chỉnh cho kiểm tra công nghiệp mà không cần kinh nghiệm lập trình. Nó sử dụng LVMs cụ thể cho lĩnh vực để đạt được hiệu suất cao trên các nhiệm vụ thị giác hạ nguồn, chẳng hạn như phát hiện khuyết tật hoặc định vị đối tượng, với ít dữ liệu được gắn nhãn.

Tương tự, trong ngành giải trí, học chuyển tiếp góp phần vào sự sáng tạo và đa dạng trong các mô hình trí tuệ nhân tạo thị giác. Mô hình CLIP của OpenAI, được thiết kế cho các nhiệm vụ như tạo hình ảnh từ mô tả văn bản, cho phép người dùng tạo nội dung thị giác đa dạng, chẳng hạn như tạo hình ảnh của “con rồng” hoặc “bức tranh của Picasso“. Ứng dụng này cho thấy cách học chuyển tiếp khơi dậy khả năng tạo và thao tác nội dung thị giác cho mục đích nghệ thuật và giải trí, giải quyết các thách thức liên quan đến kỳ vọng của người dùng, xem xét đạo đức và chất lượng nội dung.

Kết luận

Tóm lại, học chuyển tiếp nổi lên như một chiến lược chuyển đổi để tối ưu hóa LVMs. Bằng cách thích nghi các mô hình được đào tạo trước với các lĩnh vực cụ thể, học chuyển tiếp giải quyết các thách thức, giảm phụ thuộc vào dữ liệu và tăng tốc hội tụ. Phương pháp này cải thiện hiệu suất của LVMs trong các nhiệm vụ cụ thể cho lĩnh vực. Nó đánh dấu một bước quan trọng trong việc bắc cầu khoảng cách giữa đào tạo chung và ứng dụng chuyên biệt, thể hiện một bước tiến đáng kể trong lĩnh vực này.

Dr. Assad Abbas

Dr. Assad Abbas, một Giáo sư Liên kết có thời hạn tại Đại học COMSATS Islamabad, Pakistan, đã nhận bằng Tiến sĩ từ Đại học North Dakota State, USA. Nghiên cứu của ông tập trung vào các công nghệ tiên tiến, bao gồm điện toán đám mây, sương mù và cạnh, phân tích dữ liệu lớn và AI. Dr. Abbas đã có những đóng góp đáng kể với các ấn phẩm trên các tạp chí khoa học và hội nghị uy tín. Ông cũng là người sáng lập của MyFastingBuddy.