Góc của Anderson

Quan điểm cá nhân về xu hướng văn học về thị giác máy tính năm 2025

Được phát hành 22 Tháng mười hai, 2025

Martin Anderson

Hình ảnh do AI tạo ra, bởi gpt-image-1 thông qua ChatGPT-5.2, mô tả một hình ảnh phối cảnh cách điệu của các nhà khoa học mặc áo khoác trắng trong phòng thí nghiệm máy tính.

Việc công khai thông tin đạo đức và thuật toán Gaussian Splatting đang giảm dần, trong khi số lượng bài báo được gửi đến ngày càng nhiều lại đặt ra một thách thức mới cho trí tuệ nhân tạo (AI) trong năm 2026.

Ý kiến Tôi đã theo dõi nghiên cứu về thị giác máy tính và tổng hợp hình ảnh trên arXiv và các diễn đàn liên quan trong khoảng bảy năm, trên nhiều kênh khác nhau – đủ lâu để nhận ra các mô hình lặp lại và sự thay đổi xu hướng. Nhưng những quan sát này chỉ mang tính chất giai thoại. Thành thật mà nói, tôi ước mình có đủ thời gian để khai thác triệt để kho dữ liệu khổng lồ ngày càng tăng lên từ luồng bài báo trên Arxiv, chắc chắn chứa đựng rất nhiều thông tin hữu ích, bằng cách sử dụng phân tích học máy. Hiện tại, tôi chỉ có thể báo cáo một cách sơ lược hơn những gì tôi đã chú ý đến. kể từ lần cuối tôi xem xét vấn đề này.

Âm lượng ở mức 11

Nhiều xu hướng trong các bài nghiên cứu về trí tuệ nhân tạo mà tôi quan sát được vào năm 2024 đã trở thành những xu hướng cố định trong năm 2025; trong đó đáng kể nhất là sự gia tăng không ngừng và liên tục của... khối lượng các bài báo liên quan đến AI, bản thân chúng lại được thúc đẩy bởi AI, đến mức... một cuộc khủng hoảng được nhận thức:

Số lượng bài nộp hàng tháng trên Arxiv về khoa học máy tính, từ tháng 10 năm 2023 đến tháng 11 năm 2025, được thể hiện bằng mức trung bình trượt 3 tháng. Nguồn: https://arxiv.org/stats/monthly_submissions

Số lượng bài nộp hàng tháng trên Arxiv về khoa học máy tính, từ tháng 10 năm 2023 đến tháng 11 năm 2025, kèm theo số liệu trung bình trượt 3 tháng.. nguồn

Tốc độ tăng trưởng này được mô tả như sự tăng gấp đôi theo cấp số nhân về số lượng bài báo nghiên cứu về trí tuệ nhân tạo. nhiều năm về trướcvà nó càng trở nên phổ biến hơn khi sự xuất hiện gần đây của cơn sốt đầu tư AI Điều này đã làm tăng mức độ quan trọng của vấn đề, cũng như số tiền tài trợ dành cho nghiên cứu liên quan đến trí tuệ nhân tạo.

Hiện chưa có số liệu thống kê đầy đủ cho năm 2025, và các số liệu tổng hợp được hiển thị ở trên thể hiện số liệu chung đang tăng lên trên tất cả các lĩnh vực. Bên dưới, chúng ta có thể thấy rằng khoa học máy tính tiếp tục giữ vị trí dẫn đầu, vượt trội đáng kể so với các ngành khác:

Số lượng bài nộp về Khoa học Máy tính tăng từ năm 2022-2025. Nguồn - https://info.arxiv.org/about/reports/submission_category_by_year.html

Số lượng bài nộp môn Khoa học Máy tính tăng trong giai đoạn 2022-2025. nguồn

Phân loại rác

Tháng Mười, thời điểm bắt đầu mùa hội nghị mùa thu, vốn luôn mang đến một loạt các nghiên cứu mới, lại mang đến một điều khác. Khối lượng bài gửi ở mức độ tấn công DOS, tạo thêm động lực và tính cấp thiết cho hướng nghiên cứu vốn trước đây chưa được chú trọng nhiều. phân tích xu hướng nghiên cứuNói cách khác, ngày càng xuất hiện nhiều bài báo và kho lưu trữ nhằm mục đích giảm thiểu tỷ lệ tín hiệu trên nhiễu ngày càng xấu đi trong lĩnh vực nghiên cứu.

Thông tin mới nhất vừa được công bố vào tuần trước, dưới dạng... NoveltyRank, Một giấy và Kho GitHub giúp tinh chỉnh các mô hình LLM như... Qwen3-4B-Instruct-2507 và khoa học để họ có thể thực hiện phân loại nhị phân các bài báo đã nộp (dự đoán 'tính mới' từ các bài đã nộp trước đó), hoặc so sánh tính mới theo cặp (so sánh các bài đã nộp hiện tại về 'tính mới'):

Hệ thống NoveltyRank so sánh tiêu đề và tóm tắt của bài nộp với các bài báo tương tự trước đây, tóm tắt sự khác biệt bằng cách sử dụng LLM, và chuyển kết quả này cho mô hình Qwen3-4B được tinh chỉnh để quyết định xem công trình đó có được coi là "mới về mặt khái niệm" hay không. Nguồn - https://arxiv.org/pdf/2512.14738

Hệ thống NoveltyRank so sánh tiêu đề và tóm tắt của bài nộp với các bài báo tương tự trước đây, tóm tắt sự khác biệt bằng cách sử dụng LLM, và chuyển thông tin này cho mô hình Qwen3-4B được tinh chỉnh để quyết định xem công trình đó có được coi là 'mới về mặt khái niệm' hay không. nguồn

Vấn đề với các phương pháp 'sàng lọc' như vậy là thách thức của việc... xác định các biến có ý nghĩaPhương pháp NoveltyRank sử dụng việc bài báo được chấp nhận tại hội nghị như một chỉ số về tính mới mẻ, và – có lẽ hơi coi thường – sử dụng việc bài báo được xuất bản trên Arxiv như một chỉ số nền tảng về tính mới mẻ. tiêu cực mới lạ.

Điều này dựa trên hai tiền đề sai lầm: thứ nhất, tất cả các bài nộp được chấp nhận tại hội nghị đều mới mẻ hoặc có ý nghĩa, điều này rõ ràng là không đúng; và thứ hai, bản thân sự mới mẻ có giá trị tuyệt đối. Bất cứ ai đã lãng phí nửa giờ đồng hồ cho một số bài báo giả tạo, thậm chí lố bịch được gửi đến – có lẽ – chỉ để duy trì hạn ngạch 'xuất bản hoặc chết'Họ sẽ hiểu rằng sự mới lạ thường tầm thường, còn những nỗ lực nhỏ lẻ thường có ý nghĩa quan trọng.

Việc hiểu được giá trị của một bài báo mới liên quan đến một lĩnh vực mà trí tuệ nhân tạo hiện đang tham gia. rất yếu - dài hạn bối cảnhDo cách viết thường thiếu trung thực, những bài báo tưởng chừng như mang tính đột phá rất thường được phát hiện chỉ là những tiến bộ nhỏ so với các công trình hiện có; tuy nhiên, các hệ thống tự động sẽ phải phát triển "trực giác" để nhận biết những trường hợp như vậy, mà không đưa ra nhiều kết quả sai và không dựa vào sự trung thực của các tác giả gửi bài.

Sự sa ngã về mặt đạo đức

Như tôi có quan sát trướcCác cổng thông tin như Arxiv khá kháng cự với giấy thông hành Việc thu thập dữ liệu tự động và các bản sao dữ liệu mà chúng cung cấp thường thiếu thông tin chi tiết.

Do đó, ngay cả khi tôi có đủ nguồn lực và thời gian để tải xuống và trích xuất các đặc điểm từ một tập hợp các bài báo khoa học máy tính mang tính đại diện đầy đủ, thì nhiều xu hướng tinh tế hơn vẫn chưa được nhắm mục tiêu hoặc phân tích.

Một trong số đó là sự hiện diện hoặc vắng mặt của tuyên bố đạo đức phụ lục; dài một bao gồm bắt buộc Đối với các ngành khoa học sinh học có liên quan đến thí nghiệm trên động vật, năm 2024 chứng kiến đỉnh điểm của xu hướng hướng tới việc xác định khía cạnh đạo đức của một công trình nghiên cứu được đề xuất, vào cuối các bài báo được gửi trong hạng mục Khoa học Máy tính.

Theo kinh nghiệm cá nhân, tôi cho rằng hoạt động này đã giảm mạnh trong suốt năm 2025. Tôi đoán rằng những nỗ lực mạnh mẽ nhằm bãi bỏ quy định của chính phủ Mỹ hiện tại liên quan đến phát triển trí tuệ nhân tạo đã mang lại cho cộng đồng nghiên cứu cả trong và ngoài nước một sự tự do nhất định và cảm giác được bảo vệ ngầm khỏi các rủi ro pháp lý.

Mặc dù vậy hỗ trợ Về quy định chống deepfake, chính quyền Mỹ hiện tại đã khôi phục phần lớn lập trường "hoang dã" đặc trưng của giai đoạn 2021-23 – mặc dù bối cảnh nghiên cứu khoa học thuần túy đã phát triển thành mức đầu tư mạnh mẽ, thậm chí mang tính lịch sử.

Các bài báo về video tạo sinh được ví như "rác thải AI"

Với sự ra mắt của Hunyuan Video và WAN Từ loạt video tạo sinh trong mùa đông năm ngoái, video AI đã hoàn toàn thay đổi vào năm 2025. Những rào cản cũ như... khó khăn trong việc tạo hình đại diện toàn thân, hoặc của thu thập quan điểm hồ sơ thuyết phục Một người đã bị cuốn trôi đi chỉ sau một đêm.

Các sản phẩm có trọng lượng lớn được phát hành từ Trung Quốc như thế này đã, được cho làChúng đã tạo tiền đề cho việc phát hành video tạo sinh trong năm nay, và ít nhất cũng tạo ra áp lực ngược lại đối với xu hướng kiến trúc video AI phương Tây bị kiểm duyệt, thương mại hóa trước và bị định hướng quá mức.

không có hào nước Trong bối cảnh dân chủ đầy trớ trêu do CCCP dẫn đầu này, hàng trăm, nếu không muốn nói là hàng nghìn công ty đang tìm cách khai thác thị trường suy luận mới nổi bằng cách cung cấp các cổng thông tin thân thiện với người dùng, với các bên tham gia đa dạng như... civ.ai và RunPod Tận dụng các quy trình và công nghệ mà trong nhiều trường hợp có thể được thực hiện trên máy tính cá nhân.

Nhìn chung, những sáng kiến này chỉ là những chiêu trò kiếm tiền ngắn hạn, dự kiến sẽ bị thay thế bởi sự hợp nhất thị trường trong tương lai (mặc dù, chắc chắn những người sáng lập sẽ không phản đối nếu vô tình giành được thị phần thống lĩnh thị trường, nếu điều đó xảy ra).

Sự tầm thường và sao chép tương tự này cũng đã xuất hiện trong mảng video tạo sinh trong các bài đăng trên Arxiv năm 2025. Như tôi đã nói, quan sát được tuần trướcTỷ lệ tín hiệu trên nhiễu trong lĩnh vực này đã đạt đến mức cao đáng báo động, khi các nhà nghiên cứu cạnh tranh công khai để giành lấy lượng kinh phí khổng lồ mà những đột phá trong năm nay chắc chắn đã mang lại.

Tuy nhiên, phần lớn các bài nộp thuộc loại này chỉ là những tiến bộ nhỏ, nếu không muốn nói là vô ích. Các vấn đề cốt lõi còn tồn tại trong trí tuệ nhân tạo tạo sinh chưa được đề cập nhiều trong năm nay: đó là nhu cầu... duy trì danh tính, Phong cách LoRAXuyên suốt quá trình khắc họa nhân vật; nhu cầu về thời lượng phát video dài hơn, nhưng vẫn duy trì được tính nhất quán tổng thể (ví dụ: về môi trường và chủ đề, v.v., không chỉ là nhận diện); và để cải thiện thế hệ âm thanh và thao tác trong các kiến trúc tạo video và chỉnh sửa video; cùng nhiều ứng dụng khác.

Cơn sốt lưới giảm dần

Tôi nhận thấy năm ngoái rằng lĩnh vực này đang chứng kiến sự gia tăng đáng kể các bài báo quảng bá các hệ thống tận dụng CGI truyền thống (tức là, các biểu diễn dựa trên lưới thuộc loại có từ những năm 1970), hoặc tích hợp nó vào các khung thần kinhTôi nhận thấy sự suy giảm đáng kể về động lực hướng tới các giải pháp dựa trên lưới, đặc biệt là trong nửa cuối năm nay, so với năm 2025.

Nhiều giải pháp tích hợp CGI trong làn sóng các bài báo trước đó, đặc biệt là những giải pháp liên quan đến các hình mẫu "điều khiển" người tham số như... Mô hình biến hình 3DCó thể nó đã được thay thế bởi những khả năng mới của các khung tạo sinh dựa trên khuếch tán như Veo, Kling, Hunyuan và WAN, cùng nhiều khung khác.

Đồng thời, các bài báo đề cập đến Gaussian Splat Các phương pháp tiếp cận dường như cũng bị ảnh hưởng bởi sự trì trệ trong phát triển, hoặc bị lu mờ bởi các hệ thống AI thế hệ mới dựa trên sự lan tỏa vào năm 2025; hoặc cả hai.

Một năm trước, tôi đã lưu ý rằng sự hào hứng ban đầu đối với GSplat, thứ đã tạo ra... ấn tượng đáng chú ý vào cuối năm 2023Trước đây, lĩnh vực nghiên cứu này đã thu hẹp lại thành những hướng nghiên cứu nhỏ hơn. Năm nay, tôi thấy một loạt các bài báo tập trung vào việc giải quyết những yêu cầu về nguồn lực đáng kể của phương pháp này, cùng với các vấn đề khác.

Mặc dù tôi cho rằng Gaussian Splatting hiện đang "bị đình trệ", chúng ta nên nhớ rằng công nghệ này có từ đầu những năm 1990 và mang tính chất hồi sinh.

Một ngoại lệ đối với xu hướng chung là sự thoái lui khỏi các phương pháp dựa trên lưới, đó là sự gia tăng rõ rệt mối quan tâm đến việc tích hợp trí tuệ nhân tạo vào các khung công nghệ hướng đến in 3D.

Số lượng hồ sơ đăng ký an ninh AI giảm.

Quan sát cuối cùng của tôi cho năm 2025 là hạng mục bài nộp về 'Bảo mật' trong phần Khoa học Máy tính tại Arxiv đã cho thấy sự sụt giảm đáng kể về tần suất và chất lượng trong năm 2025, và thật khó để đoán được lý do tại sao.

Mật mã và Bảo mật Có thể nói, kho lưu trữ luôn được xem là nơi hạng hai để đăng tải các bài báo, bởi lẽ lĩnh vực nghiên cứu này bị chi phối bởi sở hữu trí tuệ độc quyền của khu vực tư nhân – rất ít trong số đó xuất hiện trên các tạp chí học thuật, và hầu như không có trên các nền tảng miễn phí như Arxiv.

Ngoài ra, các bài nộp vào hạng mục này trên Arxiv có số lượng "lỗi tiềm ẩn" cao hơn mức trung bình – những lời thú nhận không được nhấn mạnh, thường được giấu kín ở những nơi không ngờ tới, làm giảm hoặc phủ nhận giá trị và tính mới mẻ rõ ràng của bài báo. Một ví dụ là phương pháp vi phạm bảo mật tưởng chừng giật gân nhưng thực chất lại dựa trên một khía cạnh "hộp trắng" nào đó – tức là quyền truy cập đặc quyền vào dữ liệu hoặc quy trình, mà kẻ tấn công khó có thể có được.

Mong đợi điều gì trong năm 2026

Mặc dù giới truyền thông đoạn rap liên tục về sự bùng nổ của thế hệ AI như một sự lặp lại của thảm họa bùng nổ và sụp đổ của bong bóng dot.com đầu những năm 2000 (với một số ý kiến bất đồng), điều này thực chất dường như thể hiện một loại an ninh giả tạo. Về mặt cơ sở hạ tầng, đầu tư, văn hóa. và Theo các nghiên cứu, có thể nói chưa bao giờ trong lịch sử nhân loại lại có thời điểm nào như thế này.

Do đó, thật khó để dự đoán xu hướng nghiên cứu sẽ diễn ra như thế nào trong năm 2026, ngoại trừ việc – như thường lệ – một số nỗ lực dài hạn sẽ đạt đến đỉnh điểm từ nay đến tháng Tư, với một “dấu ấn” nhất định của những mối quan tâm và xu hướng năm 2025 làm nên sự khác biệt.

Một hướng phát triển có thể giúp giải quyết khủng hoảng về số lượng bài nộp tại Arxiv và các cổng thông tin khác là việc cấm hoặc kiểm soát các bài báo được tạo ra/hỗ trợ bởi trí tuệ nhân tạo, như Arxiv gần đây đã ban hành quy định dành cho các bài báo đánh giá. Tuy nhiên, mức độ tham gia của AI trong bất kỳ bài báo nào có thể khó định lượng, vì AI có thâm nhập vào văn hóa nghiên cứu (Và đánh giá đồng) cũng giống như cách nó xâm lấn các lĩnh vực khác – như một giọt 'mực' ảnh hưởng đến toàn bộ cốc nước (hiện có), chứ không phải là thay đổi hoàn toàn môi trường.

Lần đầu tiên xuất bản Thứ Hai, ngày 22 tháng 2025 năm XNUMX

Chủ đề liên quan:AI và nghiên cứu sâu Nghiên cứu tự động