Trí tuệ nhân tạo

Một cái nhìn cá nhân về Xu hướng Văn học Máy tính năm 2024

Published December 24, 2024

Updated April 27, 2026

Martin Anderson

ChatGPT image: 'A panoramic orthographic-view image of a stylized bunch of SIMs-style scientists working in white coats at a computer research laboratory. Ariel view, orthographic projection, stylized, cartoon-style.'

Tôi đã liên tục theo dõi cảnh nghiên cứu máy tính (CV) và tổng hợp hình ảnh tại Arxiv và các nơi khác trong khoảng năm năm, vì vậy các xu hướng trở nên rõ ràng theo thời gian, và chúng thay đổi theo hướng mới mỗi năm.

Do đó, khi năm 2024 sắp kết thúc, tôi nghĩ rằng đã đến lúc xem xét một số đặc điểm mới hoặc đang phát triển trong các bài nộp trên Arxiv trong phần Máy tính và Nhận dạng Mẫu section. Những quan sát này, mặc dù được thông tin bởi hàng trăm giờ nghiên cứu, nhưng chỉ là anecdata.

Sự trỗi dậy liên tục của Đông Á

Vào cuối năm 2023, tôi đã nhận thấy rằng đa số các tài liệu trong thể loại “tổng hợp giọng nói” đến từ Trung Quốc và các khu vực khác ở Đông Á. Vào cuối năm 2024, tôi phải quan sát (theo cách anecdata) rằng điều này hiện cũng áp dụng cho cảnh nghiên cứu tổng hợp hình ảnh và video.

Điều này không có nghĩa là Trung Quốc và các quốc gia lân cận luôn tạo ra công việc tốt nhất (thực tế, có một số bằng chứng ngược lại); cũng không tính đến khả năng cao ở Trung Quốc (giống như ở phương Tây) rằng một số hệ thống mới và mạnh mẽ nhất đang được phát triển là độc quyền và bị loại khỏi tài liệu nghiên cứu.

Nhưng nó gợi ý rằng Đông Á đang đánh bại phương Tây về số lượng, trong khía cạnh này. Điều đó phụ thuộc vào mức độ bạn tin vào tính khả thi của sự kiên nhẫn theo kiểu Edison, thường chứng minh là không hiệu quả trước những trở ngại không thể vượt qua.

Có nhiều chướng ngại vật như vậy trong trí tuệ nhân tạo sinh, và không dễ để biết những chướng ngại vật nào có thể được giải quyết bằng cách giải quyết các kiến trúc hiện có, và những chướng ngại vật nào sẽ cần phải được xem xét lại từ đầu.

Mặc dù các nhà nghiên cứu từ Đông Á dường như đang tạo ra số lượng lớn hơn các bài báo về máy tính, tôi đã nhận thấy sự gia tăng trong tần suất của các dự án “Frankenstein” – các sáng kiến bao gồm sự kết hợp của các công việc trước đó, trong khi thêm sự mới lạ kiến trúc hạn chế (hoặc có thể chỉ là một loại dữ liệu khác).

Năm nay, số lượng lớn hơn các bài viết từ Đông Á (chủ yếu là hợp tác Trung Quốc hoặc Trung Quốc) dường như được thúc đẩy bởi hạn ngạch chứ không phải bởi giá trị, làm tăng tỷ lệ tín hiệu trên tiếng ồn trong một lĩnh vực đã quá tải.

Đồng thời, số lượng lớn hơn các bài viết từ Đông Á cũng đã thu hút sự chú ý và ngưỡng mộ của tôi trong năm 2024. Vì vậy, nếu tất cả đều là một trò chơi số, nó không thất bại – nhưng cũng không rẻ.

Tăng trưởng khối lượng nộp

Khối lượng các bài báo, trên tất cả các quốc gia nguồn, rõ ràng đã tăng trong năm 2024.

Ngày xuất bản phổ biến nhất thay đổi trong suốt năm; hiện tại là thứ Ba, khi số lượng nộp cho phần Máy tính và Nhận dạng Mẫu thường là khoảng 300-350 trong một ngày, trong các giai đoạn “đỉnh” (tháng 5-8 và tháng 10-12, tức là mùa hội nghị và “mùa hạn ngạch hàng năm”, tương ứng).

Beyond kinh nghiệm của tôi, Arxiv tự báo cáo một số lượng nộp kỷ lục vào tháng 10 năm 2024, với 6000 nộp mới, và phần Máy tính là phần thứ hai được nộp sau Máy học.

Tuy nhiên, vì phần Máy học tại Arxiv thường được sử dụng như một “thể loại phụ” hoặc “thể loại tổng hợp”, điều này cho thấy Máy tính và Nhận dạng Mẫu thực sự là thể loại được nộp nhiều nhất trên Arxiv.

Thống kê của Arxiv chính chắc chắn mô tả khoa học máy tính là người dẫn đầu trong số lượng nộp:

Khoa học máy tính (CS) thống trị thống kê nộp trên Arxiv trong năm năm qua. Nguồn: https://info.arxiv.org/about/reports/submission_category_by_year.html

Báo cáo Chỉ số Trí tuệ Nhân tạo năm 2024 của Đại học Stanford , mặc dù không thể báo cáo về thống kê mới nhất, cũng nhấn mạnh sự gia tăng đáng kể trong số lượng nộp bài về máy học trong những năm gần đây:

Mặc dù không có số liệu cho năm 2024, báo cáo của Stanford vẫn cho thấy sự gia tăng đáng kể trong số lượng nộp bài về máy học. Nguồn: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf

Khung Diffusion > Mesh Phát triển

Một xu hướng khác rõ ràng đã xuất hiện cho tôi là sự gia tăng lớn trong số lượng bài báo liên quan đến việc tận dụng Mô hình khuếch tán tiềm ẩn (LDM) như máy tạo mô hình CGI dựa trên lưới.

Các dự án thuộc loại này bao gồm InstantMesh3D, 3Dtopia, Diffusion², V3D, MVEdit, và GIMDiffusion, trong số nhiều dự án khác.

Tạo lưới và tinh chỉnh qua quá trình dựa trên khuếch tán trong 3Dtopia. Nguồn: https://arxiv.org/pdf/2403.02234

Xu hướng nghiên cứu mới nổi này có thể được coi là một sự nhượng bộ ngầm về tính không thể vượt qua của các hệ thống sinh như mô hình khuếch tán, mà chỉ hai năm trước đây được coi là một sự thay thế tiềm năng cho tất cả các hệ thống mà các mô hình khuếch tán > lưới đang tìm cách chiếm lĩnh; hạ cấp khuếch tán xuống vai trò của một công cụ trong các công nghệ và quy trình đã có từ ba mươi năm hoặc hơn.

Stability.ai, người tạo ra mô hình Stable Diffusion mã nguồn mở, vừa phát hành Stable Zero123, có thể, trong số những thứ khác, sử dụng một Trường bức xạ thần kinh (NeRF) diễn giải một hình ảnh được tạo bởi AI như một cầu nối để tạo ra một mô hình CGI dựa trên lưới rõ ràng có thể được sử dụng trong các lĩnh vực CGI như Unity, trong trò chơi video, thực tế ảo tăng cường, và trong các nền tảng khác yêu cầu tọa độ 3D rõ ràng, trái ngược với tọa độ ẩn của hàm liên tục.

Click để phát.Hình ảnh được tạo trong Stable Diffusion có thể được chuyển đổi thành lưới CGI hợp lý. Đây là kết quả của một quy trình hình ảnh > CGI sử dụng Stable Zero 123. Nguồn: https://www.youtube.com/watch?v=RxsssDD48Xc

Ngữ nghĩa 3D

Không gian trí tuệ nhân tạo sinh tạo ra sự phân biệt giữa các hệ thống 2D và 3D thực hiện tầm nhìn và hệ thống sinh.

Ví dụ, khung định vị khuôn mặt, mặc dù đại diện cho các đối tượng 3D (khuôn mặt) trong tất cả các trường hợp, không phải tất cả đều tính toán tọa độ 3D có thể định địa chỉ.

Hệ thống FANAlign phổ biến, được sử dụng rộng rãi trong kiến trúc deepfake năm 2017 (và các kiến trúc khác), có thể hỗ trợ cả hai cách tiếp cận:

Trên, các điểm mốc 2D được tạo ra dựa trên các đặc điểm và tính năng của khuôn mặt được nhận biết. Dưới, chúng được hợp lý hóa thành không gian 3D X / Y / Z. Nguồn: https://github.com/1adrianb/face-alignment

Vì vậy, giống như ‘deepfake’ đã trở thành một thuật ngữ mơ hồ và bị đánh cắp, ‘3D’ cũng trở thành một thuật ngữ gây nhầm lẫn trong nghiên cứu tầm nhìn máy tính.

Đối với người tiêu dùng, nó thường biểu thị phương tiện truyền thông stereo (như phim mà người xem phải đeo kính đặc biệt); đối với các nhà thực hành hiệu ứng hình ảnh và người tạo mô hình, nó cung cấp sự phân biệt giữa nghệ thuật 2D (như bản phác thảo khái niệm) và mô hình dựa trên lưới có thể được thao tác trong một ‘chương trình 3D’ như Maya hoặc Cinema4D.

Nhưng trong tầm nhìn máy tính, nó đơn giản có nghĩa là một hệ tọa độ Cartesian tồn tại ở đâu đó trong không gian tiềm ẩn của mô hình – không có nghĩa là nó có thể được định địa chỉ hoặc thao tác trực tiếp bởi người dùng; ít nhất, không phải là không có các hệ thống CGI giải thích của bên thứ ba như 3DMM hoặc FLAME.

Do đó, khái niệm diffusion > 3D là không chính xác; không chỉ bất kỳ loại hình ảnh nào (bao gồm cả ảnh chụp thực tế) có thể được sử dụng làm đầu vào để tạo ra một mô hình CGI sinh, mà thuật ngữ ‘lưới’ phù hợp hơn.

Tuy nhiên, để làm cho sự nhầm lẫn trở nên trầm trọng hơn, khuếch tán là cần thiết để giải thích ảnh nguồn thành một lưới, trong đa số các dự án mới nổi. Vì vậy, một mô tả tốt hơn có thể là hình ảnh > lưới, trong khi hình ảnh > khuếch tán > lưới là một mô tả chính xác hơn.

Nhưng đó là một việc bán hàng khó khăn tại một cuộc họp hội đồng, hoặc trong một bản phát hành công khai được thiết kế để thu hút các nhà đầu tư.

Bằng chứng về bế tắc kiến trúc

Ngay cả so với năm 2023, mùa vụ bài báo trong 12 tháng qua cho thấy sự tuyệt vọng ngày càng tăng xung quanh việc loại bỏ giới hạn thực tế khó khăn về việc tạo sinh dựa trên khuếch tán.

Chướng ngại vật chính vẫn là việc tạo ra video nhất quán về mặt tường thuật và thời gian, và duy trì sự xuất hiện nhất quán của các nhân vật và đối tượng – không chỉ trên các đoạn video khác nhau, mà thậm chí trên thời gian chạy ngắn của một đoạn video được tạo ra.

Sự đổi mới cuối cùng trong tổng hợp dựa trên khuếch tán là sự ra đời của LoRA vào năm 2022. Mặc dù các hệ thống mới hơn như Flux đã cải thiện một số vấn đề ngoài tầm thường, chẳng hạn như khả năng trước đây của Stable Diffusion trong việc không thể tái tạo nội dung văn bản trong một hình ảnh được tạo ra, và chất lượng hình ảnh tổng thể đã được cải thiện, đa số các bài báo mà tôi đã nghiên cứu trong năm 2024 cơ bản chỉ là di chuyển thức ăn trên đĩa.

Những bế tắc như vậy đã xảy ra trước đây, với Mạng đối抗 (GAN) và với Trường bức xạ thần kinh (NeRF), cả hai đều không đáp ứng được tiềm năng ban đầu rõ ràng – và cả hai đều đang được sử dụng ngày càng nhiều trong các hệ thống thông thường (chẳng hạn như sử dụng NeRF trong Stable Zero 123, xem trên).

Nghiên cứu Gaussian Splatting Đổi hướng

Dường như vào cuối năm 2023 rằng phương pháp raster hóa 3D Gaussian Splatting (3DGS), được ra mắt như một kỹ thuật hình ảnh y tế vào đầu những năm 1990, sẽ đột ngột vượt qua hệ thống dựa trên bộ tự động mã hóa của các thách thức tổng hợp hình ảnh con người (chẳng hạn như mô phỏng và tái tạo khuôn mặt, cũng như chuyển giao danh tính).

Bài báo ASH năm 2023 đã hứa hẹn con người 3DGS toàn thân, trong khi Gaussian Avatars cung cấp chi tiết cải tiến đáng kể (so với các phương pháp cạnh tranh) cùng với khả năng tái diễn lại ấn tượng.

Năm nay, tuy nhiên, đã tương đối ít những khoảnh khắc đột phá như vậy cho tổng hợp hình ảnh con người 3DGS; hầu hết các bài báo đã xử lý vấn đề này đều là phái sinh của các công việc trên hoặc không thể vượt qua khả năng của chúng.

Thay vào đó, sự nhấn mạnh vào 3DGS đã tập trung vào việc cải thiện tính khả thi kiến trúc cơ bản, dẫn đến một loạt các bài báo cung cấp môi trường bên ngoài 3DGS được cải tiến. Sự chú ý đặc biệt đã được dành cho các phương pháp 3DGS Simultaneous Localization and Mapping (SLAM), trong các dự án như Gaussian Splatting SLAM, Splat-SLAM, Gaussian-SLAM, DROID-Splat, trong số nhiều dự án khác.

Những dự án đã cố gắng tiếp tục hoặc mở rộng tổng hợp hình ảnh con người dựa trên 3DGS bao gồm MIGS, GEM, EVA, OccFusion, FAGhead, HumanSplat, GGHead, HGM, và Topo4D. Mặc dù có những dự án khác ngoài kia, nhưng không có dự án nào trong số này có tác động ban đầu như các bài báo đã xuất hiện vào cuối năm 2023.

‘Thời kỳ Weinstein’ của mẫu thử nghiệm đang suy giảm

Nghiên cứu từ Đông Nam Á nói chung (và Trung Quốc nói riêng) thường có các mẫu thử nghiệm có vấn đề khi xuất bản lại trong một bài đánh giá, vì chúng có chứa tài liệu có thể được coi là ‘nóng’.

Cho dù đó là vì các nhà khoa học nghiên cứu ở khu vực này đang tìm cách thu hút sự chú ý cho công việc của họ hay không, nhưng trong 18 tháng qua, ngày càng nhiều bài báo về trí tuệ nhân tạo sinh (hình ảnh và / hoặc video) đã sử dụng các phụ nữ và trẻ gái trẻ và ít mặc quần áo trong các ví dụ dự án.

Các ví dụ ranh giới NSFW của điều này bao gồm UniAnimate, ControlNext, và thậm chí các bài báo rất ‘khô’ như Đánh giá tính nhất quán của chuyển động bằng khoảng cách chuyển động video Fréchet (FVMD).

Điều này tuân theo các xu hướng chung của các subreddit và cộng đồng khác đã tập hợp xung quanh các mô hình khuếch tán tiềm ẩn (LDM), nơi quy tắc 34 vẫn còn rất phổ biến.

Tranh tài khuôn mặt

Loại ví dụ không phù hợp này trùng với sự công nhận ngày càng tăng rằng các quy trình AI không nên khai thác tùy tiện các khuôn mặt của người nổi tiếng – đặc biệt là trong các nghiên cứu không批判 sử dụng các ví dụ đặc trưng các ngôi sao nổi tiếng, thường là nữ, và đặt họ vào các ngữ cảnh có vấn đề.

Một ví dụ là AnyDressing, ngoài việc có các nhân vật nữ anime trẻ, cũng sử dụng tự do các danh tính của các ngôi sao cổ điển như Marilyn Monroe, và các ngôi sao hiện tại như Ann Hathaway (người đã lên tiếng phản đối việc sử dụng này rất mạnh mẽ).

Sử dụng tùy tiện các ngôi sao hiện tại và ‘cổ điển’ vẫn còn khá phổ biến trong các bài báo từ Đông Nam Á, mặc dù việc này đang suy giảm. Nguồn: https://crayon-shinchan.github.io/AnyDressing/

Trong các bài báo tây, việc này đã giảm đáng kể trong suốt năm 2024, dẫn đầu bởi các bản phát hành lớn từ FAANG và các cơ quan nghiên cứu hàng đầu khác như OpenAI. Nhận thức được tiềm năng về việc kiện tụng trong tương lai, những người chơi lớn này dường như ngày càng không sẵn sàng thể hiện thậm chí người photorealistic hư cấu.

Mặc dù các hệ thống họ đang tạo ra (chẳng hạn như Imagen và Veo2) rõ ràng có khả năng tạo ra đầu ra như vậy, nhưng các ví dụ từ các dự án trí tuệ nhân tạo sinh của phương Tây hiện đang có xu hướng hướng tới ‘đẹp’, ‘an toàn’ và ‘hư cấu’.

Mặc dù khoe khoang khả năng tạo ra đầu ra ‘photorealistic’ của Imagen, các mẫu được quảng cáo bởi Nghiên cứu Google thường là ‘hư cấu’, ‘an toàn’ – các hình ảnh photorealistic của con người được tránh cẩn thận, hoặc chỉ cung cấp các ví dụ tối thiểu. Nguồn: https://imagen.research.google/

Rửa mặt

Trong văn học CV của phương Tây, cách tiếp cận không trung thực này đặc biệt rõ ràng đối với hệ thống tùy chỉnh – các phương pháp có khả năng tạo ra các khuôn mặt nhất quán của một người cụ thể trên nhiều ví dụ (tức là như LoRA và DreamBooth cũ).

Các ví dụ bao gồm nhúng trực quan, LoRA-Composer, InstructBooth của Google, và nhiều hơn nữa.

InstructBooth của Google tăng yếu tố ‘đẹp’ lên 11, mặc dù lịch sử cho thấy người dùng quan tâm hơn đến việc tạo ra con người photorealistic hơn là các nhân vật ‘đẹp’ hoặc ‘mềm’. Nguồn: https://sites.google.com/view/instructbooth

Tuy nhiên, sự trỗi dậy của ‘ví dụ đẹp’ cũng được thấy trong các lĩnh vực nghiên cứu khác về CV và tổng hợp, trong các dự án như Comp4D, V3D, DesignEdit, UniEdit, FaceChain (điều này thừa nhận với những kỳ vọng của người dùng thực tế hơn trên trang GitHub), và DPG-T2I, trong số nhiều dự án khác.

Sự dễ dàng mà các hệ thống như vậy (chẳng hạn như LoRAs) có thể được tạo ra bởi người dùng tại nhà với phần cứng tương đối khiêm tốn đã dẫn đến sự bùng nổ của các mô hình người nổi tiếng có thể tải xuống miễn phí tại miền civit.ai và cộng đồng. Việc sử dụng bất hợp pháp như vậy vẫn có thể thực hiện được thông qua việc mã nguồn mở các kiến trúc như Stable Diffusion và Flux.

Mặc dù thường có thể vượt qua các tính năng an toàn của các hệ thống tạo hình ảnh từ văn bản (T2I) và tạo video từ văn bản (T2V) để tạo ra tài liệu bị cấm bởi điều khoản sử dụng của nền tảng, nhưng khoảng cách giữa khả năng hạn chế của các hệ thống tốt nhất (chẳng hạn như RunwayML và Sora) và khả năng không giới hạn của các hệ thống chỉ thực hiện được (chẳng hạn như Stable Video Diffusion, CogVideo và triển khai cục bộ của Hunyuan), không thực sự đóng lại, như nhiều người tin.

Thay vào đó, các hệ thống độc quyền và mã nguồn mở này, tương ứng, có nguy cơ trở nên vô dụng: các hệ thống T2V quy mô lớn và đắt tiền có thể trở nên quá hạn chế do lo ngại về việc kiện tụng, trong khi sự thiếu cơ sở hạ tầng cấp phép và giám sát dữ liệu trong các hệ thống mã nguồn mở có thể khóa chúng hoàn toàn khỏi thị trường khi các quy định nghiêm ngặt hơn có hiệu lực.

Được xuất bản lần đầu vào thứ Ba, ngày 24 tháng 12 năm 2024

Related Topics:AI research AI research 2024 Computer Vision

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]