Góc nhìn Anderson
Liệu Trí Tuệ Nhân Tạo Sẽ Từng Thịnh Vượng Ngoài Vùng Địa Lợi?

Chi phí và hạn chế của Trí Tuệ Nhân Tạo lớn, cũng như ảnh hưởng của nó đến chi phí phần cứng, đang buộc người dùng phải xây dựng hệ thống của riêng họ – ngay khi việc quản lý ngày càng tăng đe dọa đóng cửa ‘nền kinh tế trí tuệ nhân tạo bóng tối’ đó.
Ý Kiến Trong số nhiều ‘cái bẫy’ xuất hiện trong các bài nghiên cứu khoa học, một trong những điều thường gặp nhất là vấn đề mà bài viết đang giải quyết đã được giải quyết ở nơi khác, và rằng đóng góp của nghiên cứu mới chỉ là thứ yếu hoặc tăng dần.
Điều này có thể xảy ra vì một số lý do: các nhà nghiên cứu hy vọng có một bước nhảy vĩ đại, nhưng chỉ nhận được một bước nhảy nhỏ; rằng các giải pháp trước đó của vấn đề đòi hỏi nhiều tài nguyên hơn so với đề xuất mới; hoặc đơn giản là mục tiêu của dự án không đạt được, nhưng văn hóa ‘xuất bản hoặc bị sa thải’ của nghiên cứu học thuật đã buộc nhóm phải phát hành nó dù sao (thường bị chôn vùi trong số lượng lớn của một cổng thông tin vào ngày xuất bản bận rộn nhất).
Tuy nhiên, trong tài liệu học máy, một lý do tương đối mới và không xin lỗi đang trở nên phổ biến hơn: rằng tính năng hoặc chức năng được đề xuất chỉ hiện có sẵn thông qua các cổng API đóng.
Tôi đã xem xét một bài viết như vậy vào sáng nay – một hợp tác giữa các trường đại học Trung Quốc và Amazon, giải quyết vấn đề thường xuyên về thất bại xóa đối tượng trong các hệ thống chỉnh sửa hình ảnh dựa trên khuếch tán, thường chỉ ‘làm đầy lại’ không gian mục tiêu với một đối tượng tương tự thay thế:

Ở phía bên trái là hình ảnh gốc; bên phải của đó, mặt nạ phân đoạn màu đỏ cho biết phần nào của hình ảnh sẽ bị xóa; tiếp theo, ‘Của chúng tôi’ cho thấy một cách tiếp cận xóa đối tượng thành công – và hai hình ảnh còn lại cho thấy các hệ thống tương tự mà, thay vì xóa xe buýt, chỉ chèn một xe buýt khác vào thay thế. Nguồn
Trong ví dụ trên, hình ảnh trung tâm cho thấy cách tiếp cận mới thành công trong việc xóa xe buýt và đặt một nền tảng hợp lý, so với hai phương pháp trước (hai hình ảnh bên trái nhất), mỗi phương pháp xóa xe buýt, nhưng sau đó đặt một xe buýt khác vào hình ảnh!
Cái Bẫy!
Đặt sang một bên lý do và nguyên nhân của thách thức này cho một thời điểm khác (và đó là một chủ đề thú vị thú vị ), tôi sau đó gặp một ‘cái bẫy’ kinh điển, đọc qua bài viết mới: sự thừa nhận của các tác giả rằng các hệ thống độc quyền đắt tiền có thể thực hiện nhiệm vụ này khá đáng tin cậy – điều mà tôi biết, từ một vài năm sử dụng Adobe Firefly trong Photoshop, cùng với các hệ thống đóng khác:
‘[Phương pháp dựa trên khuếch tán] thường ảo giác bằng cách chèn các đối tượng không mong muốn sau khi xóa các đối tượng mục tiêu, dẫn đến kết quả không nhất quán về mặt ngữ cảnh.
‘Mặt khác, các mô hình đa phương tiện đóng gần đây như ChatGPT và Nano Banana, mặc dù mạnh mẽ hơn trong việc xóa đối tượng, nhưng liên quan đến số lượng tham số lớn và chi phí tính toán cao, cản trở việc triển khai thực tế trên các thiết bị cạnh.
‘Do đó, điều cần thiết là phải phát triển một mô hình xóa đối tượng chuyên dụng không chỉ cho phép hiệu suất xóa vượt trội mà còn tận hưởng độ trễ suy luận thấp và ít tham số hơn.’
Giải thích này, tập trung vào các chướng ngại kỹ thuật, che giấu sự thật rõ ràng rằng các kiến trúc độc quyền như ChatGPT và Nano Banana không có sẵn tất cả cho cài đặt cục bộ. Mặc dù khả năng sản xuất tài liệu gây tranh cãi của các hệ thống như vậy đã cho họ sự biện minh công khai hơn trong năm qua, các cổng thông tin của loại này là độc quyền chủ yếu vì các động lực thương mại.
Về cơ bản, bài viết mới ngụ ý rằng mặc dù vấn đề mục tiêu đã được giải quyết trong các hệ thống thương mại, điều này có thể không liên quan đến phần còn lại của chúng tôi, những người cần phải học cách giải quyết nó trong ‘thế giới thực’ – tức là, trong các hệ thống mã nguồn mở, cho dù chúng có thể được cài đặt cục bộ một cách thực tế hay không.
Phát Triển Song Song
Tuy nhiên, tại sao lại giải quyết một vấn đề vẫn phụ thuộc vào một hệ thống trả phí, không phải do các hạn chế độc quyền, mà vì yêu cầu tính toán GPU vượt quá khả năng của bất kỳ thiết lập cục bộ nào? Hầu hết các ‘mở’ giấy và kho mã mới đều có thiết lập đào tạo/suy luận với nhu cầu tài nguyên đáng kể, chẳng hạn như các cụm A100.
Điều đó phụ thuộc vào việc bạn nghĩ rằng tất cả các trung tâm dữ liệu AI đang chờ xử lý sẽ thực hiện khi chúng cuối cùng đi vào hoạt động. Các nỗi sợ hãi của người dân và hy vọng của giới thượng lưu đều hình dung ra các hệ thống độc quyền ‘Big AI’ loại ChatGPT sẽ thay thế công việc, trong khi liên tục tăng chi phí đăng ký và giảm mức độ dịch vụ, để đáp ứng vốn đầu tư ban đầu mà phải chờ 3-5 năm để hoạt động.
Tuy nhiên, một xu hướng ngày càng tăng trong tài liệu dường như đang hỗ trợ một tương lai thay thế, và tinh thần ‘tự đi’ của nhiều cộng đồng trực tuyến như subreddit r/stablediffusion, hiện có 920.000 người dùng, và đã cấm các bài đăng liên quan đến các hệ thống tạo hình ảnh/đideo độc quyền.
Trong tương lai thay thế này, nguồn cung cấp mới toàn cầu về các trung tâm dữ liệu AI sẽ tạo điều kiện cho tính toán thô cho các hệ thống được người dùng định cấu hình, thay vì đáp ứng nhu cầu của các khuôn khổ ‘hộp đen’ khổng lồ như ChatGPT và Adobe Firefly.
Ma Sát
Khi xem qua các hướng dẫn GPU từ xa phức tạp, được khai thác từ Patreon tại r/stablediffusion, tất cả dường như không thể tại thời điểm này: các mô hình thay đổi liên tục mục tiêu với mỗi cập nhật; chúng khó triển khai cục bộ, ngay cả trong các khuôn khổ dễ sử dụng và thân thiện với người dùng nhất; và nói chung, lượng ma sát liên quan cho thấy một việc theo đuổi nghiêm ngặt cho các nhà giải trí và các công ty không trực tiếp tham gia vào AI, nhưng muốn phát triển và duy trì các hệ thống cục bộ của riêng họ, thay vì thuê các khả năng này.
Tuy nhiên, trong 30 năm qua, mọi công nghệ mà có nhu cầu lớn về sự đơn giản hóa và phổ biến hóa dân chủ đã có xu hướng nhận được điều đó, với các giải pháp phổ biến nhất thường xuất hiện từ các lực căng giữa các hệ thống thương mại và các sáng kiến và thay thế mã nguồn mở.
Các hoạt động từng là ‘nơi ẩn náu của những kẻ lập dị’ như kết nối internet, hệ thống quản lý nội dung và khuôn khổ blog, cũng như bảo mật internet, nhiếp ảnh và quản lý phương tiện, đã tất cả tiến hóa từ sự phức tạp khó hiểu đến sự đơn giản và tiện ích.
Do đó, cảnh quan AI sau này có thể đa dạng và đầy những người chơi nhỏ hơn và thực sự cạnh tranh hơn so với những người dẫn đầu thị trường AI hiện tại có thể mong muốn.
Tự Hiện Thực Hóa, Bằng Sự Cần Thiết
Một cách iron, ‘Big AI’ đang góp phần rất nhiều vào một tinh thần độc lập mới nổi giữa người dùng cuối, bằng cách hút tất cả các thành phần máy tính – đặc biệt là DRAM – mà nếu không sẽ đi đến ‘người tiêu dùng thông thường’.
Do đó, nhiều người đang hình dung một tương lai nơi các tài nguyên ‘toàn cầu AI’ độc quyền được truy cập thông qua các máy khách mỏng không được cấp phép và phát triển một sự quan tâm ngày càng tăng trong việc duy trì thiết bị hiện có của họ.
Cuộc tấn công của AI vào chuỗi cung ứng công nghệ cũng đã khiến các nhà cung cấp dịch vụ công nghệ tăng giá trong 3-6 tháng qua, hoặc vì các công ty nhỏ đang bị siết chặt bởi cơn khát phần cứng, hoặc chỉ vì AI.
Điều này đã dẫn đến sự quan tâm ngày càng tăng đến việc tự lưu trữ và trên cơ sở – bao gồm tự lưu trữ mạng lưới học máy.
Tôi đã bị cuốn vào điều này gần đây, chuyển sang lưu trữ LAN cục bộ cho ảnh và video, cũng như sao lưu tệp. Đối với cái trước, tôi đã sử dụng máy chủ truyền thông đa nền tảng miễn phí và mã nguồn mở Immich, giúp tôi chuyển khỏi việc tăng giá (và các vấn đề khác) của iCloud và các nhà cung cấp lưu trữ đám mây khác:

Nền tảng Immich miễn phí có thể giữ phương tiện của bạn trên thiết bị của bạn và riêng tư với kênh của bạn. Trong trường hợp này, tôi cũng sử dụng Immich trên Docker để cung cấp NVIDIA 3090 GPU của tôi qua LAN đến nơi ảnh và video được lưu, để GPU mạnh mẽ hơn có thể xử lý bất kỳ xử lý hình ảnh/đideo nặng nào.
Nếu kinh nghiệm của tôi là một dấu hiệu đại diện, lập trình vibe – hiện đang bị nguyền rủa trong nhiều cộng đồng trực tuyến ‘thuần khiết’ – đang thúc đẩy làn sóng độc lập này (ngay cả khi nó có thể đe dọa các kho mã nguồn mở mà nó dựa vào).
Ví dụ, mạng đã luôn là điểm yếu của tôi trong tính toán, vì vậy sự hỗ trợ của AI là thiết yếu để tôi có thể chạy một VPS an toàn, để hỗ trợ một loạt các dịch vụ tự lưu trữ mới.
Theo cách này, ‘Big AI’ có thể đang trao quyền cho ‘small AI’; do đó, có thể chúng ta có thể coi sự gia tăng hiện tại của các công ty AI siêu lớn, siêu giá trị là một trạng thái chuyển tiếp cần thiết nhưng chỉ là tạm thời trước khi một xã hội AI dân chủ và trao quyền cho người dùng hơn xuất hiện, loại bỏ các công ty tìm kiếm moat và tìm kiếm tiền thuê như các tên lửa tăng áp đã qua sử dụng – giống như cách bong bóng dot-com năm 2000 để lại cơ sở hạ tầng có thể khai thác mà sẽ tăng tốc đáng kể web sau này, lâu sau khi các công ty đã trả tiền cho nó đã sụp đổ.
Thời Đại Tuân Thủ
Chà, điều đó có thể không lặp lại lần này.
Ngay cả khi chúng ta có có xu hướng hình thành một loại xã hội ‘ngoài moat’ nào đó, quy định xung quanh AI, kết hợp với xu hướng toàn cầu hiện tại về xác minh tuổi, dường như có khả năng dự đoán và chặn các tuyến đường phát triển này.
Neo đậu để ngăn chặn một ‘nền kinh tế trí tuệ nhân tạo bóng tối’ là quy định. Đã có các kho trung tâm như GitHub và Hugging Face thường yêu cầu đăng nhập trực tuyến trước khi cho phép người dùng sao chép kho cục bộ, tùy thuộc vào cài đặt của kho.
Do đó, các cơ chế đã tồn tại để thực thi giám sát các khuôn khổ AI rộng rãi hơn so với thực hành hiện tại; và sự sẵn sàng để tăng sự giám sát này đang được củng cố từ các sáng kiến chính phủ cá nhân thành một động lực toàn cầu.
Vì vậy, nếu các lực lượng thị trường và sự thông minh của phong trào FOSS loại bỏ ma sát khỏi việc triển khai AI thông thường, các chướng ngại vật dường như sẽ trở lại dưới dạng yêu cầu quản lý: các yêu cầu tuân thủ mà mặc dù khó khăn, nhưng đáng giá cho các công ty, nhưng có thể không phải cho các cá nhân – tương tự như ma sát đã được thêm vào các hệ thống thanh toán trực tuyến cấp người tiêu dùng kể từ thời đại vàng của PayPal vào những năm 2000.
Cho dù Meta đã chi 2 tỷ đô la để vận động cho kiểm soát tuổi trên cấp hệ điều hành vì khoản đầu tư AI đáng kể của họ, hay lợi ích thu thập dữ liệu của họ, kết quả của việc hỗ trợ kiểm soát tuổi của các công ty công nghệ lớn là ‘AI cục bộ’ có thể trở nên được quản lý chặt chẽ như một chất được kiểm soát; và giống như DMCA được thiết kế để hình sự hóa ý định chứ không phải là bất kỳ cơ chế nào để tránh vi phạm bản quyền, các quy định AI quốc tế có thể, trong kịch bản như vậy, làm cho tất cả việc sử dụng học máy không tuân thủ trở thành một hành vi ngoài vòng pháp luật, với rất ít chi phí (về giám sát tích cực).
Điều này có thể đã có vẻ như một quan điểm quá đen tối một năm trước – nhưng đó là trước khi California và systemd đứng sau ý tưởng về xác minh tuổi trên cấp phần cứng, hiện đang được nhiều người coi là một đại diện cho một cấm đối với tính ẩn danh trực tuyến.
Kết Luận
Vì vậy, trong khi bối cảnh pháp lý và lập pháp đang chuẩn bị, có thể, để đồng hóa AI vào một không gian được quản lý chặt chẽ, để người dùng thông thường không thể ‘nấu’ AI của riêng họ hơn là họ có thể trồng hoặc lên men các chất được kiểm soát mà không có sự cho phép, lĩnh vực nghiên cứu vẫn duy trì quan điểm lạc quan hơn – rằng AI sẽ trở thành một lực lượng dân chủ và có lợi cho xã hội rộng lớn hơn so với chỉ những người theo dõi nhà cung cấp độc quyền phổ biến nhất trong ngày.
Điều đó phụ thuộc rất nhiều vào sự sắp xếp của các mảnh vụn sau khi bong bóng AI vỡ – ít nhất là mức độ mà các nhà cung cấp hoặc hợp nhất, hoặc thị trường ổn định thành sự phân mảnh lâu dài – điều này có khả năng đòi hỏi một sự chạm nhẹ hơn trong quy định.
Được xuất bản lần đầu vào thứ Tư, ngày 1 tháng 4 năm 2026












