Lãnh đạo tư tưởng
Chén Thánh Của Sức Mạnh Tính Toán Trong Trí Tuệ Nhân Tạo

Mặc dù đã có những tiến bộ đáng kinh ngạc, nhưng khả năng của trí tuệ nhân tạo vẫn còn hạn chế khi so sánh với kỳ vọng của thế giới thực. Chúng ta xây dựng các mô hình phức tạp, chạy mạng nơ-ron và thử nghiệm các thuật toán, nhưng tiến bộ đôi khi bị đình trệ ở những nơi chúng ta ít ngờ tới.
Vấn đề thường nằm không ở các thuật toán hoặc dữ liệu, mà ở sức mạnh tính toán, tài nguyên cho phép các mô hình học hỏi và hoạt động ở quy mô cần thiết. Vậy điều gì nằm sau rào cản này? Hãy cùng khám phá tài nguyên quan trọng mà không có nó, ngay cả những dự án trí tuệ nhân tạo đầy hứa hẹn cũng không thể vượt ra ngoài phòng thí nghiệm.
Thâm hụt tính toán và hậu quả của nó
Để hiểu chủ đề này, hãy bắt đầu với lịch sử của truyền thông di động. Khi mạng 3G và sau đó là 4G xuất hiện, internet đã gần như toàn cầu. Và khi 5G được giới thiệu, nhiều người đã đặt một câu hỏi hoàn toàn hợp lý: “Internet sẽ nhanh hơn – nhưng thế thì sao?”
Trên thực tế, việc tăng tốc độ internet không chỉ liên quan đến sự tiện lợi của người dùng. Nó biến đổi toàn bộ cảnh quan công nghệ. Các trường hợp sử dụng xuất hiện mà trước đây không thể. 5G đã chứng minh là nhanh hơn 4G rất nhiều, và bước nhảy này không phải là dần dần, như bước nhảy từ 1G đến 2G, mà là theo cấp số nhân. Kết quả là, các ứng dụng, thiết bị và toàn bộ lớp công nghệ mới có thể xuất hiện.
Các camera giao thông, hệ thống phân tích giao thông thời gian thực và cơ chế điều tiết giao thông tự động – tất cả những điều này trở nên khả thi nhờ công nghệ truyền thông mới. Cảnh sát có được những cách mới để trao đổi dữ liệu, và trong không gian, các kính thiên văn và vệ tinh có thể truyền tải lượng lớn thông tin đến Trái Đất. Một bước nhảy vĩ đại trong công nghệ cơ bản thúc đẩy sự phát triển của toàn bộ hệ sinh thái.
Nguyên tắc tương tự áp dụng cho sức mạnh tính toán. Hãy tưởng tượng khả năng tính toán tổng thể của loài người trong các đơn vị giả định. Ngày nay, chúng ta có thể có, chẳng hạn, mười đơn vị như vậy. Với chúng, chúng ta có thể tạo ra hình ảnh và video, viết văn bản, tạo tài liệu tiếp thị… Điều này đã là đáng kể, nhưng phạm vi ứng dụng bị hạn chế chủ yếu.
Giờ hãy tưởng tượng chúng ta không có mười, mà có một nghìn đơn vị như vậy. Đột nhiên, các công nghệ trước đây quá tốn kém trở nên khả thi, và các công ty khởi nghiệp bị bỏ rơi do chi phí tính toán cao bắt đầu có ý nghĩa kinh tế.
Lấy ví dụ về taxi robot, chẳng hạn. Ngày nay, chúng chủ yếu dựa trên máy tính cục bộ tương đối yếu được cài đặt trong xe. Tuy nhiên, nếu luồng video được truyền đến đám mây với tài nguyên tính toán khổng lồ, dữ liệu có thể được xử lý và trả lại trong thời gian thực. Và điều này là quan trọng: một chiếc xe di chuyển ở 100 km/h phải đưa ra quyết định trong phần nghìn giây – đi thẳng, rẽ, phanh hoặc không phanh.
Đó là khi một ngành công nghiệp taxi robot hoàn toàn hoạt động trở nên khả thi, không chỉ là các giải pháp biệt lập như những gì chúng ta thấy ngày nay. Bất kỳ máy tính cục bộ nào được cài đặt trong xe đều bị hạn chế theo cách mà một hệ thống kết nối không bị hạn chế. Việc chúng ta có thể mở rộng quy mô nhanh như thế nào, thế giới xung quanh chúng ta sẽ thay đổi nhanh như vậy.
Truy cập vào chip và “vé vàng” trong AI
Trong bối cảnh sức mạnh tính toán, câu hỏi đặt ra là: liệu việc truy cập vào các chip hiện đại có trở thành “vé vàng” để tham gia thị trường AI? Liệu các công ty lớn ký kết hợp đồng với nhà sản xuất chip hoặc tự sản xuất chúng có tạo ra khoảng cách giữa các công ty doanh nghiệp lớn và mọi người khác không?
Khoảng cách như vậy chỉ xuất hiện trong một trường hợp: nếu mô hình kinh doanh tập trung độc quyền vào việc bán chip cho các khách hàng lớn. Trong thực tế, các nhà sản xuất như NVIDIA nhằm cung cấp các giải pháp đám mây cho mọi người. Các chip được tối ưu hóa của họ có sẵn trong đám mây cho cả OpenAI và các nhà phát triển độc lập.
Ngay cả các liên minh chiến lược giữa các công ty như Google, Anthropic, Microsoft, OpenAI, Amazon và NVIDIA chủ yếu là các quan hệ đối tác để sử dụng tài nguyên chung, chứ không phải là nỗ lực để đóng cửa thị trường. Mô hình này cho phép phân bổ hiệu quả sức mạnh tính toán, từ đó đẩy nhanh sự phát triển công nghệ.
Nếu chúng ta theo dõi chuỗi sử dụng tài nguyên tính toán, nó bắt đầu từ người dùng cuối. Ví dụ, khi bạn sử dụng WhatsApp cho cuộc gọi video và nhắn tin, công ty phải đảm bảo dịch vụ hoạt động: lưu trữ và xử lý dữ liệu, chạy mô hình cho việc làm sạch video, thêm hiệu ứng và cải thiện chất lượng hình ảnh.
Việc duy trì máy chủ riêng là tốn kém, chúng trở nên lỗi thời và đòi hỏi phải bảo trì liên tục. Đó là lý do tại sao các giải pháp đám mây, “đám mây”, đã xuất hiện. Thị trường được thống trị bởi ba người chơi: Google Cloud, AWS và Microsoft Azure. Các công ty khác không thể cạnh tranh ở cấp độ này: quy mô cơ sở hạ tầng quá lớn.
Các dịch vụ đám mây là các trung tâm dữ liệu lớn với hệ thống làm mát, nguồn điện và bảo trì 24/7. Chúng chứa các máy chủ và chip chuyên dụng từ NVIDIA, AMD và các nhà sản xuất khác, cho phép thực hiện các quá trình tính toán quy mô lớn.
Tại đây, chúng ta đến với câu hỏi chính mà tôi đã thảo luận trong cột trước về trung tâm dữ liệu, và muốn tiếp tục ở đây: điều gì là nút thắt chính trong hệ thống này? Liệu đó là sự thiếu hụt điện, hoặc khó khăn trong việc làm mát trung tâm dữ liệu ở các khu vực mà khí hậu khiến nó đặc biệt khó khăn? Trên thực tế, bí mật nằm trong chính các chip…
Chén thánh
Tại sao NVIDIA ngày nay được định giá khoảng 5 nghìn tỷ đô la và được coi là một trong những công ty giao dịch công khai thành công nhất thế giới? Lý do rất đơn giản: NVIDIA sản xuất các chip mà trên đó các mô hình AI được đào tạo và suy luận.
Mỗi một trong những chip này tiêu thụ lượng điện khổng lồ khi đào tạo các mô hình lớn hoặc xử lý lượng dữ liệu ngày càng tăng. Nhưng hiệu quả sử dụng năng lượng đó như thế nào? Đây là nơi các chip chuyên dụng phát huy tác dụng; chúng xử lý các nhiệm vụ cụ thể hiệu quả hơn nhiều so với GPU đa năng.
Các mô hình AI khác nhau. OpenAI, chẳng hạn, có một họ mô hình, Anthropic có một họ khác. Các khái niệm có thể tương tự, nhưng cấu trúc toán học và quy trình tính toán là khác nhau. Một chip đa năng, khi đào tạo các mô hình OpenAI (như ChatGPT) so với các mô hình Anthropic (như Claude), hoạt động như một “công cụ phù hợp với tất cả”, tiêu thụ, chẳng hạn, 100.000 giờ tính toán cho một mô hình và 150.000 cho mô hình khác. Hiệu quả khác nhau đáng kể và hiếm khi là tối ưu.
Các công ty giải quyết vấn đề này bằng cách sản xuất các chip chuyên dụng. Ví dụ, một chip có thể được tối ưu hóa cho kiến trúc ChatGPT và đào tạo nó trong, chẳng hạn, 20 phút, trong khi một chip khác được thiết kế cho kiến trúc Anthropic và cũng hoàn thành đào tạo trong 20 phút. Tiêu thụ điện năng và thời gian đào tạo được giảm nhiều lần so với chip đa năng.
Khi những chip này được bán cho các công ty lớn, chẳng hạn như Google, Amazon, Microsoft hoặc Azure, chúng được cung cấp như các sản phẩm độc lập. Người dùng có thể chọn, chẳng hạn, một chip được tối ưu hóa cho mô hình YOLO hoặc một chip đơn giản, rẻ hơn cho kiến trúc Xen. Điều này cho phép các công ty có được tài nguyên tính toán chính xác phù hợp với nhiệm vụ của họ, thay vì mua GPU đa năng. Nếu người dùng có mười chức năng khác nhau, họ có thể sử dụng mười chip chuyên dụng khác nhau.
Xu hướng rõ ràng: các chip chuyên dụng đang dần thay thế các chip đa năng. Nhiều công ty khởi nghiệp hiện nay làm việc với ASIC (Application-Specific Integrated Circuits), các chip được thiết kế cho các nhiệm vụ tính toán cụ thể. Các ASIC đầu tiên xuất hiện cho việc khai thác Bitcoin: ban đầu, tiền điện tử được khai thác trên GPU NVIDIA, sau đó các chip được tạo ra chỉ cho Bitcoin và không thể thực hiện các nhiệm vụ khác.
Tôi thấy điều này trong thực tế: cùng một cấu hình phần cứng có thể tạo ra kết quả hoàn toàn khác nhau tùy thuộc vào nhiệm vụ. Trong công ty khởi nghiệp của tôi Introspector, chúng tôi nghiên cứu các quy trình này trong các dự án thực tế, và với tư cách là cố vấn chiến lược của Keymakr, tôi quan sát thấy cách khách hàng đạt được hiệu quả từ các chip chuyên dụng, cho phép các mô hình chạy nhanh hơn. Các dự án trước đây bị đình trệ trong quá trình đào tạo hoặc suy luận đạt được kết quả ổn định với cách tiếp cận này.
Tuy nhiên, sự chuyên môn hóa hẹp mang lại rủi ro. Một chip được tối ưu hóa cho kiến trúc Anthropic sẽ không hoạt động để đào tạo các mô hình OpenAI, và ngược lại. Mỗi kiến trúc mới đòi hỏi một thế hệ phần cứng mới, tạo ra rủi ro “lỗi thời” trên quy mô lớn. Nếu Anthropic phát hành một kiến trúc mới vào ngày mai, tất cả các chip thế hệ trước sẽ trở nên kém hiệu quả hoặc vô dụng. Sản xuất các chip mới tốn tỷ đô la và có thể mất nhiều năm.
Điều này tạo ra một tình huống khó xử: chúng ta nên tạo ra các chip chuyên dụng hoạt động hoàn hảo trong một kịch bản hẹp, hay tiếp tục sản xuất các chip đa năng giải quyết tất cả các nhiệm vụ khá tốt nhưng không đòi hỏi phải thay thế hoàn toàn khi kiến trúc thay đổi?
Hiệu quả trong bối cảnh này được đo bằng ba tham số chính: thời gian chạy, tiêu thụ điện và sinh nhiệt. Các chỉ số này liên quan trực tiếp đến nhau: hệ thống chạy càng lâu, tiêu thụ càng nhiều năng lượng và sinh nhiệt càng nhiều. Giảm một tham số tự động cải thiện hai tham số còn lại.
Đó là “chén thánh” của hiệu suất AI: nếu ít nhất một trong các chỉ số hiệu suất cơ bản có thể được tối ưu hóa, các chỉ số khác gần như tự động cải thiện.
Quy trình bền vững
Với việc sử dụng các chip chuyên dụng ngày càng tăng, vấn đề về rủi ro sản xuất thừa đã trở nên cấp thiết. Hiện tại, sự dư thừa thiết bị đã khá đáng kể, và các công ty đang giải quyết vấn đề này theo các cách bền vững khác nhau, bao gồm việc tái sử dụng các tài nguyên hiện có.
Tái chế thiết bị đã trở thành một yếu tố quan trọng của sự phát triển bền vững trong các ngành công nghiệp công nghệ cao. Các chip chứa lượng lớn kim loại quý và kim loại cơ bản, vàng, đồng, nhôm, palladi và vật liệu đất hiếm, cũng như vật liệu được sử dụng trong vi mạch và transistor. Khi thiết bị trở nên lỗi thời, những tài nguyên quý giá này có thể được trả lại vào sản xuất, giảm chi phí của các thành phần mới đồng thời giảm dấu chân môi trường của ngành công nghiệp.
Một số nhà máy chuyên dụng và công ty tập trung vào việc tái chế và chiết xuất kim loại quý từ các thành phần lỗi thời. Ví dụ, một số cơ sở sử dụng các quá trình thủy luyện và phương pháp hóa học tiên tiến để chiết xuất vàng và đồng với độ tinh khiết cao, cho phép những vật liệu này được tái sử dụng trong các chip mới.
Ngoài ra, các công ty đang triển khai các mô hình vòng kín, nơi thiết bị cũ được nâng cấp hoặc tích hợp vào các giải pháp mới, do đó giảm nhu cầu về khai thác tài nguyên chính. Những cách tiếp cận như vậy không chỉ giúp giảm thiểu chất thải mà còn giảm dấu chân carbon của sản xuất, vì khai thác và xử lý kim loại truyền thống đòi hỏi năng lượng đáng kể.
Quản lý bền vững chu kỳ sống của chip và thiết bị có thể trở thành tiêu chuẩn của ngành, nơi tiến bộ công nghệ phù hợp với trách nhiệm môi trường.












