Connect with us

Tương lai của Trí tuệ nhân tạo sinh (Generative AI) là tại Cạnh (Edge)

Lãnh đạo tư tưởng

Tương lai của Trí tuệ nhân tạo sinh (Generative AI) là tại Cạnh (Edge)

mm

Sự ra đời của ChatGPT, và Trí tuệ nhân tạo sinh nói chung, là một khoảnh khắc then chốt trong lịch sử công nghệ và được so sánh với sự ra đời của Internet và điện thoại thông minh. Trí tuệ nhân tạo sinh đã thể hiện tiềm năng vô tận trong khả năng tham gia vào các cuộc trò chuyện thông minh, vượt qua các kỳ thi, tạo ra các chương trình/mã phức tạp, và tạo ra các hình ảnh và video bắt mắt. Trong khi các GPU chạy hầu hết các mô hình Trí tuệ nhân tạo sinh trong đám mây – cả cho đào tạo và suy luận – thì đây không phải là một giải pháp có thể mở rộng trong dài hạn, đặc biệt là đối với suy luận, do các yếu tố bao gồm chi phí, năng lượng, độ trễ, quyền riêng tư và bảo mật. Bài viết này sẽ giải quyết từng yếu tố này cùng với các ví dụ động viên để di chuyển các khối lượng công việc tính toán Trí tuệ nhân tạo sinh đến Cạnh.

Hầu hết các ứng dụng chạy trên các bộ xử lý hiệu suất cao – либо trên thiết bị (ví dụ, điện thoại thông minh, máy tính để bàn, máy tính xách tay) hoặc trong các trung tâm dữ liệu. Khi tỷ lệ ứng dụng sử dụng Trí tuệ nhân tạo tăng lên, các bộ xử lý chỉ có CPU trở nên không đủ. Hơn nữa, sự mở rộng nhanh chóng trong các khối lượng công việc Trí tuệ nhân tạo sinh đang thúc đẩy nhu cầu tăng trưởng theo cấp số nhân đối với các máy chủ được trang bị Trí tuệ nhân tạo với các GPU đắt tiền và tiêu thụ nhiều năng lượng, điều này lại làm tăng chi phí cơ sở hạ tầng. Các máy chủ được trang bị Trí tuệ nhân tạo này có thể có giá lên đến 7 lần so với giá của một máy chủ thông thường và các GPU chiếm 80% chi phí thêm này.

Ngoài ra, một máy chủ dựa trên đám mây tiêu thụ 500W đến 2000W, trong khi một máy chủ được trang bị Trí tuệ nhân tạo tiêu thụ giữa 2000W và 8000W – 4 lần nhiều hơn! Để hỗ trợ các máy chủ này, các trung tâm dữ liệu cần các mô-đun làm mát và nâng cấp cơ sở hạ tầng bổ sung – điều này có thể thậm chí cao hơn so với khoản đầu tư tính toán. Các trung tâm dữ liệu đã tiêu thụ 300 TWH mỗi năm, gần 1% tổng tiêu thụ năng lượng trên toàn thế giới. Nếu xu hướng áp dụng Trí tuệ nhân tạo tiếp tục, thì nhiều nhất 5% tiêu thụ năng lượng trên toàn thế giới có thể được sử dụng bởi các trung tâm dữ liệu vào năm 2030. Ngoài ra, có một khoản đầu tư chưa từng có vào các trung tâm dữ liệu Trí tuệ nhân tạo sinh. Người ta ước tính rằng các trung tâm dữ liệu sẽ tiêu thụ lên đến 500 tỷ đô la cho chi phí vốn bằng cách năm 2027, chủ yếu được thúc đẩy bởi các yêu cầu cơ sở hạ tầng Trí tuệ nhân tạo.

Tiêu thụ điện của các trung tâm dữ liệu, đã là 300 TwH, sẽ tăng lên đáng kể với sự áp dụng Trí tuệ nhân tạo sinh.

Chi phí tính toán Trí tuệ nhân tạo cũng như tiêu thụ năng lượng sẽ cản trở việc áp dụng rộng rãi Trí tuệ nhân tạo sinh. Các thách thức về khả năng mở rộng có thể được vượt qua bằng cách di chuyển tính toán Trí tuệ nhân tạo đến Cạnh và sử dụng các giải pháp xử lý được tối ưu hóa cho các khối lượng công việc Trí tuệ nhân tạo. Với cách tiếp cận này, các lợi ích khác cũng được tích lũy cho khách hàng, bao gồm độ trễ, quyền riêng tư, độ tin cậy, cũng như khả năng tăng lên.

Tính toán đi theo dữ liệu đến Cạnh

Từ hơn một thập kỷ trước, khi Trí tuệ nhân tạo xuất hiện từ thế giới học thuật, đào tạo và suy luận của các mô hình Trí tuệ nhân tạo đã diễn ra trong đám mây/trung tâm dữ liệu. Với phần lớn dữ liệu được tạo ra và tiêu thụ tại Cạnh – đặc biệt là video – thì việc di chuyển suy luận của dữ liệu đến Cạnh là điều hợp lý, từ đó cải thiện tổng chi phí sở hữu (TCO) cho các doanh nghiệp do giảm chi phí mạng và tính toán. Trong khi chi phí suy luận Trí tuệ nhân tạo trên đám mây là chi phí định kỳ, thì chi phí suy luận tại Cạnh là một khoản chi phí phần cứng một lần. Về cơ bản, việc tăng cường hệ thống với một bộ xử lý Trí tuệ nhân tạo Cạnh giảm thiểu chi phí hoạt động tổng thể. Giống như việc di chuyển các khối lượng công việc Trí tuệ nhân tạo thông thường đến Cạnh (ví dụ, thiết bị, thiết bị), các khối lượng công việc Trí tuệ nhân tạo sinh sẽ theo sát. Điều này sẽ mang lại tiết kiệm đáng kể cho các doanh nghiệp và người tiêu dùng.

Việc di chuyển đến Cạnh kết hợp với một bộ tăng tốc Trí tuệ nhân tạo hiệu quả để thực hiện các chức năng suy luận cũng mang lại các lợi ích khác. Trước hết trong số đó là độ trễ. Ví dụ, trong các ứng dụng trò chơi, các nhân vật không phải người chơi (NPC) có thể được kiểm soát và tăng cường bằng Trí tuệ nhân tạo sinh. Sử dụng các mô hình LLM chạy trên các bộ tăng tốc Trí tuệ nhân tạo Cạnh trong một máy chơi trò chơi hoặc PC, các game thủ có thể đưa ra các mục tiêu cụ thể cho những nhân vật này, để chúng có thể tham gia một cách có ý nghĩa vào câu chuyện. Độ trễ thấp từ suy luận Cạnh cục bộ sẽ cho phép các nhân vật NPC nói và di chuyển phản ứng với các lệnh và hành động của người chơi trong thời gian thực. Điều này sẽ mang lại một trải nghiệm chơi trò chơi nhập vai cao với chi phí thấp và hiệu quả về năng lượng.

Trong các ứng dụng như chăm sóc sức khỏe, quyền riêng tư và độ tin cậy là cực kỳ quan trọng (ví dụ, đánh giá bệnh nhân, khuyến nghị thuốc). Dữ liệu và các mô hình Trí tuệ nhân tạo sinh liên quan phải được đặt tại chỗ để bảo vệ dữ liệu bệnh nhân (quyền riêng tư) và bất kỳ sự cố mạng nào sẽ chặn quyền truy cập vào các mô hình Trí tuệ nhân tạo trên đám mây có thể là thảm họa. Một thiết bị Cạnh Trí tuệ nhân tạo chạy một mô hình Trí tuệ nhân tạo sinh được thiết kế riêng cho từng khách hàng doanh nghiệp – trong trường hợp này là một nhà cung cấp dịch vụ chăm sóc sức khỏe – có thể giải quyết một cách mượt mà các vấn đề về quyền riêng tư và độ tin cậy trong khi mang lại độ trễ và chi phí thấp hơn.

Trí tuệ nhân tạo sinh trên các thiết bị Cạnh sẽ đảm bảo độ trễ thấp trong trò chơi và bảo vệ dữ liệu bệnh nhân cũng như tăng cường độ tin cậy cho chăm sóc sức khỏe.

Nhiều mô hình Trí tuệ nhân tạo sinh chạy trên đám mây có thể gần một nghìn tỷ tham số – những mô hình này có thể giải quyết hiệu quả các truy vấn mục đích chung. Tuy nhiên, các ứng dụng cụ thể của doanh nghiệp yêu cầu các mô hình phải cung cấp kết quả phù hợp với trường hợp sử dụng. Lấy ví dụ về một trợ lý Trí tuệ nhân tạo sinh được xây dựng để nhận đơn đặt hàng tại một nhà hàng thức ăn nhanh – để hệ thống này có thể tương tác với khách hàng một cách mượt mà, mô hình Trí tuệ nhân tạo sinh cơ bản phải được đào tạo trên các mục menu của nhà hàng, cũng như biết về các chất gây dị ứng và thành phần. Kích thước mô hình có thể được tối ưu hóa bằng cách sử dụng một siêu mô hình Ngôn ngữ Lớn (LLM) để đào tạo một mô hình LLM nhỏ hơn, khoảng 10-30 tỷ tham số, và sau đó sử dụng tinh chỉnh thêm với dữ liệu cụ thể của khách hàng. Một mô hình như vậy có thể cung cấp kết quả với độ chính xác và khả năng tăng lên. Và với kích thước mô hình nhỏ hơn, nó có thể được triển khai hiệu quả trên một bộ tăng tốc Trí tuệ nhân tạo tại Cạnh.

Trí tuệ nhân tạo sinh sẽ thắng tại Cạnh

Luôn sẽ có nhu cầu về Trí tuệ nhân tạo sinh chạy trên đám mây, đặc biệt là đối với các ứng dụng mục đích chung như ChatGPT và Claude. Nhưng khi nói đến các ứng dụng cụ thể của doanh nghiệp, như tính năng điền sinh của Adobe Photoshop hoặc Github copilot, Trí tuệ nhân tạo sinh tại Cạnh không chỉ là tương lai, mà còn là hiện tại. Các bộ tăng tốc Trí tuệ nhân tạo được thiết kế riêng là chìa khóa để làm cho điều này trở nên khả thi.

Là một cựu chiến binh của Thung lũng Silicon, và là CEO của Kinara Inc, Ravi Annavajjhala mang lại hơn 20 năm kinh nghiệm bao gồm phát triển kinh doanh, tiếp thị và kỹ thuật, xây dựng các sản phẩm công nghệ tiên tiến và đưa chúng ra thị trường. Trong vai trò hiện tại của mình với tư cách là giám đốc điều hành của Deep Vision, Ravi phục vụ trong hội đồng quản trị của công ty và đã huy động được 50 triệu đô la để đưa bộ xử lý Ara-1 của công ty từ giai đoạn tiền silicon đến sản xuất quy mô lớn và để tăng cường sản xuất bộ xử lý thế hệ thứ 2, Ara-2, với số lượng lớn. Trước khi gia nhập Deep Vision, Ravi đã nắm giữ các vị trí lãnh đạo cấp cao tại Intel và SanDisk, nơi ông đã đóng vai trò quan trọng trong việc thúc đẩy tăng trưởng doanh thu, phát triển các quan hệ đối tác chiến lược và xây dựng các bản đồ sản phẩm dẫn đầu ngành công nghiệp với các tính năng và khả năng tiên tiến.