Trí tuệ nhân tạo

Các nhà nghiên cứu tạo ra giải pháp thay thế cho GPU

cập nhật on 9 Tháng mười hai, 2022

Các nhà khoa học máy tính từ Đại học Rice, cùng với các cộng tác viên từ Intel, đã phát triển một giải pháp thay thế hiệu quả hơn về chi phí cho GPU. Thuật toán mới được gọi là “công cụ học sâu tuyến tính phụ” (SLIDE) và thuật toán này sử dụng các đơn vị xử lý trung tâm (CPU) đa năng mà không cần phần cứng tăng tốc chuyên dụng.

Kết quả đã được trình bày tại Trung tâm Hội nghị Austin, nơi tổ chức hội nghị về hệ thống máy học MLSys.

Một trong những thách thức lớn nhất đối với trí tuệ nhân tạo (AI) xoay quanh phần cứng tăng tốc chuyên dụng như bộ xử lý đồ họa (GPU). Trước những bước phát triển mới, người ta tin rằng để tăng tốc công nghệ deep learning, cần phải sử dụng phần cứng tăng tốc chuyên dụng này.

Nhiều công ty đã rất coi trọng việc đầu tư vào GPU và phần cứng chuyên dụng để học sâu, chịu trách nhiệm về công nghệ như trợ lý kỹ thuật số, nhận dạng khuôn mặt và hệ thống đề xuất sản phẩm. Một trong những công ty như vậy là Nvidia, công ty tạo ra GPU Tesla V100 Tensor Core. Nvidia gần đây đã báo cáo doanh thu quý IV tăng 41% so với năm ngoái.

Sự phát triển của SLIDE mở ra những khả năng hoàn toàn mới.

Anshumali Shrivastava là trợ lý giáo sư tại Trường Kỹ thuật Rice's Brown và đã giúp phát minh SLIDE cùng với các sinh viên tốt nghiệp Beidi Chen và Tharun Medini.

Shrivastava cho biết: “Các thử nghiệm của chúng tôi cho thấy SLIDE là triển khai thuật toán thông minh đầu tiên của deep learning trên CPU có thể vượt trội hơn khả năng tăng tốc phần cứng GPU trên các bộ dữ liệu đề xuất quy mô ngành với các kiến trúc lớn được kết nối đầy đủ”.

SLIDE vượt qua thách thức của GPU nhờ cách tiếp cận học sâu hoàn toàn khác. Hiện tại, kỹ thuật đào tạo tiêu chuẩn cho mạng lưới thần kinh sâu là “lan truyền ngược” và nó yêu cầu phép nhân ma trận. Khối lượng công việc này yêu cầu sử dụng GPU, vì vậy các nhà nghiên cứu đã thay đổi quá trình huấn luyện mạng thần kinh để có thể giải quyết vấn đề bằng bảng băm.

Cách tiếp cận mới này giúp giảm đáng kể chi phí tính toán cho SLIDE. Nền tảng GPU tốt nhất hiện tại mà các công ty như Amazon và Google sử dụng để học sâu dựa trên đám mây có tám chiếc Tesla V100 và mức giá khoảng 100,000 USD.

“Chúng tôi có một thiết bị trong phòng thí nghiệm và trong trường hợp thử nghiệm của mình, chúng tôi đã xử lý khối lượng công việc hoàn hảo cho V100, một thiết bị có hơn 100 triệu tham số trong các mạng lớn, được kết nối đầy đủ phù hợp với bộ nhớ GPU,” Shrivastava cho biết. “Chúng tôi đã đào tạo nó với gói (phần mềm) tốt nhất hiện có, TensorFlow của Google và mất 3 tiếng rưỡi để đào tạo.

Ông tiếp tục: “Sau đó, chúng tôi đã chỉ ra rằng thuật toán mới của chúng tôi có thể thực hiện đào tạo trong một giờ, không phải trên GPU mà trên CPU 44 lõi Xeon.

Băm là một loại phương pháp lập chỉ mục dữ liệu được phát minh vào những năm 1990 để tìm kiếm trên internet. Các phương pháp số được sử dụng để mã hóa một lượng lớn thông tin dưới dạng một chuỗi các chữ số, được gọi là hàm băm. Băm được liệt kê để tạo các bảng có thể được tìm kiếm nhanh chóng.

“Sẽ không có ý nghĩa gì khi triển khai thuật toán của chúng tôi trên TensorFlow hoặc PyTorch bởi vì điều đầu tiên họ muốn làm là chuyển đổi bất cứ điều gì bạn đang làm thành một bài toán nhân ma trận,” Chen nói. “Đó chính xác là những gì chúng tôi muốn thoát khỏi. Vì vậy, chúng tôi đã viết mã C++ của riêng mình từ đầu.”

Theo Shrivastava, ưu điểm lớn nhất của SLIDE là dữ liệu song song.

“Theo dữ liệu song song, ý tôi là nếu tôi có hai trường hợp dữ liệu mà tôi muốn huấn luyện, giả sử một trường hợp là hình ảnh của một con mèo và trường hợp kia là hình ảnh một chiếc xe buýt, chúng có thể sẽ kích hoạt các nơ-ron khác nhau và SLIDE có thể cập nhật hoặc huấn luyện về hai điều này một cách độc lập,” ông nói. “Đây là một cách sử dụng song song tốt hơn cho CPU.”

Ông nói: “Mặt khác, so với GPU, là chúng tôi cần một bộ nhớ lớn. “Có một hệ thống phân cấp bộ đệm trong bộ nhớ chính và nếu bạn không cẩn thận với nó, bạn có thể gặp phải sự cố gọi là lỗi bộ đệm, trong đó bạn nhận được rất nhiều lỗi bộ đệm.”

SLIDE đã mở ra cánh cửa cho những cách thức mới để triển khai deep learning và Shrivastava tin rằng đây mới chỉ là bước khởi đầu.

Ông nói: “Chúng tôi chỉ mới làm trầy xước bề mặt. “Có rất nhiều điều chúng tôi vẫn có thể làm để tối ưu hóa. Ví dụ: chúng tôi chưa sử dụng vector hóa hoặc bộ tăng tốc tích hợp trong CPU, như Intel Deep Learning Boost. Có rất nhiều thủ thuật khác mà chúng tôi vẫn có thể sử dụng để làm cho việc này nhanh hơn nữa.”

Chủ đề liên quan:AI trí tuệ nhân tạo học kĩ càng GPU mạng thần kinh

Allan Hanbury, Đồng sáng lập contextflow – Chuỗi phỏng vấn

Đừng bỏ lỡ

AI được đào tạo để trở thành bậc thầy trong ngục tối và tạo ra các âm mưu cho ngục tối và rồng

Alex McFarland

Alex McFarland là một nhà báo và nhà văn về AI đang khám phá những phát triển mới nhất về trí tuệ nhân tạo. Anh ấy đã cộng tác với nhiều công ty khởi nghiệp và ấn phẩm về AI trên toàn thế giới.