Trí tuệ nhân tạo
Kiềm chế nhu cầu năng lượng ngày càng tăng của máy học
Trước mối lo ngại ngày càng tăng về nhu cầu năng lượng của các mô hình học máy lớn, một nghiên cứu gần đây từ Phòng thí nghiệm MIT Lincoln và Đại học Đông Bắc đã điều tra mức tiết kiệm có thể đạt được nhờ GPU giới hạn năng lượng được sử dụng trong đào tạo và suy luận mô hình, cũng như một số hoạt động khác. kỹ thuật và phương pháp cắt giảm việc sử dụng năng lượng AI.
Công việc mới cũng kêu gọi các bài báo AI mới kết thúc bằng một 'Tuyên bố năng lượng' (tương tự như xu hướng gần đây cho các tuyên bố 'hàm ý đạo đức' trong các bài báo từ lĩnh vực nghiên cứu máy học).
Đề xuất chính từ công việc là việc giới hạn năng lượng (giới hạn năng lượng khả dụng đối với GPU đang đào tạo mô hình) mang lại lợi ích tiết kiệm năng lượng đáng giá, đặc biệt là cho Mô hình hóa ngôn ngữ đeo mặt nạ (MLM) và các khuôn khổ như BERT và các công cụ phái sinh của nó.
Đối với các mô hình quy mô lớn hơn, đã thu hút được sự chú ý trong những năm gần đây nhờ bộ dữ liệu siêu tỷ lệ và các mô hình mới với hàng tỷ hoặc hàng nghìn tỷ tham số, khoản tiết kiệm tương tự có thể đạt được khi đánh đổi giữa thời gian đào tạo và mức sử dụng năng lượng.
Đối với các triển khai quy mô cao hơn này, các nhà nghiên cứu nhận thấy rằng mức sử dụng năng lượng giới hạn ở mức 150W giúp giảm mức sử dụng năng lượng trung bình 13.7% so với mức tối đa 250W mặc định, cũng như tăng thời gian đào tạo tương đối nhỏ 6.8%.
Ngoài ra, các nhà nghiên cứu lưu ý rằng, mặc dù tiêu đề rằng chi phí đào tạo người mẫu đã tăng lên trong vài năm qua, chi phí năng lượng của việc thực sự sử dụng các mô hình được đào tạo là xa cao hơn*.
'Đối với việc lập mô hình ngôn ngữ với BERT, mức tăng năng lượng thông qua giới hạn năng lượng lớn hơn đáng kể khi thực hiện suy luận so với đào tạo. Nếu điều này phù hợp với các ứng dụng AI khác, thì điều này có thể có sự phân nhánh đáng kể về mức tiêu thụ năng lượng cho các nền tảng điện toán đám mây hoặc quy mô lớn phục vụ các ứng dụng suy luận cho nghiên cứu và công nghiệp.'
Hơn nữa, và có lẽ gây tranh cãi nhất, bài báo gợi ý rằng việc đào tạo chính các mô hình máy học sẽ được chuyển sang các tháng lạnh hơn trong năm và vào ban đêm, để tiết kiệm chi phí làm mát.
Các tác giả tuyên bố:
'Rõ ràng, khối lượng công việc NLP nặng nề thường kém hiệu quả hơn nhiều vào mùa hè so với những khối lượng công việc được thực hiện trong mùa đông. Với sự thay đổi lớn theo mùa, nếu có, sẽ có những thử nghiệm tốn kém về mặt tính toán có thể được định thời gian cho những tháng mát mẻ hơn, thời điểm này có thể làm giảm đáng kể lượng khí thải carbon.'
Bài báo cũng thừa nhận các khả năng tiết kiệm năng lượng mới nổi có thể thực hiện được thông qua việc cắt tỉa và tối ưu hóa kiến trúc mô hình và quy trình công việc – mặc dù các tác giả để việc phát triển thêm con đường này cho các sáng kiến khác.
Cuối cùng, các tác giả gợi ý rằng các bài báo khoa học mới từ lĩnh vực máy học được khuyến khích, hoặc có thể bị hạn chế, kết thúc bằng một tuyên bố tuyên bố việc sử dụng năng lượng của công việc được thực hiện trong nghiên cứu và ý nghĩa tiềm năng về năng lượng của việc áp dụng các sáng kiến được đề xuất trong công việc .
Sản phẩm giấy có tiêu đề Sức mạnh to lớn, trách nhiệm lớn: Khuyến nghị giảm năng lượng cho việc đào tạo mô hình ngôn ngữ, và đến từ sáu nhà nghiên cứu trên khắp MIT Lincoln và Đông Bắc.
Năng lượng hiện ra lờ mờ của Machine Learning
Khi nhu cầu tính toán cho các mô hình học máy đã tăng song song với tính hữu ích của kết quả, văn hóa ML hiện tại đánh đồng mức tiêu hao năng lượng với hiệu suất được cải thiện – bất chấp một số nhà vận động đáng chú ý, chẳng hạn như Andrew Ng, gợi ý rằng việc quản lý dữ liệu có thể là một yếu tố quan trọng hơn.
Trong một hợp tác quan trọng của MITn từ năm 2020, người ta ước tính rằng hiệu suất mô hình được cải thiện gấp 10,000 lần sẽ kéo theo yêu cầu tính toán tăng gấp XNUMX lần, cùng với một lượng năng lượng tương ứng.
Do đó, nghiên cứu về đào tạo ML hiệu quả ít tốn năng lượng hơn đã tăng lên trong vài năm qua. Các tác giả tuyên bố, bài báo mới này là bài báo đầu tiên xem xét sâu về tác động của giới hạn năng lượng đối với đào tạo và suy luận máy học, với trọng tâm là các khung NLP (chẳng hạn như sê-ri GPT).
Vì chất lượng suy luận là mối quan tâm hàng đầu, các tác giả đã nêu những phát hiện của họ ngay từ đầu:
'Phương pháp [This] không ảnh hưởng đến dự đoán của các mô hình được đào tạo hoặc do đó, độ chính xác về hiệu suất của chúng đối với các nhiệm vụ. Nghĩa là, nếu hai mạng có cùng cấu trúc, giá trị ban đầu và dữ liệu theo đợt được huấn luyện cho cùng một số đợt dưới các giới hạn công suất khác nhau, thì các tham số kết quả của chúng sẽ giống hệt nhau và chỉ có năng lượng cần thiết để tạo ra chúng là có thể khác nhau.'
Cắt giảm sức mạnh cho NLP
Để đánh giá tác động của power-cap đối với đào tạo và suy luận, các tác giả đã sử dụng nvidia-smi (Giao diện quản lý hệ thống) tiện ích dòng lệnh, cùng với một thư viện MLMy từ HuggingFace.
Các tác giả đã đào tạo mô hình Xử lý ngôn ngữ tự nhiên Chứng nhận, Chưng cấtBERT và Con chim lớn qua MLM và theo dõi mức tiêu thụ năng lượng của họ trong quá trình đào tạo và triển khai.
Các mô hình đã được đào tạo dựa trên DeepAI's WikiText-103 bộ dữ liệu cho 4 kỷ nguyên theo lô tám, trên 16 GPU V100, với bốn giới hạn công suất khác nhau: 100W, 150W, 200W và 250W (mặc định hoặc cơ sở cho GPU NVIDIA V100). Các mô hình có các tham số được đào tạo sơ bộ và các giá trị khởi tạo ngẫu nhiên, để đảm bảo các đánh giá đào tạo có thể so sánh được.
Như đã thấy trong hình ảnh đầu tiên ở trên, kết quả cho thấy tiết kiệm năng lượng tốt ở mức phi tuyến tính, tăng thời gian đào tạo thuận lợi. Các tác giả tuyên bố:
'Các thí nghiệm của chúng tôi chỉ ra rằng việc thực hiện giới hạn năng lượng có thể giảm đáng kể việc sử dụng năng lượng với chi phí là thời gian đào tạo.'
Giảm béo 'Big NLP'
Tiếp theo, các tác giả đã áp dụng phương pháp tương tự cho một kịch bản đòi hỏi khắt khe hơn: đào tạo BERT với MLM trên các cấu hình phân tán trên nhiều GPU – một trường hợp sử dụng điển hình hơn cho các mô hình FAANG NLP được tài trợ tốt và công khai.
Sự khác biệt chính trong thử nghiệm này là một mô hình có thể sử dụng bất kỳ nơi nào trong khoảng 2-400 GPU cho mỗi phiên bản đào tạo. Các ràng buộc tương tự đối với việc sử dụng năng lượng đã được áp dụng và cùng một tác vụ được sử dụng (WikiText-103). Xem hình ảnh thứ hai ở trên để biết biểu đồ kết quả.
Bài báo viết:
'Tính trung bình trên mỗi lựa chọn cấu hình, mức sử dụng năng lượng giới hạn 150W dẫn đến mức sử dụng năng lượng giảm trung bình 13.7% và thời gian luyện tập tăng 6.8% so với mức tối đa mặc định. [The] Cài đặt 100W có thời gian đào tạo dài hơn đáng kể (trung bình dài hơn 31.4%). Giới hạn 200W tương ứng với thời gian luyện tập gần như tương đương với giới hạn 250W nhưng mức tiết kiệm năng lượng khiêm tốn hơn so với giới hạn 150W.'
Các tác giả gợi ý rằng những kết quả này hỗ trợ giới hạn công suất ở mức 150W cho kiến trúc GPU và các ứng dụng chạy trên chúng. Họ cũng lưu ý rằng mức tiết kiệm năng lượng thu được chuyển đổi trên các nền tảng phần cứng và chạy thử nghiệm lại để so sánh kết quả đối với GPU NVIDIA K80, T4 và A100.
Suy luận, không đào tạo, ăn sức mạnh
Bài báo trích dẫn một số nghiên cứu trước đây chứng minh rằng, bất chấp các tiêu đề, chính suy luận (việc sử dụng một mô hình đã hoàn thiện, chẳng hạn như mô hình NLP) và không được đào tạo sẽ thu hút lượng sức mạnh lớn nhất, cho thấy rằng các mô hình phổ biến đã được hàng hóa hóa và nhập vào chủ đạo, việc sử dụng năng lượng có thể trở thành một vấn đề lớn hơn so với hiện tại ở giai đoạn phát triển NLP non trẻ này.
Do đó, các nhà nghiên cứu đã đo lường tác động của suy luận đối với việc sử dụng năng lượng, phát hiện ra rằng việc áp đặt giới hạn năng lượng có ảnh hưởng đáng kể đến độ trễ suy luận:
'So với 250W, cài đặt 100W cần gấp đôi thời gian suy luận (tăng 114%) và tiêu thụ năng lượng ít hơn 11.0%, 150W cần thêm 22.7% thời gian và tiết kiệm 24.2% năng lượng, và 200W cần thêm 8.2% thời gian với ít hơn 12.0% năng lượng.'
Đào tạo mùa đông
Bài báo gợi ý rằng việc đào tạo (nếu không phải là suy luận, vì những lý do rõ ràng) có thể được lên lịch vào những thời điểm khi trung tâm dữ liệu đạt Hiệu suất sử dụng năng lượng cao nhất (PUE) – một cách hiệu quả, đó là vào mùa đông và vào ban đêm.
'Có thể tiết kiệm năng lượng đáng kể nếu khối lượng công việc có thể được lên lịch vào những thời điểm dự kiến có PUE thấp hơn. Ví dụ: chuyển một công việc ngắn hạn từ ban ngày sang ban đêm có thể giảm khoảng 10% và chuyển một công việc dài hơn, tốn kém (ví dụ: một mô hình ngôn ngữ mất vài tuần để hoàn thành) từ mùa hè sang mùa đông có thể giảm 33%.
'Mặc dù rất khó để dự đoán mức tiết kiệm mà một nhà nghiên cứu riêng lẻ có thể đạt được, nhưng thông tin được trình bày ở đây nêu bật tầm quan trọng của các yếu tố môi trường ảnh hưởng đến tổng năng lượng tiêu thụ bởi khối lượng công việc của họ.'
Giữ nó nhiều mây
Cuối cùng, bài báo nhận thấy rằng các tài nguyên xử lý cây nhà lá vườn không có khả năng thực hiện các biện pháp hiệu quả giống như các trung tâm dữ liệu lớn và trình phát điện toán đám mây cấp cao và có thể thu được lợi ích môi trường bằng cách chuyển khối lượng công việc đến các địa điểm đã đầu tư nhiều vào PUE tốt.
'Mặc dù có sự tiện lợi khi có các tài nguyên máy tính riêng có thể truy cập được, nhưng sự tiện lợi này phải trả giá. Nói chung, tiết kiệm và tác động năng lượng dễ đạt được hơn ở quy mô lớn hơn. Các trung tâm dữ liệu và nhà cung cấp điện toán đám mây đầu tư đáng kể vào hiệu quả của các cơ sở của họ.'
* Các liên kết thích hợp được đưa ra bởi bài báo.