sơ khai Kiềm chế nhu cầu năng lượng ngày càng tăng của máy học - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Kiềm chế nhu cầu năng lượng ngày càng tăng của máy học

mm
cập nhật on

Trước mối lo ngại ngày càng tăng về nhu cầu năng lượng của các mô hình học máy lớn, một nghiên cứu gần đây từ Phòng thí nghiệm MIT Lincoln và Đại học Đông Bắc đã điều tra mức tiết kiệm có thể đạt được nhờ GPU giới hạn năng lượng được sử dụng trong đào tạo và suy luận mô hình, cũng như một số hoạt động khác. kỹ thuật và phương pháp cắt giảm việc sử dụng năng lượng AI.

Công việc mới cũng kêu gọi các bài báo AI mới kết thúc bằng một 'Tuyên bố năng lượng' (tương tự như xu hướng gần đây cho các tuyên bố 'hàm ý đạo đức' trong các bài báo từ lĩnh vực nghiên cứu máy học).

Đề xuất chính từ công việc là việc giới hạn năng lượng (giới hạn năng lượng khả dụng đối với GPU đang đào tạo mô hình) mang lại lợi ích tiết kiệm năng lượng đáng giá, đặc biệt là cho Mô hình hóa ngôn ngữ đeo mặt nạ (MLM) và các khuôn khổ như BERT và các công cụ phái sinh của nó.

Mạng mô hình hóa ba ngôn ngữ hoạt động ở tỷ lệ phần trăm của cài đặt 250W mặc định (đường màu đen), xét về mức sử dụng năng lượng. Hạn chế mức tiêu thụ điện năng không hạn chế hiệu quả đào tạo hoặc độ chính xác trên cơ sở 1-1 và mang lại khả năng tiết kiệm điện đáng kể trên quy mô lớn. Nguồn: https://arxiv.org/pdf/2205.09646.pdf

Mạng mô hình hóa ba ngôn ngữ hoạt động ở tỷ lệ phần trăm của cài đặt 250W mặc định (đường màu đen), xét về mức sử dụng năng lượng. Hạn chế mức tiêu thụ điện năng không hạn chế hiệu quả đào tạo hoặc độ chính xác trên cơ sở 1-1 và mang lại khả năng tiết kiệm điện đáng kể trên quy mô lớn. Nguồn: https://arxiv.org/pdf/2205.09646.pdf

Đối với các mô hình quy mô lớn hơn, đã thu hút được sự chú ý trong những năm gần đây nhờ bộ dữ liệu siêu tỷ lệ và các mô hình mới với hàng tỷ hoặc hàng nghìn tỷ tham số, khoản tiết kiệm tương tự có thể đạt được khi đánh đổi giữa thời gian đào tạo và mức sử dụng năng lượng.

Đào tạo các mô hình NLP ghê gớm hơn ở quy mô lớn dưới các ràng buộc về quyền lực. Thời gian tương đối trung bình dưới mức tối đa 150W có màu xanh lam và mức tiêu thụ năng lượng tương đối trung bình cho 150W có màu cam.

Đào tạo các mô hình NLP ghê gớm hơn ở quy mô lớn dưới các ràng buộc về quyền lực. Thời gian tương đối trung bình dưới mức tối đa 150W có màu xanh lam và mức tiêu thụ năng lượng tương đối trung bình cho 150W có màu cam.

Đối với các triển khai quy mô cao hơn này, các nhà nghiên cứu nhận thấy rằng mức sử dụng năng lượng giới hạn ở mức 150W giúp giảm mức sử dụng năng lượng trung bình 13.7% so với mức tối đa 250W mặc định, cũng như tăng thời gian đào tạo tương đối nhỏ 6.8%.

Ngoài ra, các nhà nghiên cứu lưu ý rằng, mặc dù tiêu đề rằng chi phí đào tạo người mẫu đã tăng lên trong vài năm qua, chi phí năng lượng của việc thực sự sử dụng các mô hình được đào tạo là xa cao hơn*.

'Đối với việc lập mô hình ngôn ngữ với BERT, mức tăng năng lượng thông qua giới hạn năng lượng lớn hơn đáng kể khi thực hiện suy luận so với đào tạo. Nếu điều này phù hợp với các ứng dụng AI khác, thì điều này có thể có sự phân nhánh đáng kể về mức tiêu thụ năng lượng cho các nền tảng điện toán đám mây hoặc quy mô lớn phục vụ các ứng dụng suy luận cho nghiên cứu và công nghiệp.'

Hơn nữa, và có lẽ gây tranh cãi nhất, bài báo gợi ý rằng việc đào tạo chính các mô hình máy học sẽ được chuyển sang các tháng lạnh hơn trong năm và vào ban đêm, để tiết kiệm chi phí làm mát.

Ở trên, số liệu thống kê PUE cho mỗi ngày trong năm 2020 trong trung tâm dữ liệu của tác giả, với mức tăng đột biến/bình nguyên đáng chú ý và duy trì trong những tháng mùa hè. Dưới đây là sự thay đổi PUE trung bình mỗi giờ cho cùng một vị trí trong vòng một tuần, với mức tiêu thụ năng lượng tăng vào giữa ngày, do cả phần cứng làm mát GPU bên trong và hệ thống làm mát xung quanh trung tâm dữ liệu đều cố gắng duy trì nhiệt độ có thể hoạt động được.

Ở trên, số liệu thống kê PUE cho mỗi ngày trong năm 2020 trong trung tâm dữ liệu của tác giả, với mức tăng đột biến/bình nguyên đáng chú ý và duy trì trong những tháng mùa hè. Dưới đây là sự thay đổi PUE trung bình mỗi giờ cho cùng một vị trí trong vòng một tuần, với mức tiêu thụ năng lượng tăng vào giữa ngày, do cả phần cứng làm mát GPU bên trong và hệ thống làm mát xung quanh trung tâm dữ liệu đều cố gắng duy trì nhiệt độ có thể hoạt động được.

Các tác giả tuyên bố:

'Rõ ràng, khối lượng công việc NLP nặng nề thường kém hiệu quả hơn nhiều vào mùa hè so với những khối lượng công việc được thực hiện trong mùa đông. Với sự thay đổi lớn theo mùa, nếu có, sẽ có những thử nghiệm tốn kém về mặt tính toán có thể được định thời gian cho những tháng mát mẻ hơn, thời điểm này có thể làm giảm đáng kể lượng khí thải carbon.'

Bài báo cũng thừa nhận các khả năng tiết kiệm năng lượng mới nổi có thể thực hiện được thông qua việc cắt tỉa và tối ưu hóa kiến ​​trúc mô hình và quy trình công việc – mặc dù các tác giả để việc phát triển thêm con đường này cho các sáng kiến ​​khác.

Cuối cùng, các tác giả gợi ý rằng các bài báo khoa học mới từ lĩnh vực máy học được khuyến khích, hoặc có thể bị hạn chế, kết thúc bằng một tuyên bố tuyên bố việc sử dụng năng lượng của công việc được thực hiện trong nghiên cứu và ý nghĩa tiềm năng về năng lượng của việc áp dụng các sáng kiến ​​được đề xuất trong công việc .

Bài báo, dẫn đầu bằng ví dụ, giải thích ý nghĩa năng lượng của nghiên cứu của chính nó.

Bài báo, dẫn đầu bằng ví dụ, giải thích ý nghĩa năng lượng của nghiên cứu của chính nó.

Sản phẩm giấy có tiêu đề Sức mạnh to lớn, trách nhiệm lớn: Khuyến nghị giảm năng lượng cho việc đào tạo mô hình ngôn ngữ, và đến từ sáu nhà nghiên cứu trên khắp MIT Lincoln và Đông Bắc.

Năng lượng hiện ra lờ mờ của Machine Learning

Khi nhu cầu tính toán cho các mô hình học máy đã tăng song song với tính hữu ích của kết quả, văn hóa ML hiện tại đánh đồng mức tiêu hao năng lượng với hiệu suất được cải thiện – bất chấp một số nhà vận động đáng chú ý, chẳng hạn như Andrew Ng, gợi ý rằng việc quản lý dữ liệu có thể là một yếu tố quan trọng hơn.

Trong một hợp tác quan trọng của MITn từ năm 2020, người ta ước tính rằng hiệu suất mô hình được cải thiện gấp 10,000 lần sẽ kéo theo yêu cầu tính toán tăng gấp XNUMX lần, cùng với một lượng năng lượng tương ứng.

Do đó, nghiên cứu về đào tạo ML hiệu quả ít tốn năng lượng hơn đã tăng lên trong vài năm qua. Các tác giả tuyên bố, bài báo mới này là bài báo đầu tiên xem xét sâu về tác động của giới hạn năng lượng đối với đào tạo và suy luận máy học, với trọng tâm là các khung NLP (chẳng hạn như sê-ri GPT).

Vì chất lượng suy luận là mối quan tâm hàng đầu, các tác giả đã nêu những phát hiện của họ ngay từ đầu:

'Phương pháp [This] không ảnh hưởng đến dự đoán của các mô hình được đào tạo hoặc do đó, độ chính xác về hiệu suất của chúng đối với các nhiệm vụ. Nghĩa là, nếu hai mạng có cùng cấu trúc, giá trị ban đầu và dữ liệu theo đợt được huấn luyện cho cùng một số đợt dưới các giới hạn công suất khác nhau, thì các tham số kết quả của chúng sẽ giống hệt nhau và chỉ có năng lượng cần thiết để tạo ra chúng là có thể khác nhau.'

Cắt giảm sức mạnh cho NLP

Để đánh giá tác động của power-cap đối với đào tạo và suy luận, các tác giả đã sử dụng nvidia-smi (Giao diện quản lý hệ thống) tiện ích dòng lệnh, cùng với một thư viện MLMy từ HuggingFace.

Các tác giả đã đào tạo mô hình Xử lý ngôn ngữ tự nhiên Chứng nhận, Chưng cấtBERTCon chim lớn qua MLM và theo dõi mức tiêu thụ năng lượng của họ trong quá trình đào tạo và triển khai.

Các mô hình đã được đào tạo dựa trên DeepAI's WikiText-103 bộ dữ liệu cho 4 kỷ nguyên theo lô tám, trên 16 GPU V100, với bốn giới hạn công suất khác nhau: 100W, 150W, 200W và 250W (mặc định hoặc cơ sở cho GPU NVIDIA V100). Các mô hình có các tham số được đào tạo sơ bộ và các giá trị khởi tạo ngẫu nhiên, để đảm bảo các đánh giá đào tạo có thể so sánh được.

Như đã thấy trong hình ảnh đầu tiên ở trên, kết quả cho thấy tiết kiệm năng lượng tốt ở mức phi tuyến tính, tăng thời gian đào tạo thuận lợi. Các tác giả tuyên bố:

'Các thí nghiệm của chúng tôi chỉ ra rằng việc thực hiện giới hạn năng lượng có thể giảm đáng kể việc sử dụng năng lượng với chi phí là thời gian đào tạo.'

Giảm béo 'Big NLP'

Tiếp theo, các tác giả đã áp dụng phương pháp tương tự cho một kịch bản đòi hỏi khắt khe hơn: đào tạo BERT với MLM trên các cấu hình phân tán trên nhiều GPU – một trường hợp sử dụng điển hình hơn cho các mô hình FAANG NLP được tài trợ tốt và công khai.

Sự khác biệt chính trong thử nghiệm này là một mô hình có thể sử dụng bất kỳ nơi nào trong khoảng 2-400 GPU cho mỗi phiên bản đào tạo. Các ràng buộc tương tự đối với việc sử dụng năng lượng đã được áp dụng và cùng một tác vụ được sử dụng (WikiText-103). Xem hình ảnh thứ hai ở trên để biết biểu đồ kết quả.

Bài báo viết:

'Tính trung bình trên mỗi lựa chọn cấu hình, mức sử dụng năng lượng giới hạn 150W dẫn đến mức sử dụng năng lượng giảm trung bình 13.7% và thời gian luyện tập tăng 6.8% so với mức tối đa mặc định. [The] Cài đặt 100W có thời gian đào tạo dài hơn đáng kể (trung bình dài hơn 31.4%). Giới hạn 200W tương ứng với thời gian luyện tập gần như tương đương với giới hạn 250W nhưng mức tiết kiệm năng lượng khiêm tốn hơn so với giới hạn 150W.'

Các tác giả gợi ý rằng những kết quả này hỗ trợ giới hạn công suất ở mức 150W cho kiến ​​trúc GPU và các ứng dụng chạy trên chúng. Họ cũng lưu ý rằng mức tiết kiệm năng lượng thu được chuyển đổi trên các nền tảng phần cứng và chạy thử nghiệm lại để so sánh kết quả đối với GPU NVIDIA K80, T4 và A100.

Tiết kiệm thu được trên ba GPU NVIDIA khác nhau.

Tiết kiệm thu được trên ba GPU NVIDIA khác nhau.

Suy luận, không đào tạo, ăn sức mạnh

Bài báo trích dẫn một số nghiên cứu trước đây chứng minh rằng, bất chấp các tiêu đề, chính suy luận (việc sử dụng một mô hình đã hoàn thiện, chẳng hạn như mô hình NLP) và không được đào tạo sẽ thu hút lượng sức mạnh lớn nhất, cho thấy rằng các mô hình phổ biến đã được hàng hóa hóa và nhập vào chủ đạo, việc sử dụng năng lượng có thể trở thành một vấn đề lớn hơn so với hiện tại ở giai đoạn phát triển NLP non trẻ này.

Do đó, các nhà nghiên cứu đã đo lường tác động của suy luận đối với việc sử dụng năng lượng, phát hiện ra rằng việc áp đặt giới hạn năng lượng có ảnh hưởng đáng kể đến độ trễ suy luận:

'So với 250W, cài đặt 100W cần gấp đôi thời gian suy luận (tăng 114%) và tiêu thụ năng lượng ít hơn 11.0%, 150W cần thêm 22.7% thời gian và tiết kiệm 24.2% năng lượng, và 200W cần thêm 8.2% thời gian với ít hơn 12.0% năng lượng.'

Đào tạo mùa đông

Bài báo gợi ý rằng việc đào tạo (nếu không phải là suy luận, vì những lý do rõ ràng) có thể được lên lịch vào những thời điểm khi trung tâm dữ liệu đạt Hiệu suất sử dụng năng lượng cao nhất (PUE) – một cách hiệu quả, đó là vào mùa đông và vào ban đêm.

'Có thể tiết kiệm năng lượng đáng kể nếu khối lượng công việc có thể được lên lịch vào những thời điểm dự kiến ​​có PUE thấp hơn. Ví dụ: chuyển một công việc ngắn hạn từ ban ngày sang ban đêm có thể giảm khoảng 10% và chuyển một công việc dài hơn, tốn kém (ví dụ: một mô hình ngôn ngữ mất vài tuần để hoàn thành) từ mùa hè sang mùa đông có thể giảm 33%.

'Mặc dù rất khó để dự đoán mức tiết kiệm mà một nhà nghiên cứu riêng lẻ có thể đạt được, nhưng thông tin được trình bày ở đây nêu bật tầm quan trọng của các yếu tố môi trường ảnh hưởng đến tổng năng lượng tiêu thụ bởi khối lượng công việc của họ.'

Giữ nó nhiều mây

Cuối cùng, bài báo nhận thấy rằng các tài nguyên xử lý cây nhà lá vườn không có khả năng thực hiện các biện pháp hiệu quả giống như các trung tâm dữ liệu lớn và trình phát điện toán đám mây cấp cao và có thể thu được lợi ích môi trường bằng cách chuyển khối lượng công việc đến các địa điểm đã đầu tư nhiều vào PUE tốt.

'Mặc dù có sự tiện lợi khi có các tài nguyên máy tính riêng có thể truy cập được, nhưng sự tiện lợi này phải trả giá. Nói chung, tiết kiệm và tác động năng lượng dễ đạt được hơn ở quy mô lớn hơn. Các trung tâm dữ liệu và nhà cung cấp điện toán đám mây đầu tư đáng kể vào hiệu quả của các cơ sở của họ.'

 

* Các liên kết thích hợp được đưa ra bởi bài báo.