Trí tuệ nhân tạo

Dấu chân carbon cao của các mô hình dịch tự động của Đức

cập nhật on 9 Tháng mười hai, 2022

Nghiên cứu mới về lượng khí thải carbon được tạo ra bởi các mô hình dịch thuật học máy chỉ ra rằng tiếng Đức có thể là ngôn ngữ phổ biến sử dụng nhiều carbon nhất để đào tạo, mặc dù không hoàn toàn rõ ràng tại sao. Báo cáo mới nhằm mở ra những hướng nghiên cứu bổ sung về các phương pháp đào tạo AI tiết kiệm carbon hơn, trong bối cảnh nhận thức ngày càng tăng về mức độ tiêu thụ điện của hệ thống máy học.

bản in trước giấy có tiêu đề Hạn chế lượng khí thải carbon của bạn: So sánh lượng khí thải carbon trong dịch máy, và đến từ các nhà nghiên cứu tại Viện Công nghệ Manipal của Ấn Độ.

Các tác giả đã thử nghiệm thời gian đào tạo và tính toán các giá trị phát thải carbon cho nhiều mô hình dịch thuật liên ngôn ngữ có thể có và nhận thấy "sự chênh lệch đáng chú ý" giữa thời gian cần thiết để dịch ba cặp ngôn ngữ sử dụng nhiều carbon nhất và ba mô hình tiết kiệm carbon nhất .

Lượng khí thải carbon trung bình được giải phóng trong 10 kỷ nguyên đào tạo. Ở bên trái, kết quả sử dụng ConvSeq (xem bên dưới), ở bên phải, Transformers. Nguồn: https://arxiv.org/pdf/2109.12584.pdf

Bài báo phát hiện ra rằng các cặp ngôn ngữ 'sinh thái' nhất để đào tạo là tiếng Anh>tiếng Pháp, tiếng Pháp>tiếng Anh và, nghịch lý thay, tiếng Đức sang tiếng Anh, trong khi tiếng Đức lại có trong tất cả các cặp ngôn ngữ được sử dụng nhiều nhất: tiếng Pháp>tiếng Đức, tiếng Anh>tiếng Đức và tiếng Đức> Người Pháp.

Lãi kép

Các phát hiện cho thấy rằng tính đa dạng từ vựng 'tỷ lệ thuận với thời gian đào tạo để đạt được mức hiệu suất phù hợp' và lưu ý rằng tiếng Đức có điểm đa dạng từ vựng cao nhất trong số ba ngôn ngữ được kiểm tra theo ước tính của nó. Tỷ lệ loại mã thông báo (TTR) – phép đo kích thước từ vựng dựa trên độ dài văn bản.

Nhu cầu xử lý tiếng Đức ngày càng tăng trong các mô hình dịch thuật không được phản ánh trong dữ liệu nguồn được sử dụng cho thử nghiệm. Trên thực tế, mã thông báo tiếng Đức được tạo từ dữ liệu nguồn có mã thông báo dẫn xuất ít hơn (299445) so với tiếng Anh (320108) và ít hơn nhiều so với tiếng Pháp (335917).

Thách thức, từ quan điểm Xử lý ngôn ngữ tự nhiên (NLP), là phân tách từ ghép tiếng Đức thành các từ cấu thành. Các hệ thống NLP thường phải thực hiện điều này đối với tiếng Đức mà không có bất kỳ manh mối ngữ pháp hoặc ngữ cảnh xung quanh nào được 'phân tách' trước có thể tìm thấy trong các ngôn ngữ có điểm TTR thấp hơn, chẳng hạn như tiếng Anh. Các quá trình được gọi là tách hợp chất or phân hủy.

Tiếng Đức có một số từ riêng lẻ dài nhất thế giới, mặc dù vào năm 2013, nó mất sự công nhận chính thức của người từng phá kỷ lục dài 65 ký tự, đủ dài để yêu cầu một dòng riêng trong bài viết này:

Rindfleischetikettierungsueberwachungsaufgabenuebertragungsgesetz

Từ này đề cập đến một luật ủy quyền giám sát nhãn thịt bò, nhưng đã không còn tồn tại do sự thay đổi trong các quy định của châu Âu vào năm đó, nhường vị trí cho những người nổi tiếng khác, chẳng hạn như 'góa phụ của thuyền trưởng công ty tàu hơi nước Danube' (49 ký tự):

Donaudampfschifffahrtsgesellschaftskapitaenswitwe

Nói chung, cấu trúc cú pháp của tiếng Đức đòi hỏi phải khác với các giả định về trật tự từ làm cơ sở cho các thực hành NLP trong nhiều ngôn ngữ phương Tây, với khung NLP spaCY phổ biến (có trụ sở tại Berlin) áp dụng ngôn ngữ mẹ đẻ của chính nó trong 2016.

Ánh xạ xạ ảnh trong một cụm từ tiếng Anh và tiếng Đức thể hiện mối quan hệ qua lại phức tạp giữa các yếu tố từ vựng trong tiếng Đức. Nguồn: https://explosion.ai/blog/german-model

Dữ liệu và Thử nghiệm

Đối với dữ liệu nguồn, các nhà nghiên cứu đã sử dụng Đa30k bộ dữ liệu, chứa 30,000 mẫu bằng tiếng Pháp, tiếng Đức và tiếng Anh.

Mô hình đầu tiên trong số hai mô hình được các nhà nghiên cứu sử dụng là Convolutional Sequence to Sequence năm 2017 của Facebook AI (ConvSeq), một mạng thần kinh chứa các lớp tích chập nhưng thiếu các đơn vị lặp lại và thay vào đó sử dụng các bộ lọc để lấy các tính năng từ văn bản. Điều này cho phép tất cả các hoạt động diễn ra theo cách song song hiệu quả về mặt tính toán.

Cách tiếp cận thứ hai sử dụng ảnh hưởng của Google Máy biến áp kiến trúc, cũng từ năm 2017. Transformers sử dụng các lớp tuyến tính, cơ chế chú ý và quy trình chuẩn hóa. Phải thừa nhận rằng, mô hình phát hành ban đầu đã đến dưới sự chỉ trích cho sự kém hiệu quả của carbon, với tuyên bố về những cải tiến tiếp theo Tranh luận.

Các thử nghiệm được thực hiện trên Google Colab, thống nhất trên một Tesla K80 GPU. Các ngôn ngữ được so sánh bằng cách sử dụng một Bleu (Đánh giá Song ngữ) chỉ số điểm, và MãCarbon Khí thải máy học Quy đổi. Dữ liệu được đào tạo trên 10 kỷ nguyên.

Những phát hiện

Các nhà nghiên cứu phát hiện ra rằng chính thời gian đào tạo kéo dài đối với các cặp ngôn ngữ liên quan đến tiếng Đức đã giúp cân bằng mức tiêu thụ carbon cao hơn. Mặc dù một số cặp ngôn ngữ khác, chẳng hạn như tiếng Anh>tiếng Pháp và tiếng Pháp>tiếng Anh thậm chí còn có mức tiêu thụ carbon cao hơn, nhưng chúng được đào tạo nhanh hơn và giải quyết dễ dàng hơn, với các đợt tiêu thụ này được các nhà nghiên cứu mô tả là 'tương đối không đáng kể' so với mức tiêu thụ của cặp ngôn ngữ bao gồm tiếng Đức.

Phân tích các cặp ngôn ngữ được phát thải carbon bộ mã hóa/giải mã.

Các nhà nghiên cứu kết luận:

'Những phát hiện của chúng tôi cung cấp dấu hiệu rõ ràng rằng một số cặp ngôn ngữ cần đào tạo nhiều carbon hơn những cặp khác, một xu hướng cũng mang theo các kiến trúc khác nhau.'

Họ tiếp tục:

'Tuy nhiên, vẫn còn những câu hỏi chưa được trả lời về lý do tại sao có sự khác biệt rõ rệt như vậy trong các mô hình đào tạo cho một cặp ngôn ngữ cụ thể so với một cặp ngôn ngữ khác và liệu các kiến trúc khác nhau có thể phù hợp hơn với các cặp ngôn ngữ cường độ carbon này hay không và tại sao điều này lại xảy ra nếu đúng .'

Bài báo nhấn mạnh rằng lý do dẫn đến sự chênh lệch về mức tiêu thụ carbon giữa các mô hình đào tạo không hoàn toàn rõ ràng. Họ dự đoán sẽ phát triển dòng nghiên cứu này với các ngôn ngữ không dựa trên tiếng Latinh.

1.20:2 GMT+XNUMX – Đã sửa lỗi văn bản.