Trí tuệ nhân tạo
Tác động Carbon Cao của Mô hình Tự động Dịch Tiếng Đức

Nghiên cứu mới về dấu chân carbon được tạo ra bởi các mô hình dịch máy học chỉ ra rằng tiếng Đức có thể là ngôn ngữ phổ biến nhất để đào tạo, mặc dù không hoàn toàn rõ lý do. Báo cáo mới này nhằm mục đích mở ra các hướng nghiên cứu thêm về các phương pháp đào tạo AI tiết kiệm carbon hơn, trong bối cảnh nhận thức ngày càng tăng về mức độ mà các hệ thống học máy tiêu thụ điện.
Bài báo tiền in có tiêu đề Curb Your Carbon Emissions: Benchmarking Carbon Emissions in Machine Translation, và đến từ các nhà nghiên cứu tại Viện Công nghệ Manipal của Ấn Độ.
Các tác giả đã thử nghiệm thời gian đào tạo và tính toán giá trị phát thải carbon cho nhiều mô hình dịch ngôn ngữ có thể có, và phát hiện ra ‘sự chênh lệch đáng chú ý’ giữa thời gian cần thiết để dịch ba ngôn ngữ pairings carbon-intensive nhất, và ba mô hình tiết kiệm carbon nhất.

Trung bình của lượng khí thải carbon được phát hành trong 10 kỷ của đào tạo. Ở bên trái, kết quả sử dụng ConvSeq (xem dưới), ở bên phải, Transformers. Nguồn: https://arxiv.org/pdf/2109.12584.pdf
Bài báo cho thấy rằng các ngôn ngữ pairings ‘sinh thái’ nhất để đào tạo là tiếng Anh > tiếng Pháp, tiếng Pháp > tiếng Anh và, một cách nghịch lý, tiếng Đức sang tiếng Anh, trong khi tiếng Đức có mặt trong tất cả các pairings tiêu thụ cao nhất: tiếng Pháp > tiếng Đức, tiếng Anh > tiếng Đức và tiếng Đức > tiếng Pháp.
Lãi kép
Các phát hiện cho thấy rằng sự đa dạng từ vựng ‘đồng biến với thời gian đào tạo để đạt được mức độ hiệu suất phù hợp’, và lưu ý rằng tiếng Đức có điểm số đa dạng từ vựng cao nhất trong số ba ngôn ngữ được thử nghiệm theo Type-Token Ratio (TTR) – một thước đo về kích thước từ vựng dựa trên độ dài văn bản.
Các yêu cầu tăng cao của việc xử lý tiếng Đức trong các mô hình dịch không được phản ánh trong dữ liệu nguồn được sử dụng cho thí nghiệm. Trên thực tế, các token tiếng Đức được tạo ra từ dữ liệu nguồn có ít hơn (299445) token phái sinh so với tiếng Anh (320108), và ít hơn nhiều so với tiếng Pháp (335917).

Thách thức, từ góc độ Xử lý Ngôn ngữ Tự nhiên (NLP), là phân chia các từ phức hợp tiếng Đức thành các từ thành phần. Các hệ thống NLP thường phải thực hiện việc này cho tiếng Đức mà không có bất kỳ ngữ pháp hoặc gợi ý ngữ cảnh nào có thể được tìm thấy trong các ngôn ngữ có điểm TTR thấp hơn, chẳng hạn như tiếng Anh. Quá trình này được gọi là phân chia phức hợp hoặc phân chia từ.
Tiếng Đức có một số từ đơn dài nhất trên thế giới, mặc dù vào năm 2013 nó mất đi công nhận chính thức của từ 65 ký tự trước đây, đủ dài để yêu cầu một dòng riêng trong bài viết này:
Rindfleischetikettierungsueberwachungsaufgabenuebertragungsgesetz
Từ này đề cập đến một luật ủy quyền giám sát nhãn thịt bò, nhưng đã không còn tồn tại do thay đổi quy định của châu Âu vào năm đó, nhường chỗ cho các từ khác phổ biến, chẳng hạn như ‘góa phụ của thuyền trưởng công ty tàu hơi nước Danube’ (49 ký tự):
Donaudampfschifffahrtsgesellschaftskapitaenswitwe
Nói chung, cấu trúc ngữ pháp của tiếng Đức đòi hỏi phải rời khỏi các giả định về thứ tự từ mà các phương pháp NLP dựa vào trong nhiều ngôn ngữ phương Tây, với khuôn khổ NLP phổ biến (dựa trên Berlin) spaCY áp dụng ngôn ngữ bản địa vào năm 2016.

Các ánh xạ dự án trong một cụm từ tiếng Anh và tiếng Đức thể hiện mối quan hệ phức tạp giữa các yếu tố từ vựng trong ngôn ngữ tiếng Đức. Nguồn: https://explosion.ai/blog/german-model
Dữ liệu và Kiểm tra
Để có dữ liệu nguồn, các nhà nghiên cứu đã sử dụng Bộ dữ liệu Multi30k, chứa 30.000 mẫu trên các ngôn ngữ tiếng Pháp, tiếng Đức và tiếng Anh.
Mô hình đầu tiên được các nhà nghiên cứu sử dụng là Convolutional Sequence to Sequence (ConvSeq) của Facebook AI năm 2017, một mạng nơ-ron có chứa các lớp convolutional nhưng thiếu các đơn vị hồi quy, và thay vào đó sử dụng các bộ lọc để suy ra các tính năng từ văn bản. Điều này cho phép tất cả các hoạt động diễn ra một cách song song và hiệu quả về mặt tính toán.
Phương pháp thứ hai được sử dụng là kiến trúc Transformers có ảnh hưởng của Google, cũng từ năm 2017. Transformers sử dụng các lớp tuyến tính, cơ chế chú ý và các quy trình chuẩn hóa. Mô hình ban đầu được phát hành đã đối mặt với sự chỉ trích về sự không hiệu quả về carbon, với các tuyên bố về sự cải tiến sau này được tranh luận.
Các thí nghiệm được thực hiện trên Google Colab, đồng nhất trên một GPU Tesla K80. Các ngôn ngữ được so sánh bằng cách sử dụng BLEU (Bilingual Evaluation Understudy) điểm số và CodeCarbon Máy học Phát thải Máy tính. Dữ liệu được đào tạo trong 10 kỷ.
Phát hiện
Các nhà nghiên cứu đã phát hiện ra rằng đó là thời gian đào tạo kéo dài cho các ngôn ngữ pairings liên quan đến tiếng Đức đã làm cho sự cân bằng nghiêng về tiêu thụ carbon cao hơn. Mặc dù một số ngôn ngữ pairings khác, chẳng hạn như tiếng Anh > tiếng Pháp và tiếng Pháp > tiếng Anh có mức tiêu thụ carbon cao hơn, chúng được đào tạo nhanh hơn và giải quyết dễ dàng hơn, với những cơn tiêu thụ này được các nhà nghiên cứu mô tả là ‘tương đối không đáng kể’ so với tiêu thụ của các ngôn ngữ pairings bao gồm tiếng Đức.

Phân tích các ngôn ngữ pairings theo phát thải mã hóa / giải mã carbon.
Các nhà nghiên cứu kết luận:
‘Phát hiện của chúng tôi cung cấp chỉ dẫn rõ ràng rằng một số ngôn ngữ pairings tiêu thụ carbon nhiều hơn để đào tạo so với những ngôn ngữ khác, một xu hướng này được duy trì trên các kiến trúc khác nhau.’
Họ tiếp tục:
‘Tuy nhiên, vẫn còn những câu hỏi chưa được trả lời về lý do tại sao có sự khác biệt rõ ràng như vậy trong việc đào tạo các mô hình cho một ngôn ngữ pairings cụ thể so với một ngôn ngữ pairings khác, và liệu các kiến trúc khác có thể phù hợp hơn cho các ngôn ngữ pairings tiêu thụ carbon cao này, và tại sao điều này sẽ đúng nếu đúng.’
Bài báo nhấn mạnh rằng lý do cho sự chênh lệch tiêu thụ carbon giữa các mô hình đào tạo không hoàn toàn rõ ràng. Họ dự kiến sẽ phát triển dòng nghiên cứu này với các ngôn ngữ không dựa trên Latin.
1.20pm GMT+2 – Lỗi văn bản được sửa.












