ปัญญาประดิษฐ์
อัตราการปล่อยคาร์บอนสูงของโมเดลการแปลภาษาเยอรมันแบบอัตโนมัติ

การวิจัยใหม่เกี่ยวกับรอยเท้าคาร์บอนที่สร้างขึ้นโดยโมเดลการแปลภาษาโดยใช้การเรียนรู้ของเครื่องบ่งชี้ว่าภาษาเยอรมันอาจเป็นภาษาที่มีการปล่อยคาร์บอนสูงสุดในการฝึกอบรม แม้ว่าจะไม่ชัดเจนว่าทำไมก็ตาม รายงานใหม่นี้มีจุดมุ่งหมายเพื่อเปิดโอกาสในการวิจัยเพิ่มเติมเกี่ยวกับวิธีการฝึกอบรม AI ที่มีประสิทธิภาพด้านคาร์บอนมากขึ้น ในบริบทของการรับรู้ที่เพิ่มขึ้นเกี่ยวกับระดับที่ระบบการเรียนรู้ของเครื่องใช้ไฟฟ้า
รายงานที่ตีพิมพ์เป็นเอกสารก่อนพิมพ์ในชื่อ Curb Your Carbon Emissions: Benchmarking Carbon Emissions in Machine Translation มาจากนักวิจัยที่สถาบันเทคโนโลยีแมนิปาลของอินเดีย
ผู้เขียนทดสอบเวลาในการฝึกอบรมและคำนวณค่าปล่อยคาร์บอนสำหรับโมเดลการแปลภาษาหลายแบบ และพบ ‘ความแตกต่างที่น่าสังเกต’ ระหว่างเวลาที่ใช้ในการแปลคู่ภาษาที่มีการปล่อยคาร์บอนสูงสุดและคู่ภาษาที่มีการปล่อยคาร์บันต่ำสุด

ค่าเฉลี่ยของการปล่อยคาร์บอนที่ปล่อยออกมาในช่วง 10 เอพพอคของการฝึกอบรม Source: https://arxiv.org/pdf/2109.12584.pdf
รายงานพบว่าคู่ภาษาที่มีการปล่อยคาร์บันต่ำสุดในการฝึกอบรมคือ ภาษาอังกฤษ>ฝรั่งเศส, ฝรั่งเศส>อังกฤษ และในทางกลับกัน คือ เยอรมัน>อังกฤษ ในขณะที่ภาษาเยอรมันปรากฏในคู่ภาษาที่มีการปล่อยคาร์บอนสูงสุด: ฝรั่งเศส>เยอรมัน, อังกฤษ>เยอรมัน และ เยอรมัน>ฝรั่งเศส
ดอกเบี้ยทบต้น
ผลการวิจัยชี้ให้เห็นว่าความหลากหลายทางพจน์ ‘มีความสัมพันธ์โดยตรงกับเวลาที่ใช้ในการฝึกอบรมเพื่อให้ได้ระดับการทำงานที่เหมาะสม’ และทราบว่าภาษาเยอรมันมีคะแนนความหลากหลายทางพจน์สูงสุดในบรรดาภาษาที่ทดสอบสามภาษา โดยประมาณจาก อัตราส่วนประเภท-โทเคน (TTR) – การวัดขนาดของคำศัพท์ตามความยาวของข้อความ
การเพิ่มความต้องการในการประมวลผลภาษาเยอรมันในโมเดลการแปลไม่ได้สะท้อนให้เห็นในข้อมูลที่ใช้ในการทดลอง ในความเป็นจริง โทเค็นภาษาเยอรมันที่สร้างขึ้นจากข้อมูลที่มีจำนวน (299445) น้อยกว่าภาษาอังกฤษ (320108) และน้อยกว่าภาษาฝรั่งเศส (335917) มาก

ความท้าทายจากมุมมองของการประมวลผลภาษาธรรมชาติ (NLP) คือการแยกคำประกอบภาษาเยอรมันออกเป็นคำที่ประกอบขึ้น NLP มักต้องทำสิ่งนี้สำหรับภาษาเยอรมันโดยไม่มีคำใบ้ทางไวยกรณ์หรือบริบทที่สามารถพบได้ในภาษาที่มีคะแนน TTR ต่ำกว่า เช่น ภาษาอังกฤษ การประมวลผลนี้เรียกว่า การแยกคำประกอบ หรือ การแยกคำ
ภาษาเยอรมันมีคำที่ยาวที่สุดในโลก แม้ว่าในปี 2013 จะ เสียการยอมรับอย่างเป็นทางการ ของคำที่มีตัวอักษร 65 ตัวที่เคยเป็นคำที่ยาวที่สุด ซึ่งยาวพอที่จะต้องมีบรรทัดใหม่ในบทความนี้:
Rindfleischetikettierungsueberwachungsaufgabenuebertragungsgesetz
คำนี้หมายถึงกฎหมายที่มอบหมายการตรวจสอบฉลากเนื้อสัตว์ แต่สูญเสียการมีอยู่เนื่องจากการเปลี่ยนแปลงข้อบังคับของยุโรปในปีนั้น โดยยอมรับตำแหน่งให้กับคำอื่นๆ เช่น ‘ม่ายของกัปตันเรือกลเดินเรือดานูบ’ (49 ตัวอักษร):
Donaudampfschifffahrtsgesellschaftskapitaenswitwe
โดยทั่วไป โครงสร้างไวยกรณ์ของภาษาเยอรมันต้องการการเปลี่ยนแปลงจากสมมติฐานเกี่ยวกับลำดับคำที่เป็นรากฐานของแนวปฏิบัติ NLP ในหลายภาษาในยุโรป โดยมีเฟรมเวิร์ก NLP ที่ได้รับความนิยม (spaCY) ที่ตั้งอยู่ในเบอร์ลิน โดยใช้ภาษาเยอรมันเป็นภาษาแม่ ในปี 2016

การแมปกันระหว่างคำในภาษาเยอรมันและภาษาอังกฤษ Source: https://explosion.ai/blog/german-model
ข้อมูลและการทดสอบ
สำหรับข้อมูลที่ใช้ในการทดลอง นักวิจัยใช้ ชุดข้อมูล Multi30k ซึ่งมีตัวอย่าง 30,000 ตัวอย่างในภาษาฝรั่งเศส เยอรมัน และอังกฤษ
โมเดลแรกที่นักวิจัยใช้คือ Convolutional Sequence to Sequence (ConvSeq) ของ Facebook AI ในปี 2017 ซึ่งเป็นเครือข่ายประสาทที่มีเลเยอร์เชิงการคำนวณ แต่ไม่มีหน่วยเกิดซ้ำ และใช้ฟิลเตอร์เพื่ออนุมานคุณลักษณะจากข้อความ
วิธีการที่สองที่ใช้คือโครงสร้าง Transformers ของ Google ในปี 2017 ซึ่งใช้เลเยอร์เชิงเส้น กลไกการให้ความสนใจ และการปรับมาตรฐาน
การทดลองดำเนินการบน Google Colab โดยใช้ Tesla K80 GPU โดยใช้ BLEU (Bilingual Evaluation Understudy) เป็นมาตรการประเมิน และ CodeCarbon Machine Learning Emissions Calculator โดยฝึกข้อมูลในช่วง 10 เอพพอค
ผลการวิจัย
นักวิจัยพบว่าการฝึกอบรมคู่ภาษาที่เกี่ยวข้องกับภาษาเยอรมันใช้เวลานานกว่า ซึ่งเป็นสาเหตุที่ทำให้เกิดการปล่อยคาร์บอนสูง แม้ว่าคู่ภาษาอื่นๆ เช่น อังกฤษ>ฝรั่งเศส และ ฝรั่งเศส>อังกฤษ จะมีการปล่อยคาร์บอนสูงกว่า แต่ก็ฝึกอบรมได้เร็วขึ้นและแก้ไขได้ง่ายกว่า

การวิเคราะห์คู่ภาษาโดยการปล่อยคาร์บอนของตัวเข้ารหัส-ตัวถอดรหัส
นักวิจัยสรุป:
‘ผลการวิจัยของเราแสดงให้เห็นว่าคู่ภาษาบางคู่มีการปล่อยคาร์บอนสูงกว่าคู่อื่นๆ ซึ่งเป็นแนวโน้มที่เกิดขึ้นในโครงสร้างต่างๆ’
พวกเขายังคง:
‘อย่างไรก็ตาม ยังมีคำถามที่ไม่ได้รับคำตอบเกี่ยวกับเหตุผลที่มีความแตกต่างอย่างมากในการฝึกอบรมโมเดลสำหรับคู่ภาษาหนึ่งมากกว่าอีกคู่หนึ่ง และไม่ว่าโครงสร้างอื่นๆ จะเหมาะสมกว่าสำหรับคู่ภาษาที่มีการปล่อยคาร์บอนสูง และทำไมถึงเป็นเช่นนั้นหากเป็นจริง’
รายงานเน้นย้ำว่าสาเหตุของความแตกต่างในการปล่อยคาร์บอนระหว่างโมเดลการฝึกอบรมไม่ชัดเจนนัก และคาดว่าจะพัฒนาการวิจัยนี้ต่อไปกับภาษาที่ไม่ใช่ภาษาละติน
1.20pm GMT+2 – ข้อผิดพลาดข้อความถูกแก้ไข.












