Connect with us

การปฏิวัติ AI ด้วย ReALM ของ Apple: อนาคตของ Intelligent Assistants

ปัญญาประดิษฐ์

การปฏิวัติ AI ด้วย ReALM ของ Apple: อนาคตของ Intelligent Assistants

mm
Apple’s New ReALM AI Model

ในภูมิทัศน์ของปัญญาประดิษฐ์ที่เปลี่ยนแปลงอยู่ตลอดเวลา Apple ได้พัฒนาแนวทางที่เป็นนวัตกรรมใหม่ซึ่งอาจเปลี่ยนแปลงวิธีการที่เราสื่อสารกับ iPhone ของเราได้ ReALM หรือ Reference Resolution as Language Modeling เป็นโมเดล AI ที่สัญญาว่าจะนำมาซึ่งความตระหนักรู้ตามบริบทและความช่วยเหลือที่ราบรื่น

ในขณะที่โลกเทคโนโลยีกำลังตื่นเต้นกับ OpenAI’s GPT-4 และโมเดลภาษาขนาดใหญ่อื่นๆ (LLMs) ReALM ของ Apple แสดงถึงการเปลี่ยนแปลงในแนวคิด – การย้ายจากความพึ่งพา AI บนคลาวด์ไปสู่แนวทางบนอุปกรณ์ที่เป็นส่วนตัวมากขึ้น เป้าหมายคือการสร้าง Intelligent Assistant ที่เข้าใจคุณ โลกของคุณ และพื้นผิวที่ซับซ้อนของการโต้ตอบดิจิทัลประจำวันของคุณ

ที่ใจกลางของ ReALM คือความสามารถในการแก้ไขอ้างอิง – คำสรรพนามที่คลุมเครือ เช่น “มัน” “พวกเขา” หรือ “สิ่งนั้น” ที่มนุษย์สามารถนำทางได้ด้วยความช่วยเหลือจากสัญญาณบริบท สำหรับ AI Assistants นี่เป็นอุปสรรคมานาน ซึ่งนำไปสู่ความเข้าใจผิดที่น่าหงุดหงิดและประสบการณ์ของผู้ใช้ที่ไม่สอดคล้องกัน

ลองนึกถึงสถานการณ์ที่คุณขอให้ Siri “ค้นหาสูตรอาหารที่มีส่วนผสมจากตู้เย็นของฉัน แต่ไม่ใส่เห็ด – ฉันไม่ชอบสิ่งนั้น” ด้วย ReALM iPhone ของคุณจะไม่เพียงแต่เข้าใจอ้างอิงถึงข้อมูลบนหน้าจอ (สิ่งที่อยู่ในตู้เย็น) แต่ยังจดจำความชอบส่วนบุคคลของคุณ (ไม่ชอบเห็ด) และบริบทที่กว้างขึ้นในการค้นหาสูตรอาหารที่เหมาะสมกับพารามิเตอร์เหล่านั้น

ระดับนี้ของความตระหนักรู้ตามบริบทเป็นขั้นตอนกระโดดจากแนวทางการค้นหาคำสำคัญของ AI Assistants ส่วนใหญ่ โดยการฝึกอบรม LLMs เพื่อแก้ไขอ้างอิงอย่างราบรื่นข้ามสามโดเมนหลัก – การสนทนา บนหน้าจอ และพื้นหลัง – ReALM มีเป้าหมายที่จะสร้าง Intelligent Digital Companion ที่รู้สึกน้อยกว่า AI Voice Assistant ที่เป็นหุ่นยนต์ และมากขึ้นเหมือนการขยายความคิดของคุณเอง

โดเมนการสนทนา: การจดจำสิ่งที่ผ่านมา

AI การสนทนา ReALM จัดการกับความท้าทายที่ยาวนาน: การรักษาความสอดคล้องและความจำข้ามการโต้ตอบหลายครั้ง ด้วยความสามารถในการแก้ไขอ้างอิงภายในการสนทนาที่กำลังดำเนินอยู่ ReALM อาจส่งมอบสัญญาที่จะให้การโต้ตอบที่เป็นธรรมชาติและไปมากับ AI Assistant ของคุณ

ลองนึกถึงสถานการณ์ที่คุณขอให้ Siri “เตือนฉันให้ซื้อตั๋วสำหรับวันหยุดของฉันเมื่อฉันได้รับเงินในวันศุกร์” ด้วย ReALM Siri จะไม่เพียงแต่เข้าใจบริบทของการวางแผนการเดินทางของคุณ (อาจมาจากการสนทนาหรือข้อมูลบนหน้าจอก่อนหน้านี้) แต่ยังมีความตระหนักรู้ที่จะเชื่อมต่อ “ได้รับเงิน” กับวันจ่ายเงินปกติของคุณ

ระดับนี้ของความฉลาดในการสนทนาเหมือนกับการกระโดดไปข้างหน้าอย่างแท้จริง ทำให้สามารถมีการสนทนาที่ราบรื่นหลายครั้งโดยไม่ต้องเสียความอดทนในการอธิบายบริบทซ้ำหรือพูดซ้ำ

โดเมนบนหน้าจอ: การให้ AI Assistant มีตา

ด้านที่เป็นนวัตกรรมที่สุดของ ReALM อยู่ในความสามารถในการแก้ไขอ้างอิงถึงหน่วยบนหน้าจอ – ขั้นตอนที่สำคัญในการสร้างประสบการณ์การใช้งานที่ไม่ต้องใช้มือและขับเคลื่อนด้วยเสียง

การวิจัยของ Apple พูดถึงเทคนิคใหม่ในการเข้ารหัสข้อมูลภาพจากหน้าจอของคุณให้อยู่ในรูปแบบที่ LLMs สามารถประมวลผลได้ โดยการสร้างการแสดงภาพหน้าจอของคุณใหม่ในรูปแบบข้อความ ReALM สามารถ “เห็น” และเข้าใจความสัมพันธ์เชิงพื้นที่ระหว่างองค์ประกอบต่างๆ บนหน้าจอ

ลองนึกถึงสถานการณ์ที่คุณกำลังมองหาลิสต์ร้านอาหารและขอให้ Siri “ให้ทางไปที่ร้านที่อยู่บนถนน Main” ด้วย ReALM iPhone ของคุณจะไม่เพียงแต่เข้าใจอ้างอิงถึงที่ตั้งเฉพาะ แต่ยังเชื่อมโยงมันกับหน่วยบนหน้าจอที่เกี่ยวข้อง – รายการร้านอาหารที่ตรงกับการอธิบายนั้น

ระดับนี้ของความเข้าใจภาพเปิดโลกของความเป็นไปได้ ตั้งแต่การดำเนินการอ้างอิงภายในแอปและเว็บไซต์ไปจนถึงการรวมกับอินเทอร์เฟซ AR ในอนาคต และแม้กระทั่งการรับรู้และตอบสนองต่อวัตถุและสภาพแวดล้อมในโลกแห่งความเป็นจริงผ่านกล้องของอุปกรณ์

การวิจัยเกี่ยวกับ ReALM ของ Apple พูดถึงรายละเอียดอ่อนๆ ของวิธีการที่ระบบเข้ารหัสหน่วยบนหน้าจอและแก้ไขอ้างอิงข้ามบริบทต่างๆ นี่คือคำอธิบายที่เรียบง่ายเกี่ยวกับอัลกอริทึมและตัวอย่างที่ให้ไว้ในเอกสาร:

  1. การเข้ารหัสหน่วยบนหน้าจอ: เอกสารวิจัยสำรวจกลยุทธ์ต่างๆ ในการเข้ารหัสองค์ประกอบบนหน้าจอในรูปแบบข้อความที่ LLM สามารถประมวลผลได้ วิธีการหนึ่งเกี่ยวข้องกับการจัดกลุ่มวัตถุโดยรอบตามความใกล้ชิดเชิงพื้นที่และการสร้างคำสั่งซึ่งรวมถึงวัตถุเหล่านี้อย่างไกล่เกลี่ย อย่างไรก็ตาม วิธีนี้อาจนำไปสู่คำสั่งที่ยาวเกินไปเมื่อจำนวนหน่วยเพิ่มขึ้น

แนวทางสุดท้ายที่นักวิจัยใช้คือการวิเคราะห์หน้าจอจากบนลงล่างและซ้ายไปขวา โดยแสดงการวางผังในแบบข้อความ นี่ทำได้โดยใช้อัลกอริทึม 2 ซึ่งจัดเรียงวัตถุบนหน้าจอตามพิกัดศูนย์กลาง กำหนดระดับแนวตั้งโดยการรวมวัตถุภายในระยะห่างที่กำหนด และสร้างการวิเคราะห์หน้าจอโดยการเชื่อมต่อระดับเหล่านี้ด้วยแท็บที่แยกวัตถุในบรรทัดเดียวกัน

โดยการฉีดหน่วยที่เกี่ยวข้อง (หมายเลขโทรศัพท์ในกรณีนี้) ลงในรูปแบบข้อความ LLM สามารถเข้าใจบริบทบนหน้าจอและแก้ไขอ้างอิงตามนั้น

  1. ตัวอย่างของการแก้ไขอ้างอิง: เอกสารวิจัยให้ตัวอย่างหลายอย่างเพื่อแสดงความสามารถของ ReALM ในการแก้ไขอ้างอิงข้ามบริบทต่างๆ:

a. อ้างอิงการสนทนา: สำหรับการขอเช่น “Siri, ค้นหาสูตรอาหารที่มีส่วนผสมจากตู้เย็นของฉัน แต่ไม่ใส่เห็ด – ฉันไม่ชอบสิ่งนั้น” ReALM สามารถเข้าใจบริบทบนหน้าจอ (สิ่งที่อยู่ในตู้เย็น) บริบทการสนทนา (การค้นหาสูตรอาหาร) และความชอบส่วนบุคคลของคุณ (ไม่ชอบเห็ด)

b. อ้างอิงพื้นหลัง: ในตัวอย่าง “Siri, เล่นเพลงที่เล่นที่ซูเปอร์มาร์เก็ตก่อนหน้านี้” ReALM สามารถจับและระบุชิ้นส่วนเสียงแอมเบียนต์เพื่อแก้ไขอ้างอิงถึงเพลงนั้น

c. อ้างอิงบนหน้าจอ: สำหรับการขอเช่น “Siri, เตือนฉันให้ซื้อตั๋วสำหรับวันหยุดเมื่อฉันได้รับเงินในวันศุกร์” ReALM สามารถรวมข้อมูลจากกิจวัตรของคุณ (วันจ่ายเงิน) การสนทนาหรือเว็บไซต์บนหน้าจอ (การวางแผนการเดินทาง) และปฏิทินเพื่อเข้าใจและดำเนินการตามคำขอ

ตัวอย่างเหล่านี้แสดงให้เห็นถึงความสามารถของ ReALM ในการแก้ไขอ้างอิงข้ามบริบทการสนทนา บนหน้าจอ และพื้นหลัง ทำให้เกิดการโต้ตอบที่เป็นธรรมชาติและราบรื่นมากขึ้นกับ Intelligent Assistants

โดเมนพื้นหลัง

การขยายออกไปนอกเหนือจากบริบทการสนทนาและบนหน้าจอ ReALM ยังสำรวจความสามารถในการแก้ไขอ้างอิงถึงหน่วยพื้นหลัง – เหตุการณ์และกระบวนการที่มักจะไม่ถูกสังเกตโดย AI Assistants ปัจจุบัน

ลองนึกถึงสถานการณ์ที่คุณขอให้ Siri “เล่นเพลงที่เล่นที่ซูเปอร์มาร์เก็ตก่อนหน้านี้” ด้วย ReALM iPhone ของคุณอาจจับและระบุชิ้นส่วนเสียงแอมเบียนต์ได้ ทำให้ Siri สามารถดึงและเล่นเพลงที่คุณคิดถึงได้อย่างราบรื่น

ระดับนี้ของความตระหนักรู้พื้นหลังรู้สึกเหมือนเป็นขั้นตอนแรกในการสร้าง AI Assistant ที่ตระหนักรู้บริบทและเป็นส่วนหนึ่งของชีวิตประจำวัน – คู่หูที่ไม่เพียงแต่เข้าใจคำพูดของคุณ แต่ยังเข้าใจพื้นผิวที่ซับซ้อนของประสบการณ์ในชีวิตประจำวันของคุณ

สัญญาของ AI บนอุปกรณ์: ความเป็นส่วนตัวและความเป็นส่วนบุคคล

ในขณะที่ความสามารถของ ReALM นั้นน่าประทับใจอย่างไม่ต้องสงสัย เป้าหมายที่สำคัญที่สุดอาจอยู่ในความมุ่งมั่นของ Apple ที่มีต่อ AI บนอุปกรณ์และความเป็นส่วนตัวของผู้ใช้

ไม่เหมือนกับโมเดล AI บนคลาวด์ที่ต้องส่งข้อมูลของผู้ใช้ไปยังเซิร์ฟเวอร์ระยะไกลเพื่อประมวลผล ReALM ได้รับการออกแบบให้ทำงานบน iPhone หรืออุปกรณ์ Apple ของคุณโดยสมบูรณ์ นี่ไม่เพียงแต่ตอบสนองความกังวลเกี่ยวกับความเป็นส่วนตัว แต่ยังเปิดโอกาสใหม่ๆ สำหรับการช่วยเหลือ AI ที่เข้าใจและปรับตัวให้เข้ากับคุณเป็นรายบุคคล

โดยการเรียนรู้โดยตรงจากข้อมูลบนอุปกรณ์ของคุณ – การสนทนา รูปแบบการใช้แอป และแม้กระทั่งอินพุตสิ่งแวดล้อม – ReALM อาจสร้าง Intelligent Assistant ที่ปรับให้เหมาะสมกับความต้องการ ความชอบ และบริบทประจำวันของคุณเป็นรายบุคคล

ระดับนี้ของการปรับให้เหมาะสมรู้สึกเหมือนการเปลี่ยนแปลงอย่างมากจากแนวทางแบบหนึ่งขนาดที่เหมาะกับทุกคนของ AI Assistants ปัจจุบัน ซึ่งมักจะดิ้นรนในการปรับตัวให้เข้ากับความพิเศษเฉพาะบุคคลและบริบท

ReALM-250M model ได้รับผลลัพธ์ที่น่าประทับใจ:

    • ความเข้าใจการสนทนา: 97.8
    • ความเข้าใจงานสังเคราะห์: 99.8
    • ประสิทธิภาพงานบนหน้าจอ: 90.6
    • การจัดการโดเมนที่ไม่เคยเห็น: 97.2

ข้อพิจารณาทางจริยธรรม

แน่นอนว่าด้วยระดับของการปรับให้เหมาะสมและความตระหนักรู้ตามบริบทที่สูงเช่นนี้ มาเป็นข้อพิจารณาทางจริยธรรมที่สำคัญเกี่ยวกับความเป็นส่วนตัว ความโปร่งใส และความเสี่ยงของระบบ AI ที่จะใช้หรือหลอกลวงพฤติกรรมของผู้ใช้

นักวิจัยของ Apple ตระหนักถึงความตึงเครียด này โดยยอมรับในเอกสารวิจัยถึงความจำเป็นในการสร้างสมดุลที่ระมัดระวังระหว่างการนำเสนอประสบการณ์ AI ที่เป็นส่วนตัวและเป็นประโยชน์จริงๆ กับการเคารพความเป็นส่วนตัวและความเป็นอิสระของผู้ใช้

ความท้าทายนี้ไม่เฉพาะเจาะจงกับ Apple หรือ ReALM แต่เป็นการพูดคุยที่อุตสาหกรรมเทคโนโลยีจะต้องเผชิญเมื่อระบบ AI มีความซับซ้อนและรวมเข้ากับชีวิตประจำวันมากขึ้น

สู่ประสบการณ์ AI ที่ฉลาดและเป็นธรรมชาติมากขึ้น

ในขณะที่ Apple ยังคงผลักดันขอบเขตของ AI บนอุปกรณ์ด้วยโมเดลอย่าง ReALM สัญญาของ Intelligent Assistant ที่แท้จริงและตระหนักรู้ตามบริบทรู้สึกใกล้กว่าที่เคย

ลองนึกถึงโลกที่ Siri (หรือชื่อ AI Assistant ใดๆ ในอนาคต) รู้สึกน้อยกว่าเสียงที่ไม่มีตัวตนจากคลาวด์ และมากขึ้นเหมือนการขยายความคิดของคุณเอง – คู่หูที่ไม่เพียงแต่เข้าใจคำพูดของคุณ แต่ยังเข้าใจพื้นผิวที่ซับซ้อนของชีวิตดิจิทัลของคุณ การใช้งานประจำวัน ความชอบและบริบทเฉพาะของคุณ

ตั้งแต่การดำเนินการอ้างอิงภายในแอปและเว็บไซต์ไปจนถึงการคาดการณ์ความต้องการของคุณตามที่ตั้ง กิจกรรม และอินพุตสิ่งแวดล้อม ReALM แสดงถึงขั้นตอนสำคัญต่อประสบการณ์ AI ที่ราบรื่นและเป็นธรรมชาติมากขึ้น ซึ่งทำให้เส้นแบ่งระหว่างโลกดิจิทัลและโลกแห่งความเป็นจริงพร่ามัว

แน่นอนว่าการทำให้ความฝันนี้เป็นจริงต้องใช้มากกว่าความก้าวหน้าทางเทคนิค – จะต้องใช้แนวทางที่รอบคอบและจริยธรรมในการพัฒนา AI ที่ให้ความสำคัญกับความเป็นส่วนตัว ความโปร่งใส และความเป็นอิสระของผู้ใช้

ในขณะที่ Apple ยังคงปรับปรุงและขยายความสามารถของ ReALM โลกเทคโนโลยีกำลังจับตามองอย่างตื่นตัว เพื่อดูว่าโมเดล AI นี้จะกำหนดอนาคตของ Intelligent Assistants และเปิดประตูสู่ยุคใหม่ของการคำนวณที่ปรับให้เหมาะสมและตระหนักรู้ตามบริบทอย่างแท้จริงหรือไม่

ไม่ว่า ReALM จะบรรลุผลตามสัญญาที่จะเอาชนะแม้กระทั่ง GPT-4 ที่ทรงพลังยังคงต้องรอดู แต่สิ่งหนึ่งที่แน่นอนคือยุคของ AI Assistants ที่เข้าใจเรา – คำพูดของเรา โลกของเรา และพื้นผิวที่ซับซ้อนของการโต้ตอบดิจิทัลประจำวันของเรา – ได้เริ่มต้นขึ้นแล้ว และนวัตกรรมล่าสุดของ Apple อาจเป็นผู้นำในความปฏิวัตินี้

ฉันใช้เวลา 5 ปีที่ผ่านมาในการศึกษาและเรียนรู้เกี่ยวกับโลกของ Machine Learning และ Deep Learning อย่างลึกซึ้ง ความรู้และความเชี่ยวชาญของฉันทำให้ฉันได้เข้าร่วมในโครงการพัฒนาซอฟต์แวร์มากกว่า 50 โครงการที่มีความหลากหลาย โดยมุ่งเน้นไปที่ AI/ML ความอยากรู้อยากเห็นของฉันยังดึงดูดให้ฉันสนใจไปที่ Natural Language Processing ซึ่งเป็นสาขาที่ฉันกระตือรือร้นที่จะสำรวจเพิ่มเติม