ปัญญาประดิษฐ์
การปฏิวัติ AI ด้วย ReALM ของ Apple: อนาคตของ Intelligent Assistants

By
Aayush Mittal Mittal
ในภูมิทัศน์ของปัญญาประดิษฐ์ที่เปลี่ยนแปลงอยู่ตลอดเวลา Apple ได้พัฒนาแนวทางที่เป็นนวัตกรรมใหม่ซึ่งอาจเปลี่ยนแปลงวิธีการที่เราสื่อสารกับ iPhone ของเราได้ ReALM หรือ Reference Resolution as Language Modeling เป็นโมเดล AI ที่สัญญาว่าจะนำมาซึ่งความตระหนักรู้ตามบริบทและความช่วยเหลือที่ราบรื่น
ในขณะที่โลกเทคโนโลยีกำลังตื่นเต้นกับ OpenAI’s GPT-4 และโมเดลภาษาขนาดใหญ่อื่นๆ (LLMs) ReALM ของ Apple แสดงถึงการเปลี่ยนแปลงในแนวคิด – การย้ายจากความพึ่งพา AI บนคลาวด์ไปสู่แนวทางบนอุปกรณ์ที่เป็นส่วนตัวมากขึ้น เป้าหมายคือการสร้าง Intelligent Assistant ที่เข้าใจคุณ โลกของคุณ และพื้นผิวที่ซับซ้อนของการโต้ตอบดิจิทัลประจำวันของคุณ
ที่ใจกลางของ ReALM คือความสามารถในการแก้ไขอ้างอิง – คำสรรพนามที่คลุมเครือ เช่น “มัน” “พวกเขา” หรือ “สิ่งนั้น” ที่มนุษย์สามารถนำทางได้ด้วยความช่วยเหลือจากสัญญาณบริบท สำหรับ AI Assistants นี่เป็นอุปสรรคมานาน ซึ่งนำไปสู่ความเข้าใจผิดที่น่าหงุดหงิดและประสบการณ์ของผู้ใช้ที่ไม่สอดคล้องกัน
ลองนึกถึงสถานการณ์ที่คุณขอให้ Siri “ค้นหาสูตรอาหารที่มีส่วนผสมจากตู้เย็นของฉัน แต่ไม่ใส่เห็ด – ฉันไม่ชอบสิ่งนั้น” ด้วย ReALM iPhone ของคุณจะไม่เพียงแต่เข้าใจอ้างอิงถึงข้อมูลบนหน้าจอ (สิ่งที่อยู่ในตู้เย็น) แต่ยังจดจำความชอบส่วนบุคคลของคุณ (ไม่ชอบเห็ด) และบริบทที่กว้างขึ้นในการค้นหาสูตรอาหารที่เหมาะสมกับพารามิเตอร์เหล่านั้น
ระดับนี้ของความตระหนักรู้ตามบริบทเป็นขั้นตอนกระโดดจากแนวทางการค้นหาคำสำคัญของ AI Assistants ส่วนใหญ่ โดยการฝึกอบรม LLMs เพื่อแก้ไขอ้างอิงอย่างราบรื่นข้ามสามโดเมนหลัก – การสนทนา บนหน้าจอ และพื้นหลัง – ReALM มีเป้าหมายที่จะสร้าง Intelligent Digital Companion ที่รู้สึกน้อยกว่า AI Voice Assistant ที่เป็นหุ่นยนต์ และมากขึ้นเหมือนการขยายความคิดของคุณเอง
โดเมนการสนทนา: การจดจำสิ่งที่ผ่านมา
AI การสนทนา ReALM จัดการกับความท้าทายที่ยาวนาน: การรักษาความสอดคล้องและความจำข้ามการโต้ตอบหลายครั้ง ด้วยความสามารถในการแก้ไขอ้างอิงภายในการสนทนาที่กำลังดำเนินอยู่ ReALM อาจส่งมอบสัญญาที่จะให้การโต้ตอบที่เป็นธรรมชาติและไปมากับ AI Assistant ของคุณ
ลองนึกถึงสถานการณ์ที่คุณขอให้ Siri “เตือนฉันให้ซื้อตั๋วสำหรับวันหยุดของฉันเมื่อฉันได้รับเงินในวันศุกร์” ด้วย ReALM Siri จะไม่เพียงแต่เข้าใจบริบทของการวางแผนการเดินทางของคุณ (อาจมาจากการสนทนาหรือข้อมูลบนหน้าจอก่อนหน้านี้) แต่ยังมีความตระหนักรู้ที่จะเชื่อมต่อ “ได้รับเงิน” กับวันจ่ายเงินปกติของคุณ
ระดับนี้ของความฉลาดในการสนทนาเหมือนกับการกระโดดไปข้างหน้าอย่างแท้จริง ทำให้สามารถมีการสนทนาที่ราบรื่นหลายครั้งโดยไม่ต้องเสียความอดทนในการอธิบายบริบทซ้ำหรือพูดซ้ำ
โดเมนบนหน้าจอ: การให้ AI Assistant มีตา
ด้านที่เป็นนวัตกรรมที่สุดของ ReALM อยู่ในความสามารถในการแก้ไขอ้างอิงถึงหน่วยบนหน้าจอ – ขั้นตอนที่สำคัญในการสร้างประสบการณ์การใช้งานที่ไม่ต้องใช้มือและขับเคลื่อนด้วยเสียง
การวิจัยของ Apple พูดถึงเทคนิคใหม่ในการเข้ารหัสข้อมูลภาพจากหน้าจอของคุณให้อยู่ในรูปแบบที่ LLMs สามารถประมวลผลได้ โดยการสร้างการแสดงภาพหน้าจอของคุณใหม่ในรูปแบบข้อความ ReALM สามารถ “เห็น” และเข้าใจความสัมพันธ์เชิงพื้นที่ระหว่างองค์ประกอบต่างๆ บนหน้าจอ
ลองนึกถึงสถานการณ์ที่คุณกำลังมองหาลิสต์ร้านอาหารและขอให้ Siri “ให้ทางไปที่ร้านที่อยู่บนถนน Main” ด้วย ReALM iPhone ของคุณจะไม่เพียงแต่เข้าใจอ้างอิงถึงที่ตั้งเฉพาะ แต่ยังเชื่อมโยงมันกับหน่วยบนหน้าจอที่เกี่ยวข้อง – รายการร้านอาหารที่ตรงกับการอธิบายนั้น
ระดับนี้ของความเข้าใจภาพเปิดโลกของความเป็นไปได้ ตั้งแต่การดำเนินการอ้างอิงภายในแอปและเว็บไซต์ไปจนถึงการรวมกับอินเทอร์เฟซ AR ในอนาคต และแม้กระทั่งการรับรู้และตอบสนองต่อวัตถุและสภาพแวดล้อมในโลกแห่งความเป็นจริงผ่านกล้องของอุปกรณ์
การวิจัยเกี่ยวกับ ReALM ของ Apple พูดถึงรายละเอียดอ่อนๆ ของวิธีการที่ระบบเข้ารหัสหน่วยบนหน้าจอและแก้ไขอ้างอิงข้ามบริบทต่างๆ นี่คือคำอธิบายที่เรียบง่ายเกี่ยวกับอัลกอริทึมและตัวอย่างที่ให้ไว้ในเอกสาร:
- การเข้ารหัสหน่วยบนหน้าจอ: เอกสารวิจัยสำรวจกลยุทธ์ต่างๆ ในการเข้ารหัสองค์ประกอบบนหน้าจอในรูปแบบข้อความที่ LLM สามารถประมวลผลได้ วิธีการหนึ่งเกี่ยวข้องกับการจัดกลุ่มวัตถุโดยรอบตามความใกล้ชิดเชิงพื้นที่และการสร้างคำสั่งซึ่งรวมถึงวัตถุเหล่านี้อย่างไกล่เกลี่ย อย่างไรก็ตาม วิธีนี้อาจนำไปสู่คำสั่งที่ยาวเกินไปเมื่อจำนวนหน่วยเพิ่มขึ้น
แนวทางสุดท้ายที่นักวิจัยใช้คือการวิเคราะห์หน้าจอจากบนลงล่างและซ้ายไปขวา โดยแสดงการวางผังในแบบข้อความ นี่ทำได้โดยใช้อัลกอริทึม 2 ซึ่งจัดเรียงวัตถุบนหน้าจอตามพิกัดศูนย์กลาง กำหนดระดับแนวตั้งโดยการรวมวัตถุภายในระยะห่างที่กำหนด และสร้างการวิเคราะห์หน้าจอโดยการเชื่อมต่อระดับเหล่านี้ด้วยแท็บที่แยกวัตถุในบรรทัดเดียวกัน
โดยการฉีดหน่วยที่เกี่ยวข้อง (หมายเลขโทรศัพท์ในกรณีนี้) ลงในรูปแบบข้อความ LLM สามารถเข้าใจบริบทบนหน้าจอและแก้ไขอ้างอิงตามนั้น
- ตัวอย่างของการแก้ไขอ้างอิง: เอกสารวิจัยให้ตัวอย่างหลายอย่างเพื่อแสดงความสามารถของ ReALM ในการแก้ไขอ้างอิงข้ามบริบทต่างๆ:
a. อ้างอิงการสนทนา: สำหรับการขอเช่น “Siri, ค้นหาสูตรอาหารที่มีส่วนผสมจากตู้เย็นของฉัน แต่ไม่ใส่เห็ด – ฉันไม่ชอบสิ่งนั้น” ReALM สามารถเข้าใจบริบทบนหน้าจอ (สิ่งที่อยู่ในตู้เย็น) บริบทการสนทนา (การค้นหาสูตรอาหาร) และความชอบส่วนบุคคลของคุณ (ไม่ชอบเห็ด)
b. อ้างอิงพื้นหลัง: ในตัวอย่าง “Siri, เล่นเพลงที่เล่นที่ซูเปอร์มาร์เก็ตก่อนหน้านี้” ReALM สามารถจับและระบุชิ้นส่วนเสียงแอมเบียนต์เพื่อแก้ไขอ้างอิงถึงเพลงนั้น
c. อ้างอิงบนหน้าจอ: สำหรับการขอเช่น “Siri, เตือนฉันให้ซื้อตั๋วสำหรับวันหยุดเมื่อฉันได้รับเงินในวันศุกร์” ReALM สามารถรวมข้อมูลจากกิจวัตรของคุณ (วันจ่ายเงิน) การสนทนาหรือเว็บไซต์บนหน้าจอ (การวางแผนการเดินทาง) และปฏิทินเพื่อเข้าใจและดำเนินการตามคำขอ
ตัวอย่างเหล่านี้แสดงให้เห็นถึงความสามารถของ ReALM ในการแก้ไขอ้างอิงข้ามบริบทการสนทนา บนหน้าจอ และพื้นหลัง ทำให้เกิดการโต้ตอบที่เป็นธรรมชาติและราบรื่นมากขึ้นกับ Intelligent Assistants
โดเมนพื้นหลัง
การขยายออกไปนอกเหนือจากบริบทการสนทนาและบนหน้าจอ ReALM ยังสำรวจความสามารถในการแก้ไขอ้างอิงถึงหน่วยพื้นหลัง – เหตุการณ์และกระบวนการที่มักจะไม่ถูกสังเกตโดย AI Assistants ปัจจุบัน
ลองนึกถึงสถานการณ์ที่คุณขอให้ Siri “เล่นเพลงที่เล่นที่ซูเปอร์มาร์เก็ตก่อนหน้านี้” ด้วย ReALM iPhone ของคุณอาจจับและระบุชิ้นส่วนเสียงแอมเบียนต์ได้ ทำให้ Siri สามารถดึงและเล่นเพลงที่คุณคิดถึงได้อย่างราบรื่น
ระดับนี้ของความตระหนักรู้พื้นหลังรู้สึกเหมือนเป็นขั้นตอนแรกในการสร้าง AI Assistant ที่ตระหนักรู้บริบทและเป็นส่วนหนึ่งของชีวิตประจำวัน – คู่หูที่ไม่เพียงแต่เข้าใจคำพูดของคุณ แต่ยังเข้าใจพื้นผิวที่ซับซ้อนของประสบการณ์ในชีวิตประจำวันของคุณ
สัญญาของ AI บนอุปกรณ์: ความเป็นส่วนตัวและความเป็นส่วนบุคคล
ในขณะที่ความสามารถของ ReALM นั้นน่าประทับใจอย่างไม่ต้องสงสัย เป้าหมายที่สำคัญที่สุดอาจอยู่ในความมุ่งมั่นของ Apple ที่มีต่อ AI บนอุปกรณ์และความเป็นส่วนตัวของผู้ใช้
ไม่เหมือนกับโมเดล AI บนคลาวด์ที่ต้องส่งข้อมูลของผู้ใช้ไปยังเซิร์ฟเวอร์ระยะไกลเพื่อประมวลผล ReALM ได้รับการออกแบบให้ทำงานบน iPhone หรืออุปกรณ์ Apple ของคุณโดยสมบูรณ์ นี่ไม่เพียงแต่ตอบสนองความกังวลเกี่ยวกับความเป็นส่วนตัว แต่ยังเปิดโอกาสใหม่ๆ สำหรับการช่วยเหลือ AI ที่เข้าใจและปรับตัวให้เข้ากับคุณเป็นรายบุคคล
โดยการเรียนรู้โดยตรงจากข้อมูลบนอุปกรณ์ของคุณ – การสนทนา รูปแบบการใช้แอป และแม้กระทั่งอินพุตสิ่งแวดล้อม – ReALM อาจสร้าง Intelligent Assistant ที่ปรับให้เหมาะสมกับความต้องการ ความชอบ และบริบทประจำวันของคุณเป็นรายบุคคล
ระดับนี้ของการปรับให้เหมาะสมรู้สึกเหมือนการเปลี่ยนแปลงอย่างมากจากแนวทางแบบหนึ่งขนาดที่เหมาะกับทุกคนของ AI Assistants ปัจจุบัน ซึ่งมักจะดิ้นรนในการปรับตัวให้เข้ากับความพิเศษเฉพาะบุคคลและบริบท
ReALM-250M model ได้รับผลลัพธ์ที่น่าประทับใจ:
-
- ความเข้าใจการสนทนา: 97.8
- ความเข้าใจงานสังเคราะห์: 99.8
- ประสิทธิภาพงานบนหน้าจอ: 90.6
- การจัดการโดเมนที่ไม่เคยเห็น: 97.2
ข้อพิจารณาทางจริยธรรม
แน่นอนว่าด้วยระดับของการปรับให้เหมาะสมและความตระหนักรู้ตามบริบทที่สูงเช่นนี้ มาเป็นข้อพิจารณาทางจริยธรรมที่สำคัญเกี่ยวกับความเป็นส่วนตัว ความโปร่งใส และความเสี่ยงของระบบ AI ที่จะใช้หรือหลอกลวงพฤติกรรมของผู้ใช้
นักวิจัยของ Apple ตระหนักถึงความตึงเครียด này โดยยอมรับในเอกสารวิจัยถึงความจำเป็นในการสร้างสมดุลที่ระมัดระวังระหว่างการนำเสนอประสบการณ์ AI ที่เป็นส่วนตัวและเป็นประโยชน์จริงๆ กับการเคารพความเป็นส่วนตัวและความเป็นอิสระของผู้ใช้
ความท้าทายนี้ไม่เฉพาะเจาะจงกับ Apple หรือ ReALM แต่เป็นการพูดคุยที่อุตสาหกรรมเทคโนโลยีจะต้องเผชิญเมื่อระบบ AI มีความซับซ้อนและรวมเข้ากับชีวิตประจำวันมากขึ้น
สู่ประสบการณ์ AI ที่ฉลาดและเป็นธรรมชาติมากขึ้น
ในขณะที่ Apple ยังคงผลักดันขอบเขตของ AI บนอุปกรณ์ด้วยโมเดลอย่าง ReALM สัญญาของ Intelligent Assistant ที่แท้จริงและตระหนักรู้ตามบริบทรู้สึกใกล้กว่าที่เคย
ลองนึกถึงโลกที่ Siri (หรือชื่อ AI Assistant ใดๆ ในอนาคต) รู้สึกน้อยกว่าเสียงที่ไม่มีตัวตนจากคลาวด์ และมากขึ้นเหมือนการขยายความคิดของคุณเอง – คู่หูที่ไม่เพียงแต่เข้าใจคำพูดของคุณ แต่ยังเข้าใจพื้นผิวที่ซับซ้อนของชีวิตดิจิทัลของคุณ การใช้งานประจำวัน ความชอบและบริบทเฉพาะของคุณ
ตั้งแต่การดำเนินการอ้างอิงภายในแอปและเว็บไซต์ไปจนถึงการคาดการณ์ความต้องการของคุณตามที่ตั้ง กิจกรรม และอินพุตสิ่งแวดล้อม ReALM แสดงถึงขั้นตอนสำคัญต่อประสบการณ์ AI ที่ราบรื่นและเป็นธรรมชาติมากขึ้น ซึ่งทำให้เส้นแบ่งระหว่างโลกดิจิทัลและโลกแห่งความเป็นจริงพร่ามัว
แน่นอนว่าการทำให้ความฝันนี้เป็นจริงต้องใช้มากกว่าความก้าวหน้าทางเทคนิค – จะต้องใช้แนวทางที่รอบคอบและจริยธรรมในการพัฒนา AI ที่ให้ความสำคัญกับความเป็นส่วนตัว ความโปร่งใส และความเป็นอิสระของผู้ใช้
ในขณะที่ Apple ยังคงปรับปรุงและขยายความสามารถของ ReALM โลกเทคโนโลยีกำลังจับตามองอย่างตื่นตัว เพื่อดูว่าโมเดล AI นี้จะกำหนดอนาคตของ Intelligent Assistants และเปิดประตูสู่ยุคใหม่ของการคำนวณที่ปรับให้เหมาะสมและตระหนักรู้ตามบริบทอย่างแท้จริงหรือไม่
ไม่ว่า ReALM จะบรรลุผลตามสัญญาที่จะเอาชนะแม้กระทั่ง GPT-4 ที่ทรงพลังยังคงต้องรอดู แต่สิ่งหนึ่งที่แน่นอนคือยุคของ AI Assistants ที่เข้าใจเรา – คำพูดของเรา โลกของเรา และพื้นผิวที่ซับซ้อนของการโต้ตอบดิจิทัลประจำวันของเรา – ได้เริ่มต้นขึ้นแล้ว และนวัตกรรมล่าสุดของ Apple อาจเป็นผู้นำในความปฏิวัตินี้
ฉันใช้เวลา 5 ปีที่ผ่านมาในการศึกษาและเรียนรู้เกี่ยวกับโลกของ Machine Learning และ Deep Learning อย่างลึกซึ้ง ความรู้และความเชี่ยวชาญของฉันทำให้ฉันได้เข้าร่วมในโครงการพัฒนาซอฟต์แวร์มากกว่า 50 โครงการที่มีความหลากหลาย โดยมุ่งเน้นไปที่ AI/ML ความอยากรู้อยากเห็นของฉันยังดึงดูดให้ฉันสนใจไปที่ Natural Language Processing ซึ่งเป็นสาขาที่ฉันกระตือรือร้นที่จะสำรวจเพิ่มเติม
You may like


ทำไมแอปสมัยใหม่ส่วนใหญ่จะไม่มีประโยชน์ในยุค AI


Apple ปิดการอัปเดตสำหรับแอป Vibe Coding เนื่องจากกฎ App Store


Gemini 3.1 Pro ทำสถิติใหม่ด้านการให้เหตุผล


แอปเปิลนำ AI Agentic มาสู่ Xcode ด้วย Claude และ Codex


แอปเปิลเข้าสู่การแข่งขันฮาร์ดแวร์ AI ด้วยปินสวมใส่ที่มี AI


แอปเปิล任命อดีตผู้นำ Google Gemini เป็นหัวหน้า AI ใหม่

