인공지능

인공지능을 혁신하는 Apple의 ReALM: 지능형 어시스턴트의 미래

Published April 12, 2024

Updated April 27, 2026

Aayush Mittal Mittal

인공지능의不断 진화하는 풍경에서, Apple은 조용히 혁신적인 접근 방식을 개척하고 있으며, 이것은 우리가 아이폰과 상호작용하는 방식을 재정의할 수 있을 것이다. ReALM, 또는 참조 해결을 언어 모델링은 새로운 수준의 맥락적 인식과 무결점 어시스턴스를 제공하는 인공지능 모델이다.

tech 세계는 OpenAI의 GPT-4와 다른 대규모 언어 모델(LLM)에 대한 흥분으로 가득 차 있지만, Apple의 ReALM은 생각의 전환을 나타낸다. 클라우드 기반 인공지능에만 의존하는 것에서 더 개인화된, 기기 내 접근 방식으로의 이동이다. 목표는 당신, 당신의 세계, 그리고 일상 디지털 상호작용의 복잡한 테이프를真正로 이해하는 지능형 어시스턴트를 만들기 위한 것이다.

ReALM의 핵심에는 참조를 해결하는 능력이 있다. 인간은 맥락적 단서로 쉽게 탐색할 수 있는 모호한 대명사인 “그것”, “그들”, 또는 “그것”과 같은 단어이다. 그러나 인공지능 어시스턴트에게 이것은 오랫동안 걸림돌이었다. 이해할 수 없는 오류와 사용자 경험의 단절로 이어진다.

당신이 시리에게 “내 냉장고에 있는 재료를 기반으로 건강한 레시피를 찾으세요. 그러나 버섯은 제외하세요. 나는 그것을 싫어한다”라고 요청하는 시나리오를 상상해보세요. ReALM을 사용하면 아이폰은 화면 정보(냉장고 내용)를 이해할 뿐만 아니라 개인적 선호도(버섯 싫어함)를 기억하고 매개 변수에 맞는 레시피를 찾는 더广い 맥락을 이해할 수 있다.

이 수준의 맥락적 인식은 대부분의 현재 인공지능 어시스턴트의 키워드 일치 접근 방식에서 양자 도약이다. ReALM은 대화, 화면, 배경의 3가지 주요 도메인에서 참조를 무결점으로 해결하여真正로 지능형 디지털 동료를 만들기 위한 목표를 가지고 있다. 이것은 로봇 음성 어시스턴트보다 당신의 생각 과정의 확장처럼 느껴진다.

대화 도메인: 이전에 무엇이 있었는지 기억하기

대화 인공지능, ReALM은 오랜 시간 동안의 도전을 해결한다. 대화의 여러 턴에서 일관성과 기억을 유지하는 것이다. 대화 내에서 참조를 해결하는 능력으로, ReALM은 자연스럽고 자유로운 상호작용을 제공할 수 있다.

당신이 시리에게 “금요일에 급여를 받을 때 휴가 예약을 위해 티켓을 예약하라고 기억하세요”라고 요청하는 시나리오를 상상해보세요. ReALM을 사용하면 시리는 휴가 계획의 맥락( 이전 대화 또는 화면 정보에서 파악 가능)을 이해할 뿐만 아니라 “급여를 받다”를 정기적인 급여 루틴에 연결하는 인식을 가지게 된다.

이 수준의 대화 지능은真正로 앞으로 나아가는 것처럼 느껴진다. 맥락을 다시 설명하거나 자신을 반복하는 것 없이 무결점한 다중 턴 대화를 가능하게 한다.

화면 도메인: 어시스턴트에게 눈 주기

그러나 ReALM의 가장 혁신적인 측면은 화면 实体에 대한 참조를 해결하는 능력에 있다. 이것은真正로 무손실, 음성 주도 사용자 경험을 만들기 위한 중요한 단계이다.

Apple의 연구 논문은 인공지능 모델이 처리할 수 있는 형식으로 디바이스 화면의 시각 정보를 인코딩하는 새로운 기술을 논의한다. 기본적으로 디바이스 화면의 레이아웃을 텍스트 기반 표현으로 재구성함으로써, ReALM은 “보”고 이해할 수 있다. 화면 요소 간의 공간 관계를 이해할 수 있다.

당신이 레스토랑 목록을 보고 시리에게 “메인 스트리트에 있는那个 레스토랑으로 направления를 알려주세요”라고 요청하는 시나리오를 상상해보세요. ReALM을 사용하면 아이폰은 특정 위치에 대한 참조를 이해할 뿐만 아니라 관련 화면 实体(해당 설명과 일치하는 레스토랑 목록)를 연결할 수 있다.

이 수준의 시각적 이해는 다양한 가능성을 열어준다. 앱과 웹사이트 내에서 참조를 처리하는 것부터 미래의 증강 현실 인터페이스와 حتى 디바이스 카메라를 통해 실제 세계 객체와 환경을 인식하고 반응하는 것까지이다.

연구 논문은 시스템이 화면 实体를 인코딩하고 다양한 맥락에서 참조를 해결하는 방법의 세부 사항에 대해 논의한다. 여기에는 간단한 설명과 논문에 제공된 예가 포함되어 있다:

화면 实体 인코딩: 논문은 인공지능 모델이 처리할 수 있는 텍스트 형식으로 화면 요소를 인코딩하는 여러 전략을 탐구한다. 하나의 접근 방식은 주변 객체를 공간적 근접성에 따라 클러스터링하고 클러스터링된 객체를 포함하는 프롬프트를 생성하는 것이다. 그러나 이 방법은 객체의 수가 증가함에 따라 너무 긴 프롬프트로 이어질 수 있다.

최종적으로 연구자들은 상단에서 하단으로, 왼쪽에서 오른쪽으로 화면을 파싱하여 레이아웃을 텍스트 형식으로 표현하는 접근 방식을 채택했다. 이것은 알고리즘 2를 통해 수행되며, 객체를 중심 좌표에 따라 정렬하고, 특정 마진 내에서 객체를 그룹화하여 수직 레벨을 결정하고, 이러한 레벨을 탭으로 구분하여 화면 파스를 생성한다.

관련 实体(이 경우 전화 번호)를 텍스트 표현에 주입함으로써, 인공지능 모델은 화면 맥락을 이해하고 참조를 해결할 수 있다.

참조 해결의 예: 논문은 ReALM 모델의 기능을 다양한 맥락에서 참조를 해결하는 데 대해 설명하는 여러 예를 제공한다:

a. 대화 참조: “시리, 내 냉장고에 있는 재료를 기반으로 건강한 레시피를 찾으세요. 그러나 버섯은 제외하세요. 나는 그것을 싫어한다”와 같은 요청에 대해, ReALM은 화면 맥락(냉장고 내용), 대화 맥락(레시피 찾기), 사용자 선호도(버섯 싫어함)를 이해할 수 있다.

b. 배경 참조: “시리, 이전에 슈퍼마켓에서 재생된 그 노래를 재생하세요”와 같은 요청에 대해, ReALM은 주변 오디오 스니펫을 포착하고 식별하여 특정 노래에 대한 참조를 해결할 수 있다.

c. 화면 참조: “시리, 금요일에 급여를 받을 때 휴가 예약을 위해 티켓을 예약하라고 기억하세요”와 같은 요청에 대해, ReALM은 사용자의 루틴(급여일), 화면 대화 또는 웹사이트(휴가 계획), 캘린더 정보를 결합하여 요청을 이해하고 처리할 수 있다.

이러한 예는 ReALM이 대화, 화면, 배경 맥락에서 참조를 해결하는 능력을 보여주며, 더 자연스럽고 무결점한 지능형 어시스턴트 상호작용을 가능하게 한다.

배경 도메인

대화와 화면 맥락을 넘어서, ReALM은 또한 배경 实体에 대한 참조를 해결하는 능성을 탐구한다. 이것은 일반적으로 현재 인공지능 어시스턴트에 의해 무시되는 주변 이벤트와 프로세스이다.

당신이 시리에게 “이전의 슈퍼마켓에서 재생된 노래를 재생하세요”라고 요청하는 시나리오를 상상해보세요. ReALM을 사용하면 아이폰은 주변 오디오 스니펫을 포착하고 식별하여 시리가 당신이 생각한 트랙을 재생할 수 있다.

이 수준의 배경 인식은真正로 유비쿼터스, 맥락 인식 인공지능의 첫 단계로 느껴진다. 디지털 동료가 당신의 말뿐만 아니라 일상 경험의 풍부한 테이프를 이해한다.

기기 내 인공지능의 약속: 개인 정보 보호와 개인화

ReALM의 능력이 확실히 인상적이지만, 아마도 가장 중요한 장점은 Apple의 기기 내 인공지능과 사용자 개인 정보 보호에 대한 오랜 커밋먼트에 있다.

클라우드 기반 인공지능 모델과 달리 사용자 데이터를 원격 서버로 보내어 처리하는 대신, ReALM은 완전히 아이폰 또는 다른 Apple 디바이스에서 작동하도록 설계되었다. 이것은 데이터 개인 정보 보호에 대한 우려를 해결하는 데 도움이 되며, 또한 사용자에게真正로 개인화된 인공지능 어시스턴트를 제공하는 새로운 가능성을 열어준다.

당신의 기기 내 데이터(대화, 앱 사용 패턴, 심지어 주변 센서 입력)에서 직접 학습함으로써, ReALM은 당신의 고유한 필요, 선호도, 일상 루틴에 맞게 개인화된 디지털 어시스턴트를 만들 수 있다.

이 수준의 개인화는 현재 인공지능 어시스턴트의 일괄 처리 접근 방식에서 벗어난 것처럼 느껴진다. 이것은 개인의 특이성과 맥락을 이해하는 데 어려움을 겪는다.

ReALM-250M 모델은 인상적인 결과를 달성한다:

- 대화 이해: 97.8
- 합성 작업 이해: 99.8
- 화면 작업 성능: 90.6
- 미래 도메인 처리: 97.2

윤리적 고려

그러나 이러한 높은 수준의 개인화와 맥락 인식이 함께 오는 것은 개인 정보 보호, 투명성, 인공지능 시스템이 사용자 행동을 영향하거나 조작할 수 있는 잠재적인 위험과 관련된 윤리적 고려를 포함한다.

ReALM이 당신의 일상 생활을 더 깊이 이해할수록(당신의 식습관, 미디어 소비 패턴, 사회적 상호작용, 개인적 선호도), 이 기술이 사용자 신뢰를 위반하거나 윤리적 경계를 넘는 방식으로 사용될 수 있는 위험이 있다.

Apple의 연구자들은 이 긴장감을 인식하고 있으며, 사용자 개인 정보 보호와 주체성을尊重하는 동안真正로 유용한 개인화된 인공지능 경험을 제공하는 데 필요한 균형을 맞추는 필요성을 인정한다.

이 도전은 Apple이나 ReALM에만 독특한 것이 아니다. 이것은 인공지능 시스템이 더욱 정교해지고 우리의 일상 생활에 통합됨에 따라 기술 산업 전체가 다루어야 할 대화이다.

보다 지능형, 자연스러운 인공지능 경험으로

Apple이 ReALM과 같은 모델로 기기 내 인공지능의 경계를 계속해서 확장함에 따라,真正로 지능형, 맥락 인식 디지털 어시스턴트의 약속은 이전보다 더 가까이 느껴진다.

시리(또는 미래에 이것이 무엇으로 불리든)가 클라우드에서 오는 무인 음성보다 당신의 생각 과정의 확장처럼 느껴지는 세계를 상상해보세요. 이것은 당신의 디지털 생활, 일상 루틴, 고유한 선호도와 맥락을 이해하는 동료이다.

앱과 웹사이트 내에서 참조를 처리하는 것부터 위치, 활동, 주변 센서 입력에 따라 당신의 필요를 예측하는 것까지, ReALM은 디지털과 물리적 세계의 경계를模糊하는 더 자연스럽고 무결점한 인공지능 경험을 나타낸다.

이 비전을 실현하기 위해서는 기술 혁신 이상의 것이 필요하다. 사용자 개인 정보 보호, 투명성, 주체성을 우선하는 윤리적인 인공지능 개발 접근 방식이 필요하다.

Apple이 ReALM의 능력을 계속해서 개선하고 확장함에 따라, 기술 세계는 이 혁신적인 인공지능 모델이 지능형 어시스턴트의 미래를 어떻게 형성하고真正로 개인화된, 맥락 인식 컴퓨팅의 새로운 시대를 열어가는지 지켜볼 것이다.

ReALM이 강력한 GPT-4를 능가하는 성과를 달성할 수 있을지는尚으로 남아 있다. 그러나 하나는 확실하다.真正로 우리를 이해하는 인공지능 어시스턴트(말, 세계, 일상 생활의 풍부한 테이프)의 시대는 이미 시작되었고, Apple의 최신 혁신은 이 혁명의 전면에 있을 수 있다.

Aayush Mittal

지난 5년 동안私は Machine Learning과 Deep Learning의 매력적인 세계에 몰두해 왔습니다.私の情熱と専門知識は、AI/ML에 중점을 둔 50개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여했습니다.私の継続的な 호기심은 또한 자연어 처리 분야로私の 관심을 끌었고, 더 깊이 탐구하고 싶은 분야입니다.

Unite.AI