Connect with us

AI์˜ ๋‹ค์Œ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™: ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์•„๋‹Œ, ๋” ๋‚˜์€ ์„ธ๊ณ„ ๋ชจ๋ธ

AGI

AI์˜ ๋‹ค์Œ ์Šค์ผ€์ผ๋ง ๋ฒ•์น™: ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์•„๋‹Œ, ๋” ๋‚˜์€ ์„ธ๊ณ„ ๋ชจ๋ธ

mm

수년간 인공지능 산업은 간단하지만 무자비한 규칙을 따랐다. 더 크면 더 좋다. 우리는 대규모 데이터셋에서 모델을 훈련시켰고, 매개변수의 수를 증가시키고, 문제에 엄청난 계산 능력을 투입했다. 이 공식은 대부분의 시간 동안 작동했다. GPT-3에서 GPT-4로, 그리고粗糙한 채팅봇에서 추론 엔진까지, “스케일링 법칙“은 단순히 기계에 더 많은 텍스트를 공급하면 결국 지능이 될 것이라고 제안했다.

하지만 우리는 이제 벽에 부딪히고 있다. 인터넷은 유한하다. 높은 품질의 공개 데이터는 고갈되고 있으며, 단순히 모델을 더 크게 만드는 것의 반환은 감소하고 있다. 주요 인공지능 연구자들은 주장한다 bahwa 인공지능의 다음 큰 도약은 단순히 더 많은 텍스트를 읽는 것에서 오지 않을 것이다. 그것은 텍스트 뒤에 있는 현실을 이해하는 것에서 올 것이다. 이 믿음은 인공지능의焦点의 근본적인 변화를 신호하며, 세계 모델의 시대를 열게 된다.

다음 토큰 예측의 한계

새로운 접근법이 필요한 이유를 이해하기 위해 우리는 먼저 현재 인공지능 시스템이 실제로 무엇을 하는지 살펴야 한다. 그들의 인상적인 능력에도 불구하고, ChatGPT 또는 Claude와 같은 모델은 근본적으로 통계 엔진이다.它们은 이전에 무엇이 왔는지의 확률에 기반하여 시퀀스에서 다음 단어를 예측한다.它们은 떨어진 유리잔이 깨질 것이라는 것을 이해하지 못한다.它们은 단순히 수백만 개의 이야기에서 “깨진”이라는 단어가 souvent “떨어진 유리잔”이라는 문구 뒤에 따라온다는 것을 알고 있다.

이 접근법, 즉 자기 회귀 모델링은 치명적인 결함이 있다. 그것은 전적으로 상관관계에 의존하며, 인과관계는 고려하지 않는다. 만약 bạn가 LLM을 1,000개의 자동차 충돌에 대한 설명에서 훈련시키면, 그것은 사고의 언어를 학습한다. 그러나 그것은 운동량, 마찰, 또는 깨지기의 물리학을 결코 학습하지 않는다. 그것은 참가자가 아닌 관찰자이다.

이 제한은 “데이터 벽“이 되고 있다. 우리는 거의 모든 공개 인터넷을 스크레이핑했다. 현재 방법을 사용하여 더 나아가기 위해 우리는 존재하는 데이터보다 지수적으로 더 많은 데이터가 필요하다. 합성 데이터(즉, AI가 생성한 텍스트)는 일시적인 해결책을 제공하지만, 그것은 종종 “모델 붕괴“를 dẫn致한다. 여기서 시스템은 자신의 편향과 오류를 증폭한다. 우리는 텍스트만으로 인공지능을 확장하여 인공 일반 지능(AGI)을 달성할 수 없다. 왜냐하면 텍스트는 세계의 낮은 대역폭 압축이기 때문이다. 그것은 현실을 설명하지만, 그것은 현실 자체가 아니다.

세계 모델이 중요한 이유

인공지능 리더들처럼 Yann LeCun은 오래전부터 현재의 인공지능 시스템이 인간認知의 근본적인 측면을 결여하고 있다고 주장해 왔다. 이것은 심지어 어린 아이들이 자연스럽게 갖고 있는 우리의 내부 모델을 유지하는 능력이다. 이것을 일반적으로 세계 모델이라고 한다. 세계 모델은 단순히 다음 단어를 예측하지 않는다. 그것은 물리적 환경이 작동하는 방식에 대한 내부 정신 지도를 구축한다. 우리가 공을 소파 뒤에 굴린다면, 우리는 그것이 여전히 거기에 있다는 것을 알고 있다. 우리는 그것이 멈추지 않는 이상 다른 쪽에서 나타날 것이라는 것을 알고 있다. 우리는 이것을 이해하기 위해 교과서를 읽을 필요가 없다. 우리는 내부 “세계 모델”을 기반으로 하는 정신 시뮬레이션을 실행한다.

인공지능이 발전하려면, 그것은 통계적 모방에서 이러한 내부 시뮬레이션으로 이동해야 한다. 그것은 이벤트의 근본적인 원인을 이해해야 한다. 단순히 텍스트의 설명만이 아니라.
공동 임베딩 예측 아키텍처(JEPA)는 이러한 패러다임 전환의 대표적인 예이다. LLM과는 달리, JEPA는 모든 단어 또는 픽셀을 예측하려고 시도하지 않는다(이 과정은 계산적으로 비용이 많이 들고 시끄럽다). 그것은 예측할 수 없는 세부 사항들, 예를 들어 나무의 개별 잎의 움직임을 무시하고, 나무, 바람, 계절과 같은 높은 수준의 개념에 초점을 맞춘다. 이러한 높은 수준의 상태가 시간에 따라 어떻게 변경되는지 예측함으로써, 인공지능은 세상의 구조를 배우고, 표면 수준의 세부 사항이 아니라.

예측에서 시뮬레이션으로

우리는 이미 이 전환의 첫 번째 징조를 비디오 생성 모델에서 보고 있다. OpenAI가 Sora를 출시했을 때, 그것을 단순히 비디오 도구라고 설명하지 않고, “세계 시뮬레이터“라고 설명했다.

이 구별은 매우 중요하다. 표준 비디오 생성기는 다음에 오는 픽셀의 색을 예측하여 비디오를 생성할 수 있다. 그러나 세계 시뮬레이터는 3D 일관성, 조명, 객체 영속성을 시간에 걸쳐 유지하려고 시도한다. 그것은 “사람이 벽 뒤에 가면 존재에서 사라지지 않아야 한다”는 것을 “이해”한다.

현재 비디오 모델은 아직 완벽하지 않지만, 그것들은 새로운 훈련 장소를 나타낸다. 물리적 세계는 텍스트 세계보다 훨씬 더 많은 정보를 포함한다. 비디오의 1초는 물리학, 빛, 상호작용에 대한 수백만 개의 시각적 데이터 포인트를 포함한다. 이러한 시각적 현실에서 모델을 훈련시킴으로써, 우리는 인공지능에 LLM이 현재 결여한 “상식”을 가르칠 수 있다.

이것은 새로운 스케일링 법칙을 만든다. 성공은 더 이상 모델이 읽은 토큰의 수에 의해 측정되지 않을 것이다. 그것은 시뮬레이션의 충실도와 환경의 미래 상태를 예측하는 능력에 의해 측정될 것이다. 행동의 결과를 취할 필요 없이 예측할 수 있는 인공지능은 계획, 추론, 안전하게 행동할 수 있는 인공지능이다.

효율성과 AGI로의 길

이 전환은 또한 현재 인공지능의 비지속 가능한 에너지 비용을 해결한다. LLM은 효율적이지 않다. 왜냐하면 그것은 일관된 출력을 생성하기 위해 모든 세부 사항을 예측해야 하기 때문이다. 세계 모델은 더 효율적이다. 왜냐하면 그것은 선택적이기 때문이다. 인간 운전자가 도로에 집중하고 하늘의 구름 패턴을 무시하는 것처럼, 세계 모델은 작업의 관련된 인과 요인에 초점을 맞춘다.

LeCun는 이 접근법이 모델이 훨씬 더 빠르게 학습할 수 있도록 허용한다고 주장했다. V-JEPA(비디오-공동 임베딩 예측 아키텍처)와 같은 시스템은 전통적인 방법보다 훨씬 더 적은 훈련 반복으로 해법에 수렴할 수 있다는 것을 보여주었다. 데이터 자체를 기억하는 대신 데이터의 “형태”를 학습함으로써, 세계 모델은 더 강력한 지능 형태를 구축한다. 이는 새로운, 보이지 않는 상황에 더 잘 일반화된다.

이것이 진정한 지능을 위한 결실이다. 진정한 지능은 탐색을 필요로 한다. 그것은 에이전트가 목표를看着, 내부 세계 모델을 사용하여 목표를 달성하기 위한 다양한 경로를 시뮬레이션한 다음, 가장 높은 성공 확률의 경로를 선택하는 것을 필요로 한다. 텍스트 생성기는 이것을 할 수 없다. 그것은 계획을 작성할 수 있지만, 그것을 실행하는 제약을 이해할 수 없다.

결론

인공지능 산업은 전환점에 있다. “단순히 더 많은 데이터를 추가”하는 전략은 논리적인 끝에 도달하고 있다. 우리는 채팅봇의 시대에서 시뮬레이터의 시대로 이동하고 있다.

다음 세대의 인공지능 스케일링은 인터넷 전체를 읽는 것에 관한 것이 아니다. 그것은 세계를看着, 그 규칙을 이해하고, 현실을 반영하는 내부 아키텍처를 구축하는 것에 관한 것이다. 이것은 기술적인 업그레이드가 아니다. 이것은 우리가 “학습”이라고 생각하는 것의 근본적인 변화이다.

기업과 연구자들에게,焦点을 전환해야 한다. 우리는 매개변수 수에 대한 집착을 멈추고, 우리의 시스템이 인과관계를 얼마나 잘 이해하는지 평가하기 시작해야 한다. 미래의 인공지능은 단순히 무엇이 발생했는지 말해주지 않을 것이다. 그것은 무엇이 발생할 수 있는지, 그리고 왜 발생하는지 보여줄 것이다. 그것이 세계 모델의 약속이고, 그것이 앞으로 나아갈 수 있는 유일한 길이다.

Dr. Tehseen Zia๋Š” COMSATS University Islamabad์˜ ์ •๊ต์ˆ˜์ด๋ฉฐ, ์˜ค์ŠคํŠธ๋ฆฌ์•„ ๋น„์—”๋‚˜ ๊ธฐ์ˆ ๋Œ€ํ•™๊ต์—์„œ ์ธ๊ณต์ง€๋Šฅ ๋ฐ•์‚ฌํ•™์œ„๋ฅผ ์ทจ๋“ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ธ๊ณต์ง€๋Šฅ, ๊ธฐ๊ณ„ํ•™์Šต, ๋ฐ์ดํ„ฐ ๊ณผํ•™, ์ปดํ“จํ„ฐ ๋น„์ „์„ ์ „๋ฌธ์œผ๋กœ ํ•˜๋ฉฐ, ์œ ๋ช…ํ•œ ๊ณผํ•™ ์ €๋„์— ๋ฐœํ‘œ๋œ ๋…ผ๋ฌธ์œผ๋กœ ะทะฝะฐั‡์ ์ธ ๊ธฐ์—ฌ๋ฅผ ํ–ˆ์Šต๋‹ˆ๋‹ค. Dr. Tehseen์€ ์ฃผ์š” ์—ฐ๊ตฌ์ž๋กœ์„œ ๋‹ค์–‘ํ•œ ์‚ฐ์—… ํ”„๋กœ์ ํŠธ๋ฅผ ์ด๋Œ์—ˆ์œผ๋ฉฐ, ์ธ๊ณต์ง€๋Šฅ ์ปจ์„คํ„ดํŠธ๋กœ๋„ ํ™œ๋™ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ด‘๊ณ  ๊ณ ์ง€: Unite.AI๋Š” ๋…์ž์—๊ฒŒ ์ •ํ™•ํ•œ ์ •๋ณด์™€ ๋‰ด์Šค๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ์œ„ํ•ด ์—„๊ฒฉํ•œ ํŽธ์ง‘ ๊ธฐ์ค€์„ ์ค€์ˆ˜ํ•ฉ๋‹ˆ๋‹ค. ๋‹น์‚ฌ๊ฐ€ ๊ฒ€ํ† ํ•œ ์ œํ’ˆ ๋งํฌ๋ฅผ ํด๋ฆญํ•  ๊ฒฝ์šฐ ๋ณด์ƒ์„ ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.