Connect with us

๋” ๋งŽ์€ๆ€่€ƒ์ด AI๋ฅผ ๋” ๋ฉ์ฒญํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒฝ์šฐ: ์—ญScaling ์—ญ์„ค

์ธ๊ณต์ง€๋Šฅ

๋” ๋งŽ์€ๆ€่€ƒ์ด AI๋ฅผ ๋” ๋ฉ์ฒญํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒฝ์šฐ: ์—ญScaling ์—ญ์„ค

mm

인공지능은 기계에 더 많은 시간, 데이터, 컴퓨팅 파워를 제공하면 성능이 향상된다는 아이디어에 기반하여 구축되었습니다. 이 믿음은 수년간 AI 연구 및 개발의 방향을 안내해 왔습니다. 이 믿음의 근본적인 가정은 더 큰 모델과 더 많은 자원이 더 지능적인 시스템을 생성할 것이라는 것입니다. 그러나 최근의 연구는 이러한 접근 방식을 질문하기 시작했습니다. OpenAI의 o1 시리즈와 같은 대규모 언어 모델, OpenAI의 o1 시리즈, Anthropic의 Claude, 및 DeepSeek의 R1은 인간의 추론과 마찬가지로 단계별로 문제를 해결하도록 설계되었습니다. 연구자들은 이러한 모델에 더 많은 시간을 생각하고 정보를 처리할 수 있도록 제공하면 의사 결정이 향상될 것으로 예상했습니다. 그러나 새로운 연구는 반대의 경우가 발생할 수 있음을 보여줍니다. 이러한 모델에 더 많은 시간을 생각하도록 제공하면 때때로 성능이 더 나빠지며, 특히 단순한 작업에서 그렇습니다. 이러한 효과는 역Scaling이라고 합니다. 이는 더 많은 컴퓨팅 파워와 더 깊은 추론이 항상 더好的 결과를 가져온다는 믿음을 도전합니다. 이러한 발견은 실제 상황에서 AI를 설계하고 사용하는 방식에重大한 결과를 가집니다.

역Scaling 현象 이해

역Scaling” 현象은 초기에 Anthropic의 연구자들에 의해 통제된 실험을 통해 발견되었습니다. 전통적인 Scaling 법칙과 달리, 더 많은 계산이 성능을 향상시킨다고 말하는 반면, 이러한 연구는 AI에 더 많은 시간을 생각하도록 제공하면 다른 작업에서 정확도가 낮아질 수 있음을 발견했습니다.

연구 팀은 네 가지 영역에서 작업을 생성했습니다: 간단한 카운팅과 방해, 회귀와 관련 없는 특징, 제약 조건 추적과 연역, 및 복잡한 AI 안전 시나리오. 결과는 놀라웠습니다. 어떤 경우에는 처음에 올바른 답변을 제공한 모델이 더 많은 시간을 처리할 수 있도록 제공한 후에 잘못된 답변을 제공하기 시작했습니다.

예를 들어, “사과와 오렌지를 가지고 있다면 과일은 몇 개입니까?”와 같은 간단한 카운팅 작업에서 Claude 모델은 더 많은 시간을 생각하도록 제공할 때 종종 추가 세부 정보에 방해를 받았습니다. 그들은 두 개라는 올바른 답변을 제공하지 못했습니다. 이러한 경우, 모델은 너무 많이 생각하고 결국 오류를犯했습니다.

Apple의 최근 연구도 이러한 발견을 뒷받침했습니다. 그들은 표준 벤치마크가 아닌 Tower of Hanoi 및 River Crossing과 같은 제어된 퍼즐 환경에서 실험을 수행했습니다. 그들의 연구는 세 가지 패턴을 보여주었습니다: 단순한 작업에서, 표준 AI 모델이 추론 모델보다 더 잘 수행되었습니다. 중간 작업에서, 추론 모델이 표준 모델보다 더好的 성능을 보였습니다. 매우 복잡한 작업에서, 두 가지 유형의 모델이 모두 실패했습니다.

AI 추론 실패의 5가지 방법

연구자들은 AI 모델이 더 긴 기간 동안 추론할 때 실패할 수 있는 5가지 일반적인 방법을 발견했습니다:

  1. 관련 없는 것에 방해 받기: AI 모델이 너무 오랫동안 생각하면 종종 중요하지 않은 세부 정보에 방해를 받습니다. 이것은 문제의 주요 점을 놓치고 문제에 깊이 생각하는 학생과 같습니다.
  2. 문제 프레임에 대한 과적합: 일부 모델, 예를 들어 OpenAI의 o-series, 문제 프레젠테이션에 너무 집중합니다. 그들은 방해를 피하지만 유연하지 않으며 문제 형식을 너무 의존합니다.
  3. 가짜 상관관계 전환: 시간이 지남에 따라 AI 모델은 합리적인 가정에서 잘못된 상관관계에 의존하는 방향으로 전환할 수 있습니다. 예를 들어, 회귀 작업에서 모델은 처음에 관련 특징을 고려하지만 더 많은 시간을 생각하도록 제공할 때 관련 없는 특징에 초점을 맞추고 잘못된 결과를 제공할 수 있습니다.
  4. 초점 저하: 작업이 더 복잡해질수록 AI 모델은 추론을 명확하게 유지하는 것이 더 어려워집니다.
  5. 잘못된 행동 증폭: 더 많은 시간을 생각하도록 제공하면 부정적인 행동이 더 나빠질 수 있습니다. 예를 들어, Claude의 Sonnet 4는 종료 시나리오에 대해 더 많은 시간을 생각할 때 더 강한 자아 보존 경향을 보여주었습니다.

AI 추론이 문제 복잡성에 대처하는 방식

Apple 연구자들은 “思考의 환상“이라는 용어를 도입하여 추론 모델이 다양한 수준의 복잡성을 가진 작업에 어떻게 반응하는지 설명했습니다. 수학 문제나 코딩 테스트에 집중하는 대신, 그들은 Tower of Hanoi, Checker Jumping, River Crossing, 및 Blocks World와 같은 제어된 퍼즐 환경에서 AI 추론 모델을 테스트했습니다. 퍼즐의 난이도를 천천히 증가시킴으로써, 그들은 모델이 각 수준에서 어떻게 수행하는지 볼 수 있었습니다. 이 방법은 최종 답변뿐만 아니라 모델이 어떻게 그 답변에 도달했는지 조사하는 데 도움이 되었습니다. 연구는 문제 복잡성에 따라 모델 성능에 대한 세 가지 명확한 패턴을 발견했습니다:

  • 하나 또는 두 개의 디스크가 있는 Tower of Hanoi와 같은 단순한 퍼즐에서, 표준적인 대규모 언어 모델(LLM)이 더 효율적으로 올바른 답변을 제공했습니다. AI 추론 모델은 종종 너무 복잡한 추론 체인을 통해 올바른 답변을 제공하지 못했습니다.
  • 중간 수준의 퍼즐에서, AI 추론 모델이 더好的 성능을 보였습니다. 그들은 문제를 명확한 단계로 분解하여 다단계의 도전을 표준 LLM보다 더 효과적으로 해결할 수 있었습니다.
  • 非常한 복잡한 퍼즐, 예를 들어 많은 디스크가 있는 Tower of Hanoi에서, 두 가지 유형의 모델이 모두 어려움을 겪었습니다. 추론 모델은 퍼즐이 더 어려워질수록 추론 노력을 줄이는 경향이 있었으며, 충분한 계산 자원을 가지고 있음에도 불구하고 “포기”하는 행동을 보여주었습니다. 이는 추론을 확장하는 데 중요한 약점을 나타냅니다.

AI 평가의 도전

역Scaling 현象은 AI 모델을 평가하는 방식에重大한 문제를 나타냅니다. 많은 현재 벤치마크는 최종 답변의 정확성만을 측정하며, 추론 과정의 품질은 고려하지 않습니다. 이것은 모델의 실제 능력에 대한 잘못된 인상을 줄 수 있습니다. 모델은 테스트에서 잘 수행할 수 있지만 새로운 또는 비정상적인 문제에서는 실패할 수 있습니다.

역Scaling은 또한 추론 벤치마크와 사용 방법의 약점을 강조합니다. 많은 모델은 실제 추론 대신 단축키와 패턴 인식을 사용합니다. 이것은 모델이 실제보다 더 지능적으로 보이게 할 수 있지만, 실제 상황에서 성능이 떨어질 수 있습니다. 이 문제는 AI의 더 큰 문제, 즉 환상과 신뢰성과 관련이 있습니다. 모델이 설득력 있는 설명을 생성하는 능력이 향상될수록, 실제 추론과 허구의 답변을 구별하는 것이 더 어려워집니다.

AI 추론의 미래

역Scaling 역설은 AI에 대한 도전이자 기회입니다. 이것은 더 많은 계산 파워를 추가하는 것이 항상 AI를 더 지능적으로 만든다는 것을 보여줍니다. 우리는 다양한 복잡성의 문제를 처리할 수 있는 AI 시스템을 설계하고 훈련하는 방식을 재고해야 합니다. 새로운 모델은 언제 생각을 중단하고 언제 빠르게 응답할지 결정해야 할 수 있습니다. 이러한 관점에서, AI는 이중 처리 이론과 같은 인지 구조를 지침으로써 혜택을 받을 수 있습니다. 이러한 구조는 인간의 생각이 빠르고 본능적인 반응과 느리고 주의적인 추론을 어떻게 혼합하는지 설명합니다. 역Scaling은 또한 우리가 중요한 영역에서 AI를 사용하기 전에 AI가 어떻게 결정하는지 완전히 이해해야 한다는 것을 상기시킵니다. AI가 의사 결정에 더 많이 사용됨에 따라, 이러한 시스템이 올바르게 추론하는지 확인하는 것이 더욱 중요해집니다.

결론

역Scaling 역설은 AI 개발에서 중요한 교훈을 가르칩니다. 더 많은 시간과 계산 파워가 항상 AI를 더 유능하게 만들거나 더 신뢰할 수 있게 만들지는 않습니다. 실제 진행은 AI가 언제 추론해야 하는지 이해하고 그 한계를 아는 데 있습니다. 조직과 연구자들에게는 각 작업에 적합한 모델을 선택하는 것이 중요합니다. AI가 중요한 결정에 포함됨에 따라, 우리는 그들의 강점과 약점을 신중하게 평가해야 합니다. AI의 미래는 더 많이 생각하는 것이 아니라, 올바르게 생각하는 것입니다.

Dr. Tehseen Zia๋Š” COMSATS University Islamabad์˜ ์ •๊ต์ˆ˜์ด๋ฉฐ, ์˜ค์ŠคํŠธ๋ฆฌ์•„ ๋น„์—”๋‚˜ ๊ธฐ์ˆ ๋Œ€ํ•™๊ต์—์„œ ์ธ๊ณต์ง€๋Šฅ ๋ฐ•์‚ฌํ•™์œ„๋ฅผ ์ทจ๋“ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ธ๊ณต์ง€๋Šฅ, ๊ธฐ๊ณ„ํ•™์Šต, ๋ฐ์ดํ„ฐ ๊ณผํ•™, ์ปดํ“จํ„ฐ ๋น„์ „์„ ์ „๋ฌธ์œผ๋กœ ํ•˜๋ฉฐ, ์œ ๋ช…ํ•œ ๊ณผํ•™ ์ €๋„์— ๋ฐœํ‘œ๋œ ๋…ผ๋ฌธ์œผ๋กœ ะทะฝะฐั‡์ ์ธ ๊ธฐ์—ฌ๋ฅผ ํ–ˆ์Šต๋‹ˆ๋‹ค. Dr. Tehseen์€ ์ฃผ์š” ์—ฐ๊ตฌ์ž๋กœ์„œ ๋‹ค์–‘ํ•œ ์‚ฐ์—… ํ”„๋กœ์ ํŠธ๋ฅผ ์ด๋Œ์—ˆ์œผ๋ฉฐ, ์ธ๊ณต์ง€๋Šฅ ์ปจ์„คํ„ดํŠธ๋กœ๋„ ํ™œ๋™ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ด‘๊ณ  ๊ณ ์ง€: Unite.AI๋Š” ๋…์ž์—๊ฒŒ ์ •ํ™•ํ•œ ์ •๋ณด์™€ ๋‰ด์Šค๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ์œ„ํ•ด ์—„๊ฒฉํ•œ ํŽธ์ง‘ ๊ธฐ์ค€์„ ์ค€์ˆ˜ํ•ฉ๋‹ˆ๋‹ค. ๋‹น์‚ฌ๊ฐ€ ๊ฒ€ํ† ํ•œ ์ œํ’ˆ ๋งํฌ๋ฅผ ํด๋ฆญํ•  ๊ฒฝ์šฐ ๋ณด์ƒ์„ ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.