์ธ๊ณต์ง๋ฅ
AI์ ์๋ก์ด ์ง๊ด: ๋ ์ค๋ ์๊ฐํ๋ ๊ฒ๋ณด๋ค ๋ ๋๋ํ๊ฒ ์๊ฐํ๋ ๊ฒ์ด ๋ ์ค์ํ๋ค

인공 지능(AI)의 발전은 오랫동안 데이터와 계산 능력을 증가시킴으로써 성능을 개선할 수 있다는 믿음에 의해 주도되어 왔다. 이러한 “무력” 접근 방식은 GPT-3와 같은 인상적인 AI 시스템을 낳았으며, 이러한 시스템은 여러 해 동안 놀라운 성능을 보여왔다. 그러나 이러한 패러다임은 한계에 도달하고 있다. AI 문제가 더 복잡해짐에 따라 단순히 처리 능력을 추가하는 것이 장기적으로 지속 가능하거나 효과적인 해결책이 아닐 수 있다는 것이 분명해지고 있다. 이러한 인식은 연구자들이 AI 개발에 대한 접근 방식을 재고하도록 촉발했다. 이 맥락에서 Deep Cogito의 Cogito v2 모델은 AI 개발의 미래를 변경할 수 있는 새로운 접근 방식을 도입한다. 더 많은 처리 능력이나 확장된 추론에 의존하는 대신에, Cogito v2는 모델이 검색을 시작하기 전에 올바른 경로를 식별하는 데 도움이 되는 내부 “직감”을 개발한다. 이것은 AI가 더 오래 생각하는 것보다 더 잘 생각하는 것에 중점을 둔 새로운 패러다임이다.
AI 개발의 전환
수년 동안 AI의 발전에 대한 주도적인 힘은 “더 많을수록 더 좋다”라는 아이디어였다. 이러한 접근 방식은 복잡한 문제를 해결하기 위해 광범위한 추론 체인을 생성하는 AI 모델을 낳았다. OpenAI의 모델, 예를 들어 GPT-3,는 이러한 접근 방식의 예이다. 여기서 더 긴 추론 체인은 어려운 작업에서 인상적인 결과를 가져왔다. 그러나 이러한 방법은 상당한 단점을 가지고 있다. 더 긴 추론 체인은 더 많은 계산 자원을 필요로 하므로 추론 시간이 더 느려지고 운영 비용이 더 높아진다. 또한 연구에 따르면 이러한 확장된 프로세스는 종종 효율성이 떨어지고 편향이 더 커지는 등 점진적인 반환을 낳는다. 근본적인 문제는 긴 추론 체인과 계산 능力的 증가에 의존하는 것이 더 이상 복잡한 AI 문제를 해결하기 위한 효과적인 해결책이 아니라는 것이다. 이러한 접근 방식은巨大的 처리 시간과 메모리 요구 사항으로 제한된다.
AI에 대한 ‘직감’의 중요성
현재의 AI 시스템과는 달리, 인간은 문제를 해결하기 위해 종종 “직감”(즉, 빠르고 직관적인 판단)을 의존한다. 직감은 추상적인 개념으로 보일 수 있지만, 이는 종종 경험, 학습, 및 문맥 처리의 결과로 인간이 모든 세부 사항을 완전히 분석하지 않고 빠른 결정을 내릴 수 있다. 이것이 원시적인 계산을 인간과 같은 추론으로부터 구분한다. 인간은 패턴 인식과 축적된 경험을 통해 이러한 ‘직감’을 구축하며, 이것은 모든 가능한 옵션을 완전히 탐색하지 않고도 결정을 내릴 수 있다. AI의 새로운 “직감”은 이 프로세스를 복제하려고 한다.
이 아이디어, 즉 “지능 이전”은 인간과 같은 추론을 가진 AI 시스템을 강화하고 더 효율적으로 만드는 데 중요한 열쇠일 수 있다. 강한 지능 이전을 가진 AI 모델은 광범위한 계산을 하지 않고도 성공할 가능성이 있는 솔루션을 예측할 수 있다. 완전한 검색 방법에 의존하는 대신에, 직감은 AI 시스템이 이전 지식을 활용하여 가장 효과적인 경로를 솔루션으로 집중할 수 있다.
Cogito v2의 ‘직감’ 통합
Cogito는 최근에 출시된 Cogito v2 모델에서 ‘직감'(보다 기술적으로 지능 이전)이라는 아이디어를 통합했다. 이들은 반복적 증류 및 증폭(IDA)이라는 메커니즘을 사용하여 이 아이디어를 통합했다. 이 메커니즘은 모델이 자신의 추론 프로세스에서 학습하고 시간이 지남에 따라 문제 해결 능력을 tinh chỉnh할 수 있다. 정적 프롬프트 또는 고정된 교사에 의존하는 대신에, IDA는 AI가 성공적인 추론 경로를 자신의 핵심 모델 매개변수로 증류할 수 있다. 이 자기 개선 프로세스는 모델의 추론 능력을 tinh chỉnh하여, 정확한 답변에 대해서만 아니라, 가장 효율적인思考 방법에 최적화한다.
-
반복적 증류 및 증폭(IDA)
IDA가 작동하는 방식을 이해하기 위해, 우리는 이중 처리 이론을 살펴볼 수 있다. 이 이론은 인간의 생각을 두 가지 시스템, 즉 시스템 1과 시스템 2로 나눈다. 시스템 1은 빠르고 직관적인 의사 결정에 해당하며, 시스템 2는 더 느리며, 더 의도적인 추론이다. 이 이론은 인간이 대부분의 작업에 시스템 1을 사용하지만, 더 복잡한 결정에 직면할 때 시스템 2로 전환한다고 제안한다.
IDA는 증폭과 증류의 두 단계로 구성된다. 증폭 단계에서, 모델은 높은 품질의 솔루션 또는 추론 추적을 생성하기 위해 집중적인 계산 방법을 사용한다. 이것은 시스템 2思考과 유사하며, 여기서 AI는 잠재적인 솔루션을 신중하게 평가하는 데 시간을 쓴다. 증류 단계에서, 모델은 증폭 단계에서 얻은 통찰력을 내부화하여, 추론 프로세스를 시스템 2에서 시스템 1로 변환한다. 인간 운전자가 경험을积累함에 따라 더 직관적으로 되는 것과 마찬가지로, IDA를 가진 AI 모델은 시간이 지남에 따라 더 빠르고, 더 효율적인 결정을 내릴 수 있다.
IDA의 핵심 아이디어는 증폭 단계에서 계산적으로 집중적인 추론을 사용한 다음, 증류 단계에서 추론을 모델의 매개변수로 내부화하는 것이다. 이 프로세스는 모델이 문제를 해결할 때 직관적으로 생각할 수 있는 능력을 구축한다. 이 사이클을 반복함으로써, AI 시스템은 결정을 내리기 위해 더 적은 계산 자원을 사용하여 더 효율적으로 생각할 수 있다.
‘직감’을 AI에 통합하는 장점
AI의 직감의 주요 장점 중 하나는 효율성이다. Cogito v2와 같은 모델은 경쟁 모델보다 60% 더 짧은 추론 체인을 демон스트레이션한다. 이는 더 적은 내부 단계로 답변에 도달할 수 있음을 의미하며, 추론에 필요한 시간과 자원이 줄어든다. 예를 들어, DeepSeek R1이 200개 이상의 토큰을 사용하여 해결해야 하는 문제는 Cogito v2에서 100개 미만의 토큰으로 해결할 수 있다.
또한 Cogito v2의 훈련 비용은 전통적인 AI 모델의 훈련 비용보다 훨씬 낮다. Cogito v2의 전체 훈련 프로세스는 다양한 매개변수를 포함하여 350만 달러 미만으로 완료되었으며, 이는 대규모 모델인 GPT-4와 같은 모델의 비용보다 훨씬 낮다.
Cogito v2는 훈련되지 않은 분야에서 새로운 능력을 보여주었다. 예를 들어, 주로 텍스트에 훈련되었음에도 불구하고, Cogito v2는 이미지에 대해 추론할 수 있으며, 이미지 구성과 서식에 대한 통찰력을 얻을 수 있다. 이러한 크로스 모달 추론 능력은 인공 일반 지능(AGI)의 중요한 里程碑인 일반화된 지능에 대한 중요한 단계이다.
AI 개발의 재고
지능 이전의 성공은 AI 개발 전략이 근본적으로 바뀌어야 함을 시사한다. 모델의 크기를 확대하거나 계산 자원을 증가시키는 것보다, AI 개발은 스스로의 인지 전략을 개발하고 tinh chỉnh할 수 있는 시스템을 구축하는 데 중점을 두어야 한다. 이는 인간의 인지 발달을 반영하며, 여기서 지능은 더 큰 뇌 또는 더 오래 생각하는 것이 아니라, 더 나은 정신 모델과 추론 전략의 결과이다. 이러한 접근 방식의 변화는 장기적인 영향을 미칠 수 있다. 더 똑똑하게 생각하는 것보다 원시적인 계산 능력을 강조함으로써, AI는 더 유연하고, 적응性과 새로운 도전을 해결하는 능력이 향상될 수 있다. 이러한 전환은 의료, 사이버 보안, 자율 주행차와 같은 산업에서 AI의 적용을 가속화할 수 있으며, 더 효율적이고 비용 효율적이며 영향력이 있는 AI 시스템을 만들 수 있다.
결론
Cogito v2의 성공은 AI의 미래가 모델을 확대하거나 계산 능력을 증가시키는 것이 아니라, 추론 아키텍처를 tinh chỉnh하고 더 똑똑한 문제 해결을 최적화하는 데 있음을 보여준다. 이러한 전환은 더 지속 가능하고 접근하기 쉬운 AI의 미래를 약속한다. 여기서 시스템은 더 적은 계산 자원에 의존하지 않고 지속적으로 개선되고 적응할 수 있다. 무력적인 계산보다 지능적인 추론에 중점을 둠으로써, AI는 더 복잡하고 실제적인 문제를 해결하는 데 더 능숙해질 수 있다.












