Connect with us

์•„๋‹ˆ, AI๋Š”ๅœๆปžํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋‹น์‹ ์€ ์ž˜๋ชป๋œ ์ ์ˆ˜ํŒ์„ ๋ณด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค

์‚ฌ์ƒ ๋ฆฌ๋”

์•„๋‹ˆ, AI๋Š”ๅœๆปžํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋‹น์‹ ์€ ์ž˜๋ชป๋œ ์ ์ˆ˜ํŒ์„ ๋ณด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค

mm

경영진은 이제 자신의 AI 로드맵에 대해 의문을 갖기 시작했습니다. 2023년에 생성 도구의 초기 급증 이후, गत도가 느려졌는지 묻는 것은 자연스러운 것입니다. 그러나 그 질문은 점수판을 잘못 읽는 것입니다. AI의 진행은停滞하지 않았습니다. 그것은 변했습니다.

한때 표면에서 지수적变化으로 느껴졌던 것, 유창한 글쓰기, 정리된 요약은 이제 더 깊은, 더 중요한 영역에서 발생하고 있습니다. 이유, 코드, 워크플로우 오케스트레이션, 및 멀티모달 이해와 같은 영역입니다. 이러한 발전은 menos 화려하지 않지만 훨씬 더 영향력이 큽니다. 당신이 아직도 AI를 더 좋은 문단을 작성하는 능력으로 측정하고 있다면, 당신은 실제 변화를 놓치고 있습니다.

실제 이익은 일이 이루어지는 곳에서 발생합니다

진전은 가장 중요한 곳에서 가속화되고 있습니다. 새로운, 엄격한 벤치마크인 GPQA와 같이, 대학원 수준의 과학적 이유를 평가하는 모델의 성능은 거의 49% 포인트가 증가했습니다. MMMU와 같이, 크로스 도메인 및 멀티모달 작업을 테스트하는 점수는 거의 19 포인트 증가했습니다. SWE-bench와 같이, 실제 GitHub 코드베이스를 수정하고 자동화된 테스트를 통과해야 하는 벤치마크는 1년 만에 4.4%에서 71%로 급증했습니다.

이러한 발전은 마진적인 발전이 아닙니다. 그것은 대형 언어 모델이 정밀성, 이유, 및 복잡한 시스템 전체에 걸친 통합을 요구하는 작업을 마스터하고 있음을 보여줍니다. SWE-bench와 같이, 玩具 문제를 넘어서 실제 소프트웨어 개발에 참여할 수 있는지 보여주는 임계값을 넘어섰습니다.

同时, 기업은 기대치를 발전시키고 있습니다. 모델이 “일반적으로 지능적”인 것만으로는 충분하지 않습니다. 그것은 특별히 유용해야 합니다. 도메인 적응 모델, 툴 연결 시스템, 및 멀티 에이전트 프레임워크로의 전환은 실제 워크플로우에 통합된 성능, 감사 가능성, 및 운영에 대한 요구가 증가하고 있음을 반영합니다.

내러티브는 현실과 일치하지 않습니다

왜 일이 느려지는 것처럼 느껴질까요? 두 가지 이유가 있습니다. 첫째, 초기에 주목을 끈 벤치마크인 텍스트 요약, 이메일 생성, 및 간단한 채팅 작업은 자연적인 천장을 맞이했습니다. 모델이 이러한 작업에서 90%의 정확도로 일관되게 수행할 때, 발전은 미미해 보입니다. 이것은 천장 효과이며, 발전의 평탄화가 아닙니다.

오늘날의 발전은 긴 컨텍스트 메모리, 툴 통합, 추론 시간 이유, 및 도메인 특정 정확성을 포함합니다. 이러한 기능은 바이러스性 데모를 생성하지 않지만 실제 워크플로우에서 모델이 수행할 수 있는 것을 극적으로 향상시킵니다. 전통적인 언어 벤치마크가 평탄화되는 동안, 실제 세계 이유, 툴 사용, 및 기업 신뢰성에 연결된 운영 벤치마크는 이전보다 빠르게 개선되고 있습니다. 그 격차는 불일치를 설명합니다. 비전문가는 표면이 변경되지 않았기 때문에停滞를 보지만, 실무자는 바로 아래에서 변화를 보는 것입니다.

데모에서 배포로

AI는 더 이상 화려한 데모나 狭い 프로토タイプ에 국한되지 않습니다. 그것은 주요 배포, 특히 신뢰성, 정확성, 및 결과 전달이 중요한 기업 환경으로의 문턱을 넘고 있습니다. 구조화된, 작업 특정 시스템으로의 전환은 이미 진행 중입니다.

2026년까지, 40%의 기업 애플리케이션은 내장된 AI 에이전트를 특징으로 할 것입니다. 이는 2025年的 5%에서 큰 급증입니다. 이러한 에이전트는 단순히 프롬프트에 응답하는 것이 아니라, 작업을 실행하고, 워크플로우를 오케스트레이션하며, 재무, 사이버 보안, 및 고객 운영과 같은 영역에서 구체적인 결과를 전달하도록 설계되었습니다.

이 발전은 더 깊은 기술적 변화를 반영합니다. 주요 AI 개발자, 포함 OpenAI,는 브루트 포스 스케일링을 넘어서 추론 시간 이유를 채택하고 있습니다. 모델은 문제를 생각하고, 출력을 검증하며, 외부 툴과 동적으로 상호 작용할 수 있습니다. 한번은 狭い 자동화로 보였던 것이 이제 훨씬 더 능력있는 에이전트가 되었습니다. 계획, 적응, 및 신뢰성 있게 실행하는 에이전트입니다. 이것은 더 큰 AI가 아닙니다. 이것은 실제 작업을 위한 더智能한 AI입니다.

그리고 실제 작업은 측정되고, 상상되고 있지 않습니다. 기업은 증명된 개념 주기를 넘어서 생산 준비 배포로 이동하고 있으며, 결과에 연결된 명확한 KPI 및 비즈니스 목표가 있습니다. 이 성숙 단계는 새로운 것이 아니라, 신뢰성에 관한 것입니다.

경영진이 곧 犯する 실수

실제로 기업 리더들이 직면하는 위험은 AI의 발전이停滞했다는 것이 아닙니다. 그것은 그들이 그렇게 믿고, 정확히 능력들이 표면 아래에서 가속화되고 있는 순간에 투자를 중단할 때입니다.

앞서 나가는 조직은 다음 GPT 스타일의 공개를 기다리고 있지 않습니다. 그들은 오늘의 AI를 고가치, 크로스 기능 워크플로우에 내장시키고, 측정 가능한 비즈니스 영향을 전달하고 있습니다. 두 세 번째의 조직은 AI를 사용하여 직접적으로 이러한 배포에 연결된 비용 감소 또는 수익 증가를 보고 있습니다. 가장 성공적인 채택자는 비즈니스 기능 전체에 걸쳐 AI를 통합하고, 전체 프로세스 체인을 자동화한 것입니다.

그러나 많은 경영진 팀은 여전히 구식 평가 프레임워크를 사용하고 있습니다. 그들은 더 이상 실제 기업 작업의 복잡성을 반영하지 않는 학술적 벤치마크에 의존합니다. 그들은 토큰 효율성을 과도하게 최적화하면서 정확성, 복구 가능성, 및 통합의 운영 가치를 무시합니다.

이것은 기술적인 지연이 아닙니다. 이것은 전략적인 지연입니다. AI 접근 방식을 재조정한 회사와 그렇지 않은 회사 사이의 격차는 커지고 있습니다. 그리고 곧, 그것은 모델이 배포된 수 또는 시장 점유율로 측정되지 않을 것입니다. 그것은 시간에 따른 가치 실현으로 측정될 것입니다.

AI 평가를 재고하는 방법

점수판을 업데이트할 때입니다. 조직은 전체 작업 완료, 툴 오케스트레이션, 및 크로스 모달 워크플로우를 추적해야 합니다. 모델은 질문에 대답하는 것만이 아니라, 멀티 스텝 작업을 완료하고, 실패에서 회복하고, 기존 시스템에 통합되는 출력을 생성하는지 평가해야 합니다.

GPQA, MMMU, 및 SWE-bench와 같은 벤치마크는 시작점입니다. 그러나 기업의 특정 도메인 및 워크플로우를 중심으로 구축된 내부 벤치마크는 훨씬 더 중요합니다.

현대적인 AI는 높은 가치의 결과를 전달할 수 있지만, 실제로 중요한 결과를 테스트해야 합니다.

다음 波의 성공을 정의하는 것은 모델의 파라미터가 가장 많다는 것이 아닙니다. 그것은 특정 비즈니스 컨텍스트에서 신뢰성 있게 수행하는 시스템입니다. 정확성, 감사 가능성, 툴 체인 지원, 및 오류 복구는 유창성이나 тон보다 더 중요할 것입니다.

프론티어는 이동했습니다

AI는停滞하지 않습니다. 그것은 실제 작업이 이루어지는 곳으로 이동하고 있습니다. 시스템이 이유, 검증, 및 도메인 전체에 걸쳐 상호 작용해야 하는 곳입니다. 그것은 새로운 단계를 넘어서서 인프라 단계로 들어가고 있습니다.

이 변화를 이해하는 公司는 이미 우위를 점하고 있습니다. 그들은 다음 화재 작품을 기다리고 있지 않습니다. 그들은 실제 생산성을 획득하고, 시간을 절약하고, 정밀성과 속도로 프로세스를 확장하고 있습니다.

당신이 아직도 구식 점수판을 보고 있다면, 당신은 다른 곳에서 점수를 얻고 있는 것을 놓치고 있습니다. 다음 리더는 화재를 기다린 사람들이 아닙니다. 그들은 실제 신호에 따라 행동한 사람들입니다.

Steve Wilson๋Š” Exabeam์˜ Chief AI Officer๋กœ์„œ ๊ธ€๋กœ๋ฒŒ ๊ธฐ์—…์„ ์œ„ํ•œ ๊ณ ๊ธ‰ AI ๊ธฐ๋ฐ˜์˜ ์‚ฌ์ด๋ฒ„ ๋ณด์•ˆ ์†”๋ฃจ์…˜ ๊ฐœ๋ฐœ์„ ์ด๋Œ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ณ„์ ˆ ๊ธฐ์ˆ  ์ด์‚ฌ์ธ ์œŒ์Šจ์€ ๊ธ€๋กœ๋ฒŒ 2000 ์กฐ์ง์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ํด๋ผ์šฐ๋“œ ํ”Œ๋žซํผ ๋ฐ ๋ณด์•ˆ ์‹œ์Šคํ…œ์„ ์„ค๊ณ„ํ•˜๋Š” ๋ฐ ๊ฒฝ๋ ฅ์„ ๋ณด๋ƒˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Š” ๊นŠ์€ ๊ธฐ์ˆ  ์ „๋ฌธ ์ง€์‹๊ณผ ์‹ค์ œ ๊ธฐ์—… ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์„ ์—ฐ๊ฒฐํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์ธํ•ด AI ๋ฐ ๋ณด์•ˆ ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ ๋„๋ฆฌ ์กด๊ฒฝ๋ฐ›๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์œŒ์Šจ์€ ๋˜ํ•œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ ๋ณด์•ˆ์„ ์œ„ํ•œ ๊ฐœ๋ฐœ์ž ํ”Œ๋ ˆ์ด๋ถ(O'Reilly Media)์˜ ์ €์ž๋กœ์„œ, ํ˜„๋Œ€ ์†Œํ”„ํŠธ์›จ์–ด ์Šคํƒ์—์„œ GenAI ์‹œ์Šคํ…œ์„ ๋ณด์•ˆํ•˜๋Š” ์‹ค์šฉ์ ์ธ ๊ฐ€์ด๋“œ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.