Connect with us

AI ๋น„์šฉ ์ œ์–ด๊ฐ€ ๊ธฐ์—…์˜ ๋‹ค์Œ ํ™•์žฅ ๋„์ „์ด ๋˜๋Š” ์ด์œ 

์‚ฌ์ƒ ๋ฆฌ๋”

AI ๋น„์šฉ ์ œ์–ด๊ฐ€ ๊ธฐ์—…์˜ ๋‹ค์Œ ํ™•์žฅ ๋„์ „์ด ๋˜๋Š” ์ด์œ 

mm
A high-tech data center landscape featuring glowing blue fiber-optic data streams converging into a complex network, passing through a massive, reinforced industrial gate that represents a

1. AI 배포 후 숨겨진 비용 충격

초기 테스트에서 AI 시스템은 표면적으로 경제적으로 효율적인 것으로 보인다. 트래픽 볼륨은 낮고, 사용 사례는 狹く 정의되어 있으며, 팀은 제어된 환경에서 행동을密接하게 모니터링한다. 이러한 조건에서 비용은 일반적으로 개별 모델 호출 또는 제한된 워크플로우 수준에서 평가된다. 확장이 간단할 것이라는 인상을 준다. 적어도 대부분의 팀이 그렇게 생각했다.

그런 인상은 생성적 AI 지출이 감소하는 기미를 보이지 않는다는 사실로 강화된다. 최근 보고서에 따르면, 기업의 생성적 AI 응용 프로그램 지출은 2025년에 수십억 달러에 달하여 전년 대비 3배 이상 증가했다.

하지만 현실은 에이전트가 실제 사용자와 운영 복잡성에 노출되면 달라진다.

생산 환경은 예측할 수 없는 상호 작용 패턴, 더 긴 대화, 백그라운드 프로세스 및 더 능숙한 모델로의 에스컬레이션 경로를 도입한다. 단일 요청은 테스트 중에 보이지 않았던 여러 다운스트림 동작을 트리거할 수 있다. 기업은 많은 팀이 “청구서驚愕”이라고 설명하는 도전을 맞이한다. 즉, 명확한 이해 없이 지출이突然 증가한다.

이 단계에서 도전은 모델을 최적화하는 것만이 아니다. 실제로 AI 비용을駆動하는 런타임 동적을洞察하는 것이다.

2. 전통적인 클라우드 비용 모델을 깨는 AI 워크로드

이전에는 전통적인 클라우드 비용 관리는 상대적으로 예측 가능한 워크로드를 중심으로 발전했다. 인프라 소비는 안정적인 단위인 컴퓨팅 시간, 저장소 또는 요청 볼륨으로 측정할 수 있으며, 프로비저닝 전략 또는 사용 제어를 통해 최적화할 수 있다. 주요 사항은 실행 경로가 대부분 결정적이었다는 것이다. 이는 지출을 합리적인 정확도로 예측하고 비용을 특정 서비스 또는 팀에 할당할 수 있게 했다.

AI 워크로드는 다른 경제 모델을 도입한다. 지출은 대부분 토큰 사용, 컨텍스트 크기, 모델 호출 체인 및 동적 워크플로우 결정과 관련이 있다.

同じ 사용자 요청은 확신 임계값, 툴 응답 또는 폴백 논리에 따라 완전히 다른 실행 경로를 따를 수 있다. đó가 비용이 선형적이거나 예측하기 쉽지 않은 이유이다. 전통적인 FinOps 대시보드는 인프라 소비에 대한 가시성을 제공한다. 실제 문제는 런타임 동작을 포착하는 데 얼마나 자주 어려움을 겪는지에 있다. 기업은 전통적인 수단을 통해 AI 시스템의 경제를真正로 결정할 수 없다.

3. 에이전트 시스템의 확장 비용 표면

기업이 단일 단계 추론에서 에이전트 아키텍처로 이동함에 따라 AI 시스템의 비용 프로필은 훨씬 더 복잡해진다. 최근 산업 분석에 따르면, 2027년까지 에이전트 AI 프로젝트의 40% 이상이 배포 비용과 복잡성으로 인해 생산에 도달하지 못할 것으로 예측된다.

사용자 요청은 하나의 모델 호출을 통해 해결되지 않는다. 대신, 프로세스는 계획 단계,检索 작업, 툴 실행 및 여러 에이전트 간의 상호 작용을 포함하는 조정된 워크플로우를 통해 진행된다.

그리고 앞서 언급한 워크플로우는检索 보강 생성(RAG) 또는 다중 에이전트 협력을 포함하여 시간이 지남에 따라 합성되는 추가 유료 작업을 도입한다.

한 상호 작용은 임베딩 호출, 벡터 데이터베이스 쿼리, 반복적 推論 루프 및 확신도가 떨어질 때 더 능숙한 모델로의 에스컬레이션을 트리거할 수 있다. 각 개별 동작은孤立적으로 보아 마치 사소한 것 같지만, 그들의 누적 효과는 시스템의 전체 경제를 결정한다.

4. 프롬프트 최적화만으로 런타임 경제를 해결할 수 없는 이유

프롬프트 최적화는 팀이 AI 비용을 제어하려고 할 때 처음으로 손에 잡히는 레버 중 하나이다. 토큰 사용量을 줄이거나, 지시를 정제하거나, 응답 구조를 개선하면 개별 모델 호출 수준에서 의미 있는 효율성 향상을 가져올 수 있다. 하지만 최적화는 더广い 경제 그림의 작은 부분만을 해결한다. 생산 환경에서 비용의 대부분은 워크플로우 전체의 행동 패턴에 의해駆動된다.

비효율성은 불필요한 재시도,過度한检索, 더 높은 비용의 모델로의 에스컬레이션 또는 결과를 크게 변경하지 않는 에이전트의 작업에서 자주 발생한다. 실행 추적 및 비즈니스 영향에 대한 가시성이 없으면 프롬프트 조정은 시스템의 한 부분에서 다른 부분으로 지출을 단순히 전환할 수 있다.

AI 시스템이 더 자율적이고 상호 연결되면서 비용을 관리하려면 에이전트가 실시간으로 작동하는 방식을 결정하는 시스템 제어가 필요하다. 그것은 단순히 개별 요청의 문구를 로컬로 조정하는 것만이 아니다.

최근 AI FinOps 설문조사에 따르면, 수십억 달러의 클라우드 지출을 다루는 설문조사에서 실시간 AI 비용 가시성, 팀별 예산 및 자동 예산 경고로의 전환을 언급했다. 아이디어는 비용을 순수한 재정 지표가 아닌 운영 SLO로 취급하는 것이다.

5. AI 비용 제어를 위한 새로운 아키텍처 접근 방식

비용의 불안정성이 증가함에 따라 기업은 AI 시스템 내에서 경제적 제어가 어디서 어떻게 적용되어야 하는지 다시 생각하고 있다. 비용 최적화를 후속적인 재정 연습으로 취급하는 대신, 팀은 지출에 런타임에 영향을 미치는 아키텍처 메커니즘을 도입하고 있다.

우리가 시작해서 볼 수 있는 새로운 패턴 중 하나는 작업 복잡성, 대기 시간 목표 또는 예산 제약에 따라 모델 또는 워크플로우를 동적으로 선택하는 라우팅 및 오케스트레이션 레이어의 사용이다. 그것은 기업이 정적 구성 선택에 의존하지 않고 품질과 효율성을 균형있게 조정할 수 있게 한다.

팀이 취하는 다른 경로는 정책 기반 실행 제어, 비용 인식 재시도 전략 및 특정 워크플로우에 지출을 할당하는 중앙 집중식 관찰성이 포함된다.

평가는 또한 더 일반적으로 거버넌스 도구로서 사용되고 있으며, 팀은 미리 정의된 비용 및 성능 임계값을 충족하는 구성만을 승격시키고 있다.

6. 비용은 기업 AI의 다음 신뢰성 게이트

AI 시스템이 핵심 비즈니스 워크플로우에 통합됨에 따라 기업은 실제로 비용을 배포 제약 조건으로서 품질, 보안 및 신뢰성과 함께 취급하기 시작했다. 서비스 수준 목표가 허용되는 성능 경계를 정의하는 것과 마찬가지로, 단위 경제 임계값은 자동화를 안전하게 확장하기 위한 필수 조건으로 등장하고 있다. 예측 가능한 비용 프로필을 충족하지 못하는 시스템은 기술적 능력과 상관없이 운영적으로 정당화하기 어렵다.

이 변화는 팀이 더广い 롤아웃 전에 “비용 게이트”를 도입하도록 유도하고 있으며, 시스템이 라이브되면 지속적으로 모니터링한다. 시간이 지남에 따라 비용 관리는 일회적인 최적화 노력보다는 지속적인 엔지니어링 규율로 발전할 가능성이 있다. AI를 가장 성공적으로 확장하는 기업은 경제적 제어가 처음부터 시스템 설계의 기본이 되도록 하는 기업이 될 것이다. 그러면 능력의 향상을 지속 가능한 운영 모델이 따라갈 수 있다.

기업 AI의 다음 단계에서 경제적 제어가 시스템 설계에서 신뢰성 및 보안만큼 기본적이 될 가능성이 있다.

Sohrab Hosseini, orq.ai์˜ ๊ณต๋™ ์ฐฝ๋ฆฝ์ž๋กœ์„œ ์•”์Šคํ…Œ๋ฅด๋‹ด ์ง€์—ญ์— ๊ธฐ๋ฐ˜์„ ๋‘” ๊ธฐ์ˆ  ๋ฆฌ๋”์ด์ž ๊ธฐ์—…๊ฐ€๋กœ SaaS, ๋Œ€๊ทœ๋ชจ ์‹œ์Šคํ…œ, ์ ์šฉ๋œ AI์— ๊ฑธ์ณ ๊นŠ์€ ๊ฒฝํ—˜์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. 2022๋…„ orq.ai๋ฅผ ์„ค๋ฆฝํ•œ ์ดํ›„๋กœ ๊ทธ๋Š” ์‹คํ—˜์—์„œ ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์ƒ์‚ฐ ์‚ฌ์šฉ์œผ๋กœ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์„ ์ด๋™ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜๋Š” ์‹ค์šฉ์ ์ธ ์ธํ”„๋ผ๋ฅผ ๊ตฌ์ถ•ํ•˜๋Š” ๋ฐ ์ง‘์ค‘ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ์˜ ๋ฐฐ๊ฒฝ์—๋Š” Neocles์˜ COO ๋ฐ CTO, Transdev์˜ ๋ฏธ๋ž˜ ๊ธฐ์ˆ  ๋‹ด๋‹น CTO๋กœ์„œ ์ž์œจ ์ฃผํ–‰ ๋ฐ ์ฐจ๋Ÿ‰ ๊ด€๋ฆฌ์— ์ข…์‚ฌํ•˜์˜€์œผ๋ฉฐ, TradeYourTrip์˜ COO๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋™์‹œ์— ๊ทธ๋Š” ์ดˆ๊ธฐ AI ๊ธฐ์—…์„ ์ง€์›ํ•˜๋Š” ์–ด๋“œ๋ฐ”์ด์ € ๋ฐ ์ฒœ์‚ฌ ํˆฌ์ž์ž๋กœ์„œ ์ œํ’ˆ ๋ฐฉํ–ฅ, ๊ธฐ์ˆ ์  ํŒ๋‹จ, ์‹คํ–‰ ์ „๋žต์„ ์ œ๊ณตํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๊ด‘๊ณ  ๊ณ ์ง€: Unite.AI๋Š” ๋…์ž์—๊ฒŒ ์ •ํ™•ํ•œ ์ •๋ณด์™€ ๋‰ด์Šค๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ์œ„ํ•ด ์—„๊ฒฉํ•œ ํŽธ์ง‘ ๊ธฐ์ค€์„ ์ค€์ˆ˜ํ•ฉ๋‹ˆ๋‹ค. ๋‹น์‚ฌ๊ฐ€ ๊ฒ€ํ† ํ•œ ์ œํ’ˆ ๋งํฌ๋ฅผ ํด๋ฆญํ•  ๊ฒฝ์šฐ ๋ณด์ƒ์„ ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.