Connect with us

Claude “Nerfing” ๋…ผ์Ÿ์€ Claude์— ๊ด€ํ•œ ๊ฒƒ์ด ์•„๋‹ˆ๋‹ค. ๊ทธ๊ฒƒ์€ ๋ˆ„๊ตฐ๊ฐ€์˜ ๊ฒฐ์ •์— ๋”ฐ๋ผ ์šด์˜์ด ๋Œ์•„๊ฐˆ ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ์ผ์— ๊ด€ํ•œ ๊ฒƒ์ด๋‹ค.

์‚ฌ์ƒ ๋ฆฌ๋”

Claude “Nerfing” ๋…ผ์Ÿ์€ Claude์— ๊ด€ํ•œ ๊ฒƒ์ด ์•„๋‹ˆ๋‹ค. ๊ทธ๊ฒƒ์€ ๋ˆ„๊ตฐ๊ฐ€์˜ ๊ฒฐ์ •์— ๋”ฐ๋ผ ์šด์˜์ด ๋Œ์•„๊ฐˆ ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ์ผ์— ๊ด€ํ•œ ๊ฒƒ์ด๋‹ค.

mm
A series of glowing hexagonal glass modules containing microchips in a dark server room; one module on the left is cracked and glowing blue, while others remain intact and glowing amber, connected by flowing data cables.

올해 초, AMD의 AI 상급 디렉터인 Stella Laurenzo는 Claude Code 세션에서 약 7,000개의 텔레메트리 데이터를 공개했는데, 이것은 엔지니어가 느끼고 있었지만 표현하기 어려웠던 것을 문서화했다: 1월과 3월 사이에 가시적인 추론 깊이가 73% 감소했고, API 호출이 작업당 80배 증가했으며, 모델이 편집을 하기 전에 훨씬 적은 파일을 읽었다. 숫자는 빠르게 퍼졌고, 해석은 더 빠르게 퍼졌다.

Anthropic은 이 프레이밍을 부정한다. 회사는 이러한 변경이 의도적인 제품 결정의 결과라고 말한다. 이는 새로운 적응형 사고 메커니즘과 기본값으로 중간 노력을 사용하는 것을 포함한다. 독립 분석가들도 방법론의 일부에 대해 반발했다. 논쟁은 진행 중이며, 합리적인 사람들은 실제로 무슨 일이 발생했는지에 대해 동의하지 않는다.

그러나 운영을 하는 사람들에게 중요한 부분은 이것이다: 이것이退化인지 의도적인 튜닝인지에 관계없이 기업 운영에 실제로 무슨 일이 발생했는지에 대해 변경되지 않는다. 그들은 예측할 수 없었다. 그들은 제어할 수 없었다. 그리고 일부는 이해하기 전에 이미 프로덕션에서 영향을 받았다. 이것이 실제 이야기가 되며, 이것은 Anthropic과는 관련이 없다.

이것은 의존성 문제이지 모델 문제가 아니다.

우리가 설명하는 것은 이름이 있다: 모델 취약성. 이것은 임무에 중요한 운영이 단일 모델의 동작에 밀접하게 결합되어 있기 때문에, 모델 레이어에서 발생하는 모든 변경(튜닝 결정, 새로운 기본값, 용량驱动 라우팅 변경, 또는 조용한 폐기 등)이 비즈니스에 직접적으로 영향을 미치고, 버퍼나 경고 없이 발생하는 상태이다.

이것은 새로운 패턴이 아니다. GPT-4는 2023년에 이러한 문제를 겪었다. Claude 3.5는 2024년에 이러한 문제를 겪었다. Claude Opus는 지금 이러한 문제를 겪고 있다. 다음 프론티어 모델과 그 다음 모델에서도 이러한 문제가 발생할 것이다. 어느 벤더가 나쁜 의도를 가지고 행동하는 것이 아니라는 것은 누구도 알지 못한다. 그러나 글로벌 볼륨에서 비용, 지연, 규모를 최적화하는 것은 프론티어 벤더가 해야 하는 일이다. 그들의 인센티브와 기업의 운영 인센티브는 관련이 있지만, 동일하지는 않다.

우리는 2023년에 Qurrent를 시작했고, 기업 소프트웨어 사이클이 어떻게 진행되는지에 대한 역사적인 지식을 가지고 있다: 한 회사가 AI에 투자한다. 데모가 작동한다. 파일럿이 작동한다. 그리고 그것이 라이브로 가면, 모델 레이어에서 무언가가 변경되고,突然 고객이 문제를 소유하게 된다. 그들은 워크플로우를 유지 관리하고, 회귀를 추적하고, 중단을 흡수하는 사람이다. 이것은 기업 운영에 대한 지속 가능한 모델로 कभ누에도 의미가 없었다.

이 이야기는 기술적인 것이 아니라 운영적인 것이다.

개발자들에게 현재 상황은 불편하다. 토큰 예산이 더 빠르게 소모된다. 코딩 세션이 중단된다. 벤치마크가 실망스럽다. 이것은 실제적인 문제이지만, 복구 가능한 문제이다.

그러나 금융 운영, 컴플라이언스 워크플로우, 계정 수취 및 지불, 복잡한 백오피스 프로세스를 운영하는 기업들에게는 달라진다. 이러한 워크플로우는 나쁜 주를 흡수할 수 없다. 오류가 누적된다. 볼륨이 누적된다. SLA는 실제 고객에게 대한 약속이기 때문에, 모델이 높은 위험 프로세스에서 성능이 저하되면, 누군가가 아직 이를 인식하지 못했는지 여부에 관계없이 손실이 누적되고 있다.

이것을 더 어렵게 만드는 것은 대부분의 회사가 AI를 앞서기 위해 단일 모델에 내부 에이전트를 구축했지만, 이제 그들이 이러한 기초가 불완전했다는 것을 발견하고 있다는 것이다. 첫 번째 에이전트는 쉬웠다. 구축되지 않은 것은 주변 인프라였다: 행동 드리프트를 고객이 인식하기 전에 감지하는 평가 프레임워크, 모델이 성능이 저하되면 자동으로 작업을 다시 라우팅하는 페일오버 논리, 그리고 매 분기마다 변경되는 풍경을 따라갈 수 있는 지속적인 거버넌스. 이러한 세 가지 갭은 관리 가능하게 유지되지 않는다. 그것은 예산을 할애하지도 않았고, 영향력을 행사할 수 없는 벤더의 결정에 따라 일하는 사람들로 구성된 영구적인 엔지니어링 기능으로 성장한다.

프로덕션에서 실제로 회복력이 무엇인지.

우리는 Qurrent에서 디지털 워크フォ스를 처음부터 모델-에이전시로 구축했다. 이것은 마케팅 포지션으로서가 아니라, 구조적 요구 사항으로서였다. 모든 작업은 해당 작업에 대한 최상의 성능을 발휘하는 모델로 라우팅되며, 지속적으로 평가된다. 더好的 모델이 출시되면 고객이 자동으로 이를 받는다. 현재 모델이 특정 워크플로우에서 성능이 저하되면, 오케스트레이션 레이어가 몇 초 내에 작업을 다시 라우팅한다. 이는 인간의 개입 없이 이루어지며,誰도 2시의 슬랙 스레드를 깨우지 않는다.

그 아래에는 자동 시뮬레이션이 프로덕션 워크플로우에 대해 일일이 측정하고, 출력이 예상된 동작과 일치하는지 여부를 확인한다. 드리프트는 인프라 레이어에서 감지되며, 운영 팀이 이를 느끼기 전에 그리고 고객이 느끼기 훨씬 전에 감지된다. 그리고 모든 디지털 워커의 결정은 로그되고 검토 가능하다. 이것은 완전한 글래스 박스이다. 왜냐하면, 볼 수 없는 것을 관리할 수 없기 때문이다.

이것은 프리미엄 기능이 아니다. 이것은 기업 규모에서 프로덕션에서 AI를运行하는 데 필요한 입장료이다. 대부분의 회사는 뉴스 사이클 중간에서 이것을 배우고 있다. 이것은 비싼 방법으로 배우는 것이다.

이번 분기에 물어야 할 질문.

만약 운영에 가장 많이 의존하는 모델이 다음 분기에 나쁜 주를 보인다면, 얼마나 많은 워크플로우가 영향을 받을까? 어떻게 알 수 있을까? 그리고 얼마나 빠르게 이를 우회할 수 있을까?

만약 두 번째 질문의答案이 “우리는 고객으로부터 들을 것이다”라면, 운영은 프로덕션 준비가 되지 않았다. 이것은 파일럿이 규모에 따라 실행 중이며, 이 차이는 대부분의 리더가 실감하지 못할 것이다. 그러나 실제로 중요한 차이이다.

현재의 논쟁은, 뒷면으로는, 유용하다. 모든 CFO와 COO는 이것을 실제 운영 부하에서 모델 취약성이 어떻게 보이는지에 대한 무료 미리보기를 얻었다. 올바른 반응은 모델을 전환하는 것이 아니다. 그것은 단일 모델에 의존하지 않는 운영을 구축하는 것이다.

기술은 계속해서 변경될 것이다. 이것이 이 시장에서 唯一의 확실성이다. 이번 십년간에서 가장 강력한 기업이 되는 것은 올바른 모델을 선택한 기업이 아니다. 그것은 운영이 कभ누에도 신경 쓰지 않아도 되는 기업이 될 것이다.

Colin Wiel, Qurrent์˜ CEO ๋ฐ ๊ณต๋™ ์ฐฝ๋ฆฝ์ž๋Š” 1990๋…„๋Œ€๋ถ€ํ„ฐๆทฑใ AI์™€ ํ•จ๊ป˜ ์ผํ•ด์˜จ ๋ฒ ํ…Œ๋ž‘ ๊ธฐ์—…๊ฐ€์ž…๋‹ˆ๋‹ค. Colin์˜ ์ด์ „ ๋ฒค์ฒ˜์—๋Š” 2020๋…„์— ๊ฐ€์žฅ ๋น ๋ฅด๊ฒŒ ์„ฑ์žฅํ•˜๋Š” ๋ฒ ์ด ์—๋ฆฌ์•„ ํšŒ์‚ฌ๋กœ ๋ช…๋ช…๋œ ๋‹จ๋… ๊ฐ€์กฑ ์ž„๋Œ€ ํˆฌ์ž ํ”Œ๋žซํผ์ธ Mynd์™€ 2014๋…„ NYSE์— ์ƒ์žฅํ•˜๊ธฐ ์ „์— 17,000๊ฐœ์˜ ์ฃผํƒ์„ ๊ด€๋ฆฌํ•˜๊ณ  35์–ต ๋‹ฌ๋Ÿฌ ์ด์ƒ์„ ์กฐ๋‹ฌํ•œ Waypoint Homes๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. AI ํ˜์‹ ์— ๋Œ€ํ•œ ์ธ์ •์œผ๋กœ Colin์€ ๋‹ค์ˆ˜์˜ ํŠนํ—ˆ๋ฅผ ๋ณด์œ ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, Goldman Sachs์˜ ๊ฐ€์žฅ ํ˜์‹ ์ ์ธ ๊ธฐ์—…๊ฐ€ ์ƒ์œ„ 100๋ช…์— ์„ ์ •๋˜์—ˆ์œผ๋ฉฐ, Ernst & Young ์—”ํŠธ๋ ˆํ”„๋ ˆ๋„ˆ ์˜ค๋ธŒ ๋” ์ด์–ด๋กœ ์„ ์ •๋˜์—ˆ์Šต๋‹ˆ๋‹ค.