사상 리더

모델 개발 자동화를 위한 임계 경로

Published April 14, 2026

Doris Xin, CEO & Co-Founder, Disarray and Moustafa AbdelBaky, CTO & Co-Founder, Disarray

A stylized digital landscape showing illuminated lines connecting data structures. A cluster representing

AI 연구의 다음 중요한 里程碑은 모델 개발을 자동화하는 것입니다. 추론, 언어, 지각의 모든 발전은 어떤 의미에서 그 목표를 향한 한 걸음입니다. 그러나 모델 자동화를 위한 경로에는 먼저 해결해야 하는 일련의 기초적인 도전이 있습니다.

그 목표로 향하는 다리는 바로 기계 학습(ML) 엔지니어링을 통해 가는 것입니다. 일반적인 오해는 ML이 현대 AI의 전신 기술이며 기초 모델이 단순히 그것을 대체했다는 것입니다. 이것은 두 기술之间의 관계를 잘못 이해하고 있습니다. 학문적인 학科로서 ML은 모델 훈련의 모든 측면, 현재 AI의 중심에 있는 기초 모델의 훈련을 포함합니다. 그러나 규모와 데이터 복잡성에서는 의미 있는 차이가 있습니다.

전통적인 ML 모델은 일반적으로 수천 또는 수백만 개의 예제를 포함하는 도메인 특정 데이터셋에서 훈련됩니다. 반면에 기초 모델은 수천 개의 데이터셋에서同時에 훈련되며, 다양한 출처에서 가져오며 형식, 출처, 품질이 일관되지 않습니다. 데이터의 규모와 이질성의 차이는 데이터 관리가 훨씬 더 어려워지고 모델이 더 강력해짐에 따라 더 중요해지는 근본적인 이유입니다.

그것은 모델 개발 자동화에서 데이터 이해가 중앙적인 병목 현상이 되는 이유입니다. 이질적인 데이터를 해석하고 주변 파이프라인을 개선할 수 있는 AI 시스템은 원칙적으로 자신의 훈련 과정을 개선하고 더好的 모델을 구축하는 데 도움이 될 수 있습니다. 일단 AI가 훈련되는 과정에서 자신을 개선할 수 있다면, 모든 도메인에서 AI가 적용됨에 따라 개선 사항이 하류로 전파됩니다.

가로막는 세 가지 장벽

첫 번째 장벽은 컨텍스트 분산입니다. 거의 모든 조직에서 모델링 문제와 관련된 신호, 실험, 기능 정의, 기관 지식은 서로 통신하도록 설계되지 않은 데이터 웨어하우스, 노트북, 파이프라인에 산재해 있습니다. 의료 시스템이 패혈증 감지 모델을 구축하는 경우를 고려해 보십시오. 해당 문제와 관련된 임상 기준, 즉 임계값, 실험실 값, 문서화 표준은 전자 건강 기록 시스템의 별개 모듈에 있을 수 있습니다.

두 번째 장벽은 의미적 모호성입니다. 의미는 데이터에 내재하지 않으며 문脈적이고 기관적입니다. 두 개의 다른 데이터베이스에서 동일한 필드 이름은 미묘하게 다른 것을 참조할 수 있습니다. 수익, 활성 사용자, 이탈과 같은 개념은 단일 회사 내에서 여러 개의 유효한 정의를 가질 수 있습니다. 심지어 “수익”과 같은 개념은 문제를 일으킬 수 있습니다. 판매 팀은 수익을 이번 분기에 체결된 계약의 총 가치로 정의할 수 있습니다. 반면에 재무 팀은 실제로 받은 현금으로 정의합니다. 제품 팀은 다른 이해를 가지고 있으며, 정의된 기간에 걸쳐 인식된 수익을 의미합니다. 모두 각自의 시스템에서 실제로 “수익”이라고 명명된 필드를 끌어오지만, 이를 결합한 교차 팀 보고서는 세 가지 호환되지 않는 숫자를 무시할 수 있습니다.

세 번째이자 가장 체계적인 장벽은 문서화된 기관 기억의 부재입니다. 수천 개의 출처에서 추적, 일관성 해결, 품질 신호 유지와 같은 문제는 인간 팀에게도 해결되지 않은 문제입니다. 시도된 내용과 얼마나 잘 작동했는지에 대한 기관 기억이 없으면 모델 자동화 메커니즘은 동일한 죽은 끝을 계속 다시 발견하여 시간과 자원을浪費하게 됩니다.

소매 회사에서 수요 예측 모델을 구축하는 데이터 과학 팀을 고려해 보십시오. 3년 동안 12명의 분석가 각각 독립적으로 원시 날씨 데이터가 휴일 주에 모델 성능을 저하한다는 것을 발견했으며, 특정 공급업체의 재고 피드가 체계적인 지연을 포함하며, 표준적인 프로모션 이벤트 처리 방법이 목표 누출을 유발한다는 것을 발견했습니다. 원래 분석가가 다른 팀으로 이동하거나 회사를 떠나면 지식도 함께 사라집니다. 시도된 내용, 무엇이 실패하고 왜 실패했는지에 대한 기관 기록이 없으면 모델 자동화 메커니즘은 축적된 경험을 기반으로 구축할 수 없습니다. 그것은 단순히 다시 시작합니다. 다시 시작합니다.

실제 솔루션의 요구 사항

ML 자동화의 역사에는 부분적인 솔루션이 있습니다. AutoML은 하이퍼파라미터 튜닝의 狭い 문제를 해결했지만 목적 함수 불일치 또는 기관 의도에 대한 추론을 처리할 수 없었습니다. MLOps는 프로덕션 파이프라인을 더 강력하고 모니터링하기 쉽게 만들었지만 MLOps 도구는 전략을 정의하는 대신 실행합니다. 더 최근의 코딩 에이전트는 진정한 발전을 나타내지만, 동일한盲点을 물려받았습니다. 코드를 잘 생성하지만 기관 컨텍스트 또는 기관 기억 없이 작동합니다.

진정한 자율 ML 엔지니어링이 가능한 시스템은 기존 도구가 제공하지 않는 기능을 모두 결합해야 합니다. 비즈니스 목표를 모델 목표에 매핑해야 하며, 이는 데이터만으로 추론할 수 없습니다. 불일치한 스키마를 가진 분산 시스템에서 관련 데이터를 발견해야 하며, 자동으로 컴플라이언스, 거버넌스, 보안 제약을 준수해야 합니다. 기존 작업을 표면화하고, 과거 실험을 중단한 이유를 이해하며, 동료들이 이미 알고 있는 내용을 기반으로 구축해야 합니다.

데이터 버전, 기능 정의, 코드 커밋에 대한 추적을 추적하는 엄격한 감사 트레일은 시스템이 실제로 발생한 내용에 기반을 두는 핵심 메커니즘으로 필요합니다. 또한 인간-인-루프 설계가 필요합니다. 완전한 자동화와 완전한 수동 제어 사이의 이진 선택이 아닌, 작업, 자원, 시스템의 확신에 따라 상호 작용 수준을 다르게 지원합니다. 임계적인 시점에서 인간의 판단을 우회하는 자동화는 잘 설계된 AI의 기능이 아닙니다. 오히려, 그것은 故障 모드입니다.

아직까지 해결되지 않은 것은 기관 데이터의 의미적 이해를 생성하는 것입니다. 기관의 특정 컨텍스트에서 데이터가 무엇을 의미하는지 이해하는 것입니다. MCP는 연결 문제를 해결합니다. 그러나 의미 문제는 아직 해결되지 않았습니다. 그것은 여전히 열린 연구 전선입니다.

가능한 것

이러한 문제를 해결하는 경제적 의미는重大합니다. 현재 사용자 정의 ML 개발에는 전문가와 수주간의 반복이 필요합니다. 문제 정의에서 데이터 발견, 모델 개발, 모델 평가까지 전체 워크플로를 자율적으로 탐색할 수 있는 시스템은 그 방정식을 극적으로 압축하고, 시간을 절약하고, 현재 자원 집약적인 경우에 대한 높은 가치 사용 사례를 열 수 있습니다. 수주 동안 작업하는 전문가 팀이 필요한 프로젝트는 이제 ML 전문가의 시간을 많이 사용하지 않고도 며칠 내에 완료할 수 있습니다.

컨텍스트 분산, 의미적 모호성, 기관 기억의 부재와 같은 도전은 기업 ML에만 고유하지 않습니다. 기초 모델 훈련 파이프라인의 구축에서 다른 제약 조건 하에 나타납니다. 여기서 수천 개의 이질적인 데이터셋을 집계, 필터링, 반복적으로 정제해야 합니다. 두 설정은 구조와 목적에서 다르지만, 둘 다 동일한 근본적인 병목 현상으로 제한됩니다. 컨텍스트를 신뢰성 있게 회복하고, 추적을 추적하며, 반복에 걸쳐 이전 작업을 기반으로 하는 시스템의 부재입니다. 따라서 기업에서 모델 개발을 자동화하는 것은 자율적인 AI 시스템을 향한 임계적인 단계입니다.