사상 리더

코드에서 치료까지: 다음 AI 혁명은 손과 눈이 필요하다

Published May 7, 2026

Dr. Le Cong, Associate Professor of Pathology and of Genetics, Stanford University

A diverse female scientist in smart glasses works alongside a sophisticated dual-arm robotic lab system in a futuristic wet lab.

에이전트 시스템, XR 스마트 글래스, 로봇이 인간을 대체하는 것이 아니라 강화할 것

우리는 인공 지능에서 역설을 겪고 있다.

화면에서 AI는 초인적인 능력을 보인다. 대규모 언어 모델은 몇 초 안에 기능적인 Python 코드를 작성한다. 생성 시스템은 몇 분 안에 사진과 비디오를 생성한다. 노벨상을 수상한 시스템인 AlphaFold는 거의 모든 알려진 단백질의 구조를 예측했다. 디지털 세계에서 승리하는 경우가 많다.

그러나 생물의학 연구의 물리적 세계에서는 발견의 과정은 여전히 수동적이다. 우리는 아직 AI가 과학이나 의학을 가속화하는 것을 느끼지 못한다. 숫자는 문제의 심각성을 보여준다. 1,500명 이상의 과학자를 대상으로 한 랜드마크 네이처 설문조사에 따르면 과학자 중 70% 이상이 다른 연구자의 실험을 재현하려 시도했지만 실패했다. 더 문제는 과학자 중 절반이 자신의 연구를 재현하지 못했다는 것이다. 암 생물학에서 특정한 8년간의 재현성 프로젝트에서는 고影响적인 발견 중 40%만이 재현될 수 있었으며 68%의 실험은 재현을 시도할 수 있을 만큼 충분한 문서화가 되지 않았다.

이것이 현대 과학의 더러운 비밀이다: 우리는 발견 문제가 아니라 지식 캡처 문제를 가지고 있다. 임계적인 실험 세부 정보는 연구자의 머릿속에 있으며 논문에는 없다. 프로토콜은 변한다. 암묵적인 지식은 훈련생이 졸업할 때 문을 나서게 된다. 출판된 문헌에 훈련된 AI 시스템은 이러한 간격을 모두 물려받는다.

기본적인 문제는 디지털 시뮬레이션에서 암 치료를 위한 새로운 단백질을 설계할 수 있는 AI지만 그것을 테스트하기 위해 파이프를 잡을 수 없다는 것이다. 그것은 가설을 검증하기 위해 湿実驗실의 지저분하고 예측할 수 없는 현실을 탐색할 수 없다. 그것은 경험豊富한 과학자의 손과 기술을 보고 그것이 실험을 작동하게 하는 미묘한 기술을 배우지 못한다.

이 “실행 격차”는 AI 혁명을 의학 혁명으로 만드는 것을 방해하는 가장 큰 병목 현상이다. 대부분의 로봇 회사들은 아직 기계가 세탁물을 접거나 식기세척기를 불러오는 것을 가르치고 있는 반면에 의학과 같은 분야에서 이러한 발전의真正로 변혁적인 능력에 뒤처지고 있다.

이를 해결하기 위해 우리는 채팅봇을 넘어서서 AI 공동 연구자, 즉 디지털 세계와 물리적 세계를 연결하는 에이전트 시스템을 만들어야 한다. 스탠퍼드에서 우리는 LabOS를 개발하고 있다. LabOS는 디지털-물리적 AI 프레임워크로 AI 에이전트, XR 스마트 글래스, 협력 로봇이 어떻게 협력하여 이 루프를 닫고 과학적 실험을 인간과 기계 간의 협력적인 대화로 변환하며 현재 손실되는 지식을 자동으로 캡처하는지를 보여준다.

대립: 왜 AI는 “눈”과 “손”이 필요할까?

가장 가시적인 AI 승리들은 환경이 완전히 디지털인 경우에 발생했다: 코드 저장소, 커리된 데이터셋 또는 시뮬레이션 벤치마크(에서 AI는 가상 비즈니스 또는 디지털 주식에 투자하는 것을 경쟁한다).

湿實驗室은 다르다. 생물학, 일반적으로 과학적 발견은 매우 노이즈가 많은 과정이다. 기기들은漂移한다, 연산자는 즉흥적으로 작동하며 “프로토콜”은 często 사람들의 머릿속에 있다. 깨끗한 결과와 실패한 실행의 차이는 파이프팅 각도, 보르텍싱 패턴, 시약 대체 또는 10분 동안 진행되는 부화일 수 있다. 이러한 맥락적 세부 사항은 종종 논문에 포함되지 않으며 AI 모델이 데이터셋을 넘어서 일반화하려면 필요한 것이다.

그것이 왜 랩 등급 AI는 “눈”(맥락에서 발생하는 것을 인식하기 위해)과 “손”(고변동성 단계를 표준화하고 안전하게 자동화하기 위해) 및 “기억”(실제로 발생한 것을 기록하기 위해)이 필요한 이유이다. 이러한 기능이 없는 경우 모델은 추천할 수 있지만 추천을 신뢰할 수 있는 물리적 실행으로 번역하거나 계획과 현실이 다를 때 실패할 때 설명할 수 없다.

채팅봇을 넘어서: 공동 조종사에서 공동 연구자까지

에이전트 AI라는 용어는 때때로 느슨하게 사용된다. 생물의학적 환경에서는 그것은 정확한 것을 의미해야 한다: 목표(예: “CRISPR 유전자 편집 효율성을 최적화하고 오프 타겟을 최소화하라”)를 분해하여 작업 순서로 실행하고, 도구를 통해 작업을 실행하고, 결과를 평가하고, 제약 조건하에서 검사 가능한 의사 결정으로 계획을 적응시키는 시스템이다.

이것은 중요하다. 연구 워크플로는 단일 모델 호출이 아니다. 그것은 가설 공식화, 실험 설계, 데이터 처리, 통계적 테스트 및 해석을 포함하는 엔드 투 엔드 파이프라인이다. 최근 약물 발견에 대한 사고 방식은 단계를 가속화하는 것보다 파이프라인을 확장할 수 있는 에이전트 시스템을 강조하기 시작했다(예: Unite.AI의 소분자 발견에서 에이전트에 대한 논의).

소프트웨어 공학에서 우리는 이미 초기 경험적 증거를 보아왔다. AI 공동 조종사가 개발자 처리량을 증가시킬 수 있다는 것을 알았다. 생물의학에서는 기회는 코드를 작성하는 것이 아니라 프로토콜과 데이터를 구조화하고 실행을 모니터링하고 예측과 측정 사이의 루프를 닫는 것과 연결된다.

LabOS: AI가 랩의 운영 체제에서 실행될 때

스탠퍼드에서 AI4Science에 대한 우리의 작업에서, 즉 유전자 편집 공동 조종사와 같은 CRISPR-GPT 및 LabOS와 같은 AI-XR 공동 실행 시스템을 개발하고 있다. 우리는 다음과 같은 아키텍처 이동을 탐색하고 있다:

1. 디지털-물리적 “랩 운영 체제” 설계

전제는 간단하다. 랩 노트북이 과학의 기억이라면 랩 운영 체제는 실행 계층이어야 한다. 의도를 캡처하고 그것을 행동으로 번역하고 결과를 관찰하고 모든 실행을 구조화된 지식으로 변환해야 한다.

[캡션 id=”attachment_421125″ align=”aligncenter” width=”987″] 그림. LabOS가 디지털 랩 루프(계획, 코딩, 비평, 도구 생성)를 물리적 랩 루프(자동 문서화, 지식 캡처, XR 가이드, 로봇 통합)와 연결하는 개념적 보기.

2. 디지털 랩에서 AI – 자기 개선 계획 및 도구 구축

디지털(건조) 랩에서 우리는 AI가 이미 잘하는 것을 할 수 있다: 검색, 종합, 제안. 그러나 우리는 그것을 자기 개선하도록 하려 한다. 새로운 과학을 “환상”하는 것이 아니라, 피드백에서 더好的 도구와 워크플로우를 배우는 것이다.

실용적인 디지털 랩 루프는 네 가지 반복 단계로 구성될 수 있다:

계획(가설 + 설계): 가설을 제안하고 실험 변수를 선택하고 혼동 변수를 예상하고 측정 가능한 종료점을 지정한다.
코딩(구현): 분석 스크립트, 시뮬레이션 파이프라인, 기기 제어 템플릿을 생성하거나 적응한다.
비평 에이전트(추론 + 평가): 가정들을 스트레스 테스트하고 통계적 파워를 확인하고 제어를 제안하고 가능한 실패 모드를 플래그한다.
도구 생성(검색 + 개발): 워크플로우에 구성 요소가 없을 때(파서, QC 루틴, 대시보드) 빌드하고 툴킷에 추가한다.

3. 물리적 랩에서 AI – “눈”(XR 글래스)과 “손”(로봇)

물리적( 湿 ) 랩은 시스템이 신뢰를 얻거나 잃는 곳이다. 목표는 과학자를 대체하는 것이 아니라 마찰과 오류를 줄이고 관찰 가능성을 높이는 것이다.

우리는 물리적 랩 루프를 네 가지 보완 기능으로 본다:

자동 기록 및 문서화: 행동, 타임스탬프, 기기 설정, 편차를 자동으로 캡처하여 문서화가 사후 작업이 되지 않도록 한다.
지식 캡처를 통한 빠르고 재현 가능한 실행: 실행을 구조화된, 쿼리 가능한 아티팩트(프로토콜 버전, 매개 변수 집합, QC 결과)로 변환하여 데이터 관리 원칙과 일치한다.
실시간 비전-언어 가이드를 통한 XR 스마트 글래스: 다중 모달 모델을 사용하여 장면을 해석하고(연산자가 무엇을 하는지, 어떤 시약이 손에 있는지) 단계별 가이드와 안전 점검을 제공한다.
고변동성 단계의 로봇 통합을 통한 자동화: 반복적인 단계를 표준화하고 안전한 인도를 가능하게 하고 변동성을 줄인다.

이 아키텍처는 더 넓은 분야의 방향과 일치한다: “자율 주행” 또는 자동화된 연구소가 계획된 다음 실험을 계획하기 위해 자동화와 기계 학습을 결합한다. LabOS는 무엇을 추가하는가? 더 투명한 인간 인터페이스 계층이다. 그래서 자율성이 투명성의 비용으로 오지 않는다.

랩 등급 AI는 단지 “데이터셋上的 AI”가 아니다

생물의학/과학적 초지능을 위한 AI 시스템은 회고적 평가 또는 시험에서 인상적인 것으로 보일 수 있다. 그러나 물리적 랩에서 성과가 부족하다. 이유는 하나의 버그가 아니라 모델의 가정과 랩의 현실 사이의 불일치이다.

세 가지 격차가 반복적으로 나타난다:

맥락 격차: 데이터셋은 일반적으로 연산자가 중요하다고 생각하는 맥락적 변수를 생략한다(온도 편차, 시약 로트 번호, 미묘한 프로토콜 편차).
행동 격차: 많은 AI 시스템은 무엇을 해야 하는지 추천할 수 있지만 추천을 신뢰할 수 있는 물리적 단계로 번역할 수 없다.
피드백 격차: 실행에서 구조화된 고품질 피드백이 없는 경우 모델은 실패한 위치를 학습할 수 없으며 과학자는 왜 실패했는지 감사할 수 없다.

이 격차를 닫는 것은 새로운 신경망 아키텍처를 발명하는 것보다 더 많은 랩의 기기, 인터페이스 및 데이터 계약을 구축하는 것이다. 이것은 랩을 기계에 대한 가시성을 제공하고 AI가 인간과 함께 작업할 수 있도록 한다.

디자인에 의한 신뢰: 행동할 수 있는 AI에 대한 안전 및 거버넌스

발견 연구에서 에이전트 AI는 정확성에 대한 일반적인 우려를 제기한다. 그것은 행동할 수 있기 때문에 새로운 실패 모드를 도입한다. 랩에서 행동은 낭비, 피해 또는 오도된 결론의 가능성을 의미한다. 특히 실험이 임상 가설로 이어질 때 더욱 그렇다.

유용한 마인드는 AI 활성화된 랩 스택을 보증이 필요한 사회 기술적 시스템으로 간주하는 것이다. 여러 기존 프레임워크가 도움이 되지만 랩 현실로 번역되어야 한다:

계속적인 관행으로서 위험 관리: NIST의 AI 위험 관리 프레임워크(AI RMF 1.0)는 AI 위험을 전체 생명주기에서 매핑, 측정 및 관리하기 위한 실용적인 어휘를 제공한다.
의료 관련 AI에 대한 규제적 정렬: FDA의 AI/ML 소프트웨어 의료 기기(SaMD) 작업, AI/ML 소프트웨어 의료 기기에 대한 동작 계획 및 관련 가이드라인을 포함하여 의료 치료에 영향을 미치는 AI의 “좋은 관행”이 무엇인지 구체적인 견해를 제공한다.

유전자 편집 및 기타 고의도 도메인에 대한 거버넌스는 이미 글로벌 대화이다. 인간 유전체 편집에 대한 추천은 적절한 감시 메커니즘 및 책임 있는 거버넌스의 필요성을 강조한다. 이러한 시스템은 LabOS와 같은 시스템이 준수와 거버넌스를 쉽게 만들지 않도록 설계되어야 한다.

체크리스트: 과학적 발견을 위한 안전한 AI 공동 연구자 제어

우리의 견해로는 안전한 랩 OS는 다음 설계를 구현해야 한다:

기본 제공: 모든 데이터셋, 프로토콜 버전 및 모델 출력은 입력 및 타임스탬프로 추적 가능해야 한다.
제한된 자율성: 시스템은 명시적인 권한(확인 없이 수행할 수 있는 작업) 및 에스컬레이션 규칙(확인을 요청해야 하는 경우)을 가져야 한다.
인간 오버라이드 및 우아한 저하: 센서 또는 데이터 스트림이 실패하거나 불확실성이 높은 경우 시스템은 더 안전하고 더 단순한 모드로 돌아가야 한다.
계속적인 검증: 실시간 예측은 물리적 랩에서 검증되고 물리적 랩 실행은 QC 게이트를 포함해야 한다.
보안 및 이중 사용 인식: 랩 인프라를 변조로부터 보호한다.

모든 곳에서 인간을 강화하다: AI 공동 연구자가 경쟁력을 평준화할 수 있을까?

AI-XR “공동 연구자”의 가장 매력적인 약속 중 하나는 엘리트 기관을 위한 속도뿐만 아니라 모든 사람을 위한 접근성이다. 현재 소규모 랩, 스타트업 및 원격/농촌/지역 클리닉을 제한하는 것을 고려해 보라:

금상급 프로토콜 및 기기에 대한 전문가의 제한된 접근성.
교육, 실수 및 리워크의 상대적으로 높은 비용.
도구의 단편화: 노트북, 스프레드시트, 기기 로그 및 분석 스크립트는 거의 깨끗하게 연결되지 않는다.

맥락에서 실행을 안내할 수 있는 시스템(XR 글래스), 자동으로 발생한 것을 캡처하고 이전 실행을 기반으로 다음 단계를 제안할 수 있는 시스템은 고급 어세이를 더 재현 가능하게 만들 수 있다. 원칙적으로 분산된 임상 연구를 지원할 수도 있다. 프로토콜은 일관되게 실행되어야 하며 자원이 다를 때에도 vậy이다.

타임라인: 모든 과학자와 임상의가 공동 연구자를 얻을 때

간단히 말해서 우리는 일부 고가치, 고빈도 작업(예: 랩에서 약물을 신뢰성 있게 생성하는 것)에 대해서는 더 가깝고 다른 것(예: AI가 암 또는 알츠하이머와 같은 큰 문제를 완전히 해결하는 것)에 대해서는 대부분의 데모가 암시하는 것보다 더 멀리 있다. 현실적인 로드맵은 다음과 같다:

근거리(1년 이내): 워크플로우 공동 조종사: 프로토콜 초안, 문헌 종합, 분석 템플릿 및 자동화된 QC 보고서를 통해 행정 부담을 줄인다. 제한 요인은 통합이며 모델 능력이 아니다.
중거리(1-2년): 랩의 공동 실행 시스템: XR 글래스 가이드, 자동 문서화 및 고변동성 단계의 선택적 로봇. 신뢰는 감사 트레일과 긴밀한 인간-인-루프 설계에 달려 있다.
장거리(3년 이상): 번역에 연결된 도메인 공동 연구자: 랩 데이터를 임상 종료점에 연결하고 안전 신호를 모니터링하고 시험을 설계하는 데 도움을 주는 것. 규제 및 윤리적 기대에 따라야 한다.

코드에서 치료까지: 1000배 과학적 발견으로의 경로

LabOS는 단순한 질문에 대한 하나의 답변 시도이다: 실험이 대화로 실행될 수 있다면? 의도, 실행 및 증거가 끝까지 연결된다면? 우리는 이러한 시스템을 잘 구축하면 생물의학 및 물리 과학 분야(예: 재료 과학)에서 번역 격차를 해결하는 데 도움이 될 수 있다. 우리는 이러한 시스템을 잘못 구축하면 재현성과 새로운 안전 위험을 증폭시킬 수 있다.

다음 몇 년 동안 가장 중요한 작업은 기초가 될 것이다: 운영 체제(예: iOS가 모든 유형의 앱을 실행하는 것처럼)를 통해 표준화된 데이터 및 디바이스 인터페이스, LabOS의 LabSuperVision 벤치마크와 같은 실행 및 불확실성을 포함하는 AI 벤치마크, 실제 세계에서 혁신을 촉진하면서 환자와 연구의 무결성을 보호하는 배포를 시작하는 것이다.

연구자 및 임상의에게 질문은 AI가 랩에 들어올 것인가가 아니다. 이미 들어왔다. 질문은 그것을 분리된 도구의 모음으로 통합할 것인가, 아니면 생물의학적 과학의 현실에 맞게 설계된 신뢰할 수 있는 시스템으로 통합할 것인가이다.

제안된 읽기 및 출처