ํฌ์ค์ผ์ด
Ginkgo Datapoints Unveils VCPI: A Bold Plan to Fix AI Drug Discoveryโs Data Problem

수년간, AI in drug discovery는 간단한 문제로 인해 발전이 저해되어 왔다: 데이터가 충분하지 않다. 시퀀싱, 풀드 퍼터베이션 연구, 혼합 세포 실험 등이 진행되었지만, 실제적인 돌파구는 나타나지 않았다. 대신에, 예측 가능한 발전이 기대했던 것과는 달리, 노이즈와 드리프트가 나타났다. 또한, 가상 세포 모델을 훈련하기 위한 정밀한 약리학적 측정이 필요한데, 대신에 데이터는 과학적 완전성보다 규모를优先하여 생성되었다.
이 환경에서 Ginkgo Datapoints는 Virtual Cell Pharmacology Initiative (VCPI)를 출시하였다. 이 프로젝트는 단순히 더 많은 데이터를 제공하는 것이 아니라, AI 모델이 실제 생물학적 시스템을 예측하기 위한 목적으로 고안된 더 나은 데이터를 제공하는 것을 목표로 한다. 회사 공식 발표에 따르면, VCPI는 12억 개의 데이터 포인트를 생성하고 10만 개의 화합물을 프로파일링하여, 가상 세포 모델링을 위한 첫 번째 표준화된 약리학 데이터셋을 구축할 계획이다.
왜 “더 많은 데이터”가 실패했는가
블로그 포스트에서 VCPI를 소개하면서, Ginkgo는 필드의 잘못된 방향을 완벽하게 담아낸 비유를 사용한다. 손가락으로 약을 던져 마우스를 넣은 케이지에 넣고, 어느 마우스가 어떤 약을 먹었는지 알아보려고 한다. 이제 이것을 1만 마리의 마우스와 하나의巨대한 케이지로 확대한다. 이것이 풀드 싱글 세포 약리학 실험의 핵심적인 결함이다. 데이터의 양은 ấn tượng을 주지만, 실험 설계는 깨끗한 속성 사이의 연결을 방해한다.
문제는 기술이 아니라 실험 설계이다. 더 큰 데이터셋이 모델을 더 잘 가르친다는 가정은 거짓으로 판명되었다. 블로그는 이 사고방식을 “데이터 중독”이라고 불렀고, 잘 구조화된 입력이 없으면, 가장 고급된 AI도 잘못된 패턴을 학습할 것이라고 주장한다.
VCPI는 이 논리에서 벗어난다. 규모를 강조하는 대신, 생물학적 추적성, 실험의 엄격성, 그리고 AI가 실제로 약리학을 학습하기 위해 필요한 통제된 구조에 중점을 둔다.
VCPI가 데이터 파이프라인을 재건하는 방법
VCPI는 풀드 싱글 세포 어세이를 사용하는 대신, DRUG-seq를 사용한다. 이는 높은 처리량의 벌크 RNA-시퀀싱 방법으로, 각 화합물은 분리된 바코드가 있는 우물에서 처리된다. 이것은 Ginkgo가 풀드 설계에서 제공하는 것보다 훨씬 깨끗한 신호 대 노이즈 비율로 처리 특정 응답을 측정할 수 있도록 한다. 프레스 릴리즈에 따르면, 회사의 자동화 인프라는 주당 100개의 전체 384웰 플레이트를 실행할 수 있으며, 산업 규모에서 수백만 개의 고신뢰도 RNA 측정을 생성할 수 있다.
同じ하게 중요한 것은 V-Ref293의 도입이다. 이는 새로운 엔지니어드 표준 참조 세포 라인으로, 각 연구실에서 자신의 돌연변이된,漂移된 버전의 동일한 세포 라인을 실행하는 대신, VCPI는 보편적인 생물학적 기준선을 생성한다. 이것은 약리학적 측정의 불일치의 오랜 nguồn을 제거하고, AI 모델이 절실히 필요로 하는 안정적인 근거 사실을 제공한다.
이 이니셔티브에서, Ginkgo는 여러 정의 요소가 있는 커뮤니티 주도 데이터셋의 문을 열었다:
- 연구자, 제약 팀, AI 개발자의 개방적 참여
- 제출된 화합물에 대한 무료 고처리량 RNA 프로파일링
- 기여자의 선택에 따라 임시 또는 영구적인 독점적 접근
- 커뮤니티 투표에 따라 매월 데이터 릴리즈
- 모델 공유, 화합물 우선순위 지정, 초기 접근 “슈퍼 사용자” 상태의 기회
데이터 덤프가 아닌 커뮤니티 빌드 모델
VCPI의 가장 특이한 측면 중 하나는 데이터셋이 존재하기 전에 출시하는 것이다. 완성된 리소스를 업로드하는 대신, Ginkgo는 과학 커뮤니티에 가장 중요한 화합물을 결정하고 데이터셋이 성장함에 따라 실시간으로 협력하도록 요청한다.
이 접근 방식은 참여를 위험에서 해방시킨다. 초기 바이오테크 기업은 화합물을 제출하고 실제 약리학 데이터를 받을 수 있으면서도, 고처리량 스크리닝에 대한 예산을 소비하지 않는다. AI 팀은 데이터셋이 모델 훈련에 실제로 필요한 선회를 반영하도록 보장할 수 있다. 또한, 학술 연구실은 기여하면서도 90일간의 독점적 창을 유지할 수 있다.
구조는 데이터 생성을 정적 제품이 아닌 참여적인 과학적 과정으로 변환한다.
바이오-AI의 미래를 위한 의미
VCPI의 더广泛한 의미는 Ginkgo 또는 단일 가상 세포 이니셔티브를 넘어서 있다. 가상 세포 모델이 과학적으로 신뢰할 수 있으려면, 재현 가능하고 처리 특정적이며 안정적인 생물학적 참조에錨定된 데이터에서 훈련되어야 한다. 이러한 기초가 없으면, AI는 계속해서 환각, 잘못된 예측, 또는 아티팩트에 과적합할 것이다.
VCPI와 같은 이니셔티브는 필드가 데이터 자체에 대해 어떻게 생각하는지에 대한 변화를 나타낸다. 실험 설계는 모델 아키텍처만큼 중요해지고 있다. 재현 가능성은 선택적 이상이 아닌 중심 요구사항으로 돌아오고 있다. 또한, 개방형 인프라 프로젝트는 폐쇄적 소유 데이터셋보다 혁신을 가속화하는 능력에서 앞서고 있다.
가상 세포가 결국 신뢰할 수 있는 예측 엔진이 되면, 즉 화합물을 순위 매기거나, 독성을 플래그 지정하거나, 인간이 파이펫을触れる 전에 경로를 밝히는 도구가 된다면,それは VCPI와 같은 프로젝트가 필요한 구조화된 신뢰할 수 있는 데이터 환경을 생성했기 때문이다.
보다 나은 데이터를 단순히 더 많은 데이터보다 우선시함으로써, Ginkgo는 AI를 사용한 생물학의 기초를 재정의한다. VCPI는 단순히 약물 발견의 데이터 위기를 반응하는 것이 아니라, 생물학적 실험과 AI 훈련 파이프라인이 공개적으로, 목적을 가지고 함께 진화하는 새로운 시대를 위한 무대를 설정한다.




