Здравоохранение
Ginkgo Datapoints представляет VCPI: смелый план по решению проблемы данных в открытии лекарств с помощью ИИ

На протяжении многих лет ИИ в открытии лекарств был сдержан деceptively простой проблемой: данные не достаточно хороши. Горы последовательностей, пулов экспериментов с нарушениями и смешанных экспериментов с клетками создавали впечатление прогресса без достижения реальных прорывов, но предсказуемый скачок, который ожидали разработчики лекарств, никогда не материализовался. Вместо ясности область произвела шум. Вместо воспроизводимости она произвела дрейф. И вместо точных, специфичных для фармакологии измерений, необходимых для обучения надежных виртуальных моделей клеток, она произвела наборы данных, оптимизированные больше для масштаба, чем для научной целостности.
Это та среда, в которую Ginkgo Datapoints запускает Виртуальную инициативу фармакологии клеток (VCPI) — проект, который не просто обещает больше данных, но стремится доставить лучшие данные, созданные специально для моделей ИИ, пытающихся предсказать, как реальные молекулы, подобные лекарствам, нарушают реальные биологические системы. Официальное объявление компании подчеркивает, что VCPI сгенерирует более 12 миллиардов данных и профилирует 100 000 соединений, создавая первый стандартизированный набор данных фармакологии для виртуальной модели клеток.
Почему “больше данных” не сработало
В блог-посте, представляющем VCPI, Ginkgo использует аналогию, которая идеально отражает ошибочное направление области. Представьте себе, что вы бросаете горсть таблеток в клетку с мышами, а затем пытаетесь выяснить, какая мышь съела что. Теперь масштабируйте это до миллиона мышей в одной巨альной клетке. Это основной недостаток экспериментов с пуленными одноклеточными фармакологией. Они генерируют впечатляющие количества данных, но основной дизайн предотвращает чистую атрибуцию между соединением и фенотипом.
Проблема не в технологии; это экспериментальная архитектура. Предположение, что более крупные наборы данных по своей сути учат лучшие модели, оказалось ложным. Блог прямо называет этот образ мышления “зависимостью от данных”, утверждая, что без хорошо структурированных, высокосигнальных входных данных даже самые передовые ИИ будут учиться неправильным закономерностям.
VCPI представляет собой резкий отход от этой логики. Вместо того, чтобы славить размер, она удваивает усилия по биологической прослеживаемости, экспериментальной строгости и контролируемой структуре, необходимой для того, чтобы ИИ мог фактически изучить фармакологию.
Как VCPI перестраивает конвейер данных
Вместо того, чтобы полагаться на пуленные одноклеточные анализы, VCPI использует DRUG-seq, метод высокопроизводительного секвенирования РНК в объеме, при котором каждое соединение обрабатывается в отдельной закодированной ячейке. Это позволяет Ginkgo измерять реакции на лечение с гораздо более чистым сигналом к шуму, чем предлагают пуленые конструкции. Согласно пресс-релизу, автоматизированная инфраструктура компании может выполнять более 100 полных 384-хлузевых пластин в неделю, генерируя миллионы высокоточных измерений РНК на промышленном уровне.
Не менее важным является введение V-Ref293, новой, стандартизированной справочной линии клеток. Вместо того, чтобы каждая лаборатория запускала свою собственную мутантную, дрейфующую версию одной и той же линии клеток, VCPI создает универсальную биологическую базу — “органического двойника” к появляющемуся классу виртуальных клеток. Это устраняет один из давних источников нерепроизводимости в фармакогеномике и предоставляет стабильную истину, которую модели ИИ отчаянно нуждаются.
В рамках этой инициативы Ginkgo открывает двери для сообщественного набора данных с несколькими определяющими компонентами:
- Открытое участие для исследователей, фармацевтических команд и разработчиков ИИ
- Бесплатное высокопроизводительное профилирование РНК для представленных соединений
- Необязательный эмбарго или постоянный проприетарный доступ для участников
- Ежемесячные выпуски данных, формируемые голосованием сообщества
- Возможности для обмена моделями, приоритизации соединений и раннего доступа к статусу “суперпользователя”
Модель, построенная сообществом, а не сброс данных
Одним из самых необычных аспектов VCPI является решение о запуске до существования набора данных. Вместо того, чтобы загружать готовый ресурс, Ginkgo просит научное сообщество помочь определить, какие соединения имеют наибольшее значение, и сотрудничать в реальном времени, пока набор данных растет.
Этот подход также снижает риск участия. Биотехнологические компании на ранней стадии могут представить соединения и получить реальные фармакологические данные без сжигания драгоценного бюджета на высокопроизводительное скрининг. Команды ИИ могут обеспечить, чтобы набор данных отражал нарушения, которые им фактически нужны для обучения модели. И академические лаборатории могут внести свой вклад, сохраняя при этом возможность 90-дневного эксклюзивного окна.
Структура преобразует генерацию данных в участливый научный процесс — не статичный продукт.
Что это значит для будущего био-ИИ
Более широкие последствия VCPI выходят за рамки Ginkgo или любой отдельной инициативы виртуальной клетки. Чтобы виртуальные клеточные модели стали научно достоверными, они должны быть обучены на данных, которые воспроизводимы, специфичны для лечения и привязаны к стабильной биологической ссылке. Без этого фундамента ИИ будет продолжать галлюцинировать, неправильно предсказывать или переобучаться на артефактах.
Инициативы, такие как VCPI, сигнализируют о сдвиге в том, как область думает о данных самих по себе. Экспериментальный дизайн становится таким же важным, как и архитектура модели. Воспроизводимость возвращается как центральное требование, а не опциональный идеал. И сообщественные, открытые инфраструктурные проекты начинают опережать закрытые проприетарные наборы данных в их способности ускорять инновации.
Если виртуальные клетки в конечном итоге станут надежными прогностическими двигателями — инструментами, которые помогают ранжировать соединения, флагировать токсичности или освещать пути до того, как человек коснется пипетки, — это будет потому, что проекты, такие как VCPI, создали структурированную, достоверную среду данных, необходимую для их роста.
Приоритизируя лучшие данные над просто большим количеством данных, Ginkgo переформулирует основы биологии, работающей с ИИ. VCPI не просто реагирует на кризис данных в открытии лекарств; она создает сцену для новой эры, в которой биологические эксперименты и конвейеры обучения ИИ эволюционируют вместе, открыто и с целью.




