Ochrona zdrowia
Ginkgo Datapoints Unveils VCPI: A Bold Plan to Fix AI Drug Discovery’s Data Problem

Przez lata, AI in drug discovery była zahamowana przez pozornie prosty problem: dane nie są wystarczająco dobre. Góry sekwencjonowania, zbiór badań perturbacji i te eksperymenty z komórkami mieszczącymi dawały pozory postępu bez dostarczania prawdziwych przełomów., ale przewidywany skok predykcyjny, którego oczekiwali twórcy leków, nigdy się nie zmaterializował. Zamiast klarowności, dziedzina wytworzyła hałas. Zamiast powtarzalności, wytworzyła dryf. I zamiast precyzyjnych, farmakologicznie-specyficznych pomiarów wymaganych do szkolenia niezawodnych wirtualnych modeli komórkowych, wytworzyła zestawy danych zoptymalizowane bardziej pod kątem skali niż integralności naukowej.
To jest środowisko, w którym Ginkgo Datapoints uruchamia Virtual Cell Pharmacology Initiative (VCPI)—projekt, który nie tylko obiecuje więcej danych, ale ma na celu dostarczenie lepszych danych, stworzonych specjalnie dla modeli AI próbujących przewidzieć, jak rzeczywiste cząsteczki leku perturbują rzeczywiste systemy biologiczne. Oficjalne ogłoszenie firmy podkreśla, że VCPI wygeneruje ponad 12 miliardów punktów danych i sprofiluje 100 000 związków, tworząc pierwszy standaryzowany zestaw danych farmakologicznych dla modelowania komórek wirtualnych.
Dlaczego “Więcej Danych” Nie Wystarczyło
W poście na blogu wprowadzającym VCPI, Ginkgo używa analogii, która idealnie ujmuje błędną trajektorię dziedziny. Wyobraź sobie, że wrzucasz garść pigułek do klatki z myszami—potem próbujesz dowiedzieć się, która mysz zjadła co. Teraz skaluj to do miliona myszy w jednej wielkiej klatce. To jest podstawowy błąd w eksperymentach farmakologii komórek pojedynczych. Generują one imponujące ilości danych, ale podstawowy projekt uniemożliwia czyste przypisanie związku i fenotypu.
Problem nie leży w technologii; leży w architekturze eksperymentalnej. Założenie, że większe zestawy danych automatycznie uczą lepsze modele, okazało się fałszywe. Blog wyraźnie nazywa tę mentalność “uzależnieniem od danych”, argumentując, że bez dobrze ustrukturyzowanych, wysokosygnałowych danych wejściowych, nawet najbardziej zaawansowane AI będą uczyć się niewłaściwych wzorców.
VCPI reprezentuje ostry odwrót od tej logiki. Zamiast gloryfikowania skali, podwaja on starania w kierunku biologicznej śledzialności, rygoru eksperymentalnego i kontrolowanej struktury potrzebnej do tego, aby AI mogło naprawdę nauczyć się farmakologii.
Jak VCPI Odbudowuje Potok Danych
Zamiast polegać na badaniach z użyciem komórek pojedynczych, VCPI wykorzystuje DRUG-seq, wysokoprzepustową metodę sekwencjonowania RNA, w której każdy związek jest traktowany w izolowanym, zakodowanym dołku. To pozwala Ginkgo na pomiar odpowiedzi specyficznych dla leczenia z znacznie czystszym sygnałem w stosunku do hałasu niż projekty zbiórów. Według komunikatu prasowego, infrastruktura automatyzacji firmy może prowadzić ponad 100 pełnych płyt 384-dołkowych tygodniowo, generując miliony wiernych pomiarów RNA w skali przemysłowej.
Równie ważne jest wprowadzenie V-Ref293, nowo zaprojektowanej, standaryzowanej linii komórkowej referencyjnej. Zamiast każdego laboratorium prowadzącego własną zmodyfikowaną, dryfującą wersję tej samej linii komórkowej, VCPI tworzy uniwersalną biologiczną bazę—„organicznego bliźniaka” do nowej klasy komórek wirtualnych. To eliminuje jeden z długotrwałych źródeł niepowtarzalności w farmakogenomice i zapewnia stabilne, prawdziwe dane, których potrzebują modele AI.
W ramach tej inicjatywy Ginkgo otwiera drzwi do zestawu danych tworzonego przez społeczność z kilkoma określającymi składnikami:
- Otwarte uczestnictwo dla badaczy, zespołów farmaceutycznych i deweloperów AI
- Bezpłatne profilowanie RNA o wysokiej przepustowości dla złożonych związków
- Opcjonalne embargo lub stały dostęp własnościowy dla współtwórców
- Cykliczne wydania danych kształtowane przez głosowanie społeczności
- Możliwości udostępniania modeli, priorytetyzacji związków i wczesnego dostępu do statusu „superużytkownika”
Model Zbudowany Przez Społeczność, a Nie Zrzut Danych
Jednym z najbardziej nietypowych aspektów VCPI jest decyzja o uruchomieniu przed istnieniem zestawu danych. Zamiast przesłać gotowy zasób, Ginkgo prosi społeczność naukową o pomoc w określeniu, które związki są najważniejsze i o współpracę w czasie rzeczywistym, gdy zestaw danych rośnie.
To podejście również redukuje ryzyko uczestnictwa. Wczesne biotechnologie mogą zgłaszać związki i otrzymywać rzeczywiste dane farmakologiczne bez wydatkowania cennego budżetu na screening o wysokiej przepustowości. Zespoły AI mogą upewnić się, że zestaw danych odzwierciedla perturbacje, których naprawdę potrzebują do szkolenia modelu. I laboratoria akademickie mogą przyczyniać się, zachowując przy tym możliwość 90-dniowego okna wyłączności.
Struktura przekształca generowanie danych w proces naukowy o charakterze uczestniczym—nie w statyczny produkt.
Co to Oznacza dla Przyszłości Bio-AI
Szersze implikacje VCPI sięgają poza Ginkgo lub jakąkolwiek pojedynczą inicjatywę komórek wirtualnych. Aby modele komórek wirtualnych stały się naukowo wiarygodne, muszą być szkolone na danych, które są powtarzalne, specyficzne dla leczenia i kotwiczone w stabilnej referencyjnej bazie biologicznej. Bez tego fundamentu AI będzie nadal halucynować, przewidywać błędnie lub nadmiernie dopasowywać do artefaktów.
Inicjatywy takie jak VCPI sygnalizują zmianę w tym, jak dziedzina myśli o danych samych. Projekt eksperymentalny staje się równie ważny jak architektura modelu. Powtarzalność wraca jako centralny wymóg, a nie opcjonalny ideał. I projekty o otwartej infrastrukturze, napędzane przez społeczność, zaczynają wyprzedzać zamknięte, własnościowe zestawy danych pod względem przyspieszania innowacji.
Jeśli komórki wirtualne ostatecznie staną się niezawodnymi silnikami predykcyjnymi—narzędziami, które pomagają klasyfikować związki, sygnalizować toksyczności lub oświetlać ścieżki przed tym, jak człowiek dotknie pipety—to będzie dlatego, że projekty takie jak VCPI stworzyły środowisko danych strukturalnych i godnych zaufania, których potrzebowały do wzrostu.
Poprzez priorytetowe traktowanie lepszych danych nad po prostu większą ilością danych, Ginkgo zmienia podstawy biologii wspomaganej przez AI. VCPI nie tylko reaguje na kryzys danych w odkrywaniu leków; ustanawia scenę dla nowej ery, w której eksperymenty biologiczne i potoki szkolenia AI ewoluują razem, otwarcie i z celem.




