Interviews
Dr. Serafim Batzoglou, Chief Data Officer bei Seer – Interview Series

Serafim Batzoglou ist Chief Data Officer bei Seher. Bevor er zu Seer kam, war Serafim Chief Data Officer bei Insitro und leitete maschinelles Lernen und Datenwissenschaft in ihrem Ansatz zur Arzneimittelentwicklung. Vor Insitro war er Vizepräsident für angewandte und computergestützte Biologie bei Illumina und leitete die Forschung und Technologieentwicklung von KI und molekularen Tests, um Genomdaten für die menschliche Gesundheit besser interpretierbar zu machen.
Was hat Sie ursprünglich an der Genomik interessiert?
Mein Interesse für das Gebiet der Computational Biology begann zu Beginn meiner Doktorarbeit in Informatik am MIT, als ich einen Kurs zu diesem Thema belegte, der von Bonnie Berger, die meine Doktorvaterberaterin wurde, und David Gifford gehalten wurde. Während meiner Doktorarbeit nahm das Humangenomprojekt Fahrt auf. Eric Lander, der das Genome Center am MIT leitete, wurde mein Co-Berater für die Doktorarbeit und bezog mich in das Projekt ein. Motiviert durch das Humangenomprojekt arbeitete ich an der Gesamtgenomassemblierung und der vergleichenden Genomik von menschlicher und Maus-DNA.
Anschließend wechselte ich als Dozent in die Fakultät für Informatik an die Stanford University, wo ich 15 Jahre lang tätig war, und hatte das Privileg, etwa 30 unglaublich talentierte Doktoranden und viele Postdoktoranden und Studenten beraten zu dürfen. Der Schwerpunkt meines Teams liegt auf der Anwendung von Algorithmen, maschinellem Lernen und der Entwicklung von Softwaretools für die Analyse umfangreicher genomischer und biomolekularer Daten. Ich verließ Stanford im Jahr 2016, um ein Forschungs- und Technologieentwicklungsteam bei Illumina zu leiten. Seitdem genieße ich es, F&E-Teams in der Industrie zu leiten. Ich finde, dass Teamarbeit, der geschäftliche Aspekt und ein direkterer Einfluss auf die Gesellschaft charakteristisch für die Industrie im Vergleich zur Wissenschaft sind. Im Laufe meiner Karriere habe ich bei innovativen Unternehmen gearbeitet: DNAnexus, das ich 2009 mitbegründet habe, Illumina, insitro und jetzt Seer. Berechnungen und maschinelles Lernen sind in der gesamten Technologiekette der Biotechnologie von wesentlicher Bedeutung, von der Technologieentwicklung über die Datenerfassung bis hin zur Interpretation biologischer Daten und deren Übertragung auf die menschliche Gesundheit.
In den letzten 20 Jahren ist die Sequenzierung des menschlichen Genoms erheblich kostengünstiger und schneller geworden. Dies führte zu einem dramatischen Wachstum des Marktes für Genomsequenzierung und einer breiteren Akzeptanz in der Biowissenschaftsbranche. Wir stehen jetzt an der Schwelle, über ausreichend große Populationsgenom-, Multiom- und Phänotypdaten zu verfügen, um die Gesundheitsversorgung, einschließlich Prävention, Diagnose, Behandlung und Arzneimittelentwicklung, sinnvoll zu revolutionieren. Mithilfe computergestützter Analysen genomischer Daten können wir zunehmend die molekularen Grundlagen von Krankheiten für Einzelpersonen entdecken, und Patienten haben die Möglichkeit, personalisierte und zielgerichtete Behandlungen zu erhalten, insbesondere in den Bereichen Krebs und seltene genetische Erkrankungen. Über den offensichtlichen Einsatz in der Medizin hinaus ermöglicht uns maschinelles Lernen in Verbindung mit genomischen Informationen, Einblicke in andere Bereiche unseres Lebens zu gewinnen, beispielsweise in unsere Genealogie und Ernährung. In den nächsten Jahren wird es zu einer Einführung einer personalisierten, datengesteuerten Gesundheitsversorgung kommen, zunächst für ausgewählte Personengruppen, wie zum Beispiel Patienten mit seltenen Krankheiten, und zunehmend für die breite Öffentlichkeit.
Vor Ihrer aktuellen Position waren Sie Chief Data Officer bei Einführung, führend in den Bereichen maschinelles Lernen und Datenwissenschaft in ihrem Ansatz zur Arzneimittelentwicklung. Was waren Ihre wichtigsten Erkenntnisse aus dieser Zeit in Bezug darauf, wie maschinelles Lernen zur Beschleunigung der Arzneimittelforschung eingesetzt werden kann?
Das herkömmliche „Versuch-und-Irrtum“-Paradigma der Arzneimittelforschung und -entwicklung ist mit Ineffizienzen und extrem langen Zeitplänen behaftet. Bis ein Medikament auf den Markt kommt, kann es mehr als eine Milliarde US-Dollar und mehr als ein Jahrzehnt dauern. Indem wir maschinelles Lernen in diese Bemühungen integrieren, können wir Kosten und Zeitrahmen in mehreren Schritten drastisch reduzieren. Ein Schritt ist die Zielidentifizierung, bei der ein Gen oder eine Reihe von Genen, die den Phänotyp einer Krankheit modulieren oder den Zellzustand einer Krankheit in einen gesünderen Zustand zurückversetzen, durch groß angelegte genetische und chemische Störungen sowie phänotypische Auswertungen wie Bildgebung und funktionelle Genomik identifiziert werden können . Ein weiterer Schritt ist die Identifizierung und Optimierung von Verbindungen, bei der ein kleines Molekül oder eine andere Modalität durch maschinelles Lernen gestützte In-silico-Vorhersage sowie In-vitro-Screening entworfen werden kann und darüber hinaus gewünschte Eigenschaften eines Arzneimittels wie Löslichkeit, Permeabilität, Spezifität und Nicht-Wirksamkeit bestimmt werden können. Toxizität kann optimiert werden. Der schwierigste und wichtigste Aspekt ist vielleicht die Übersetzung auf den Menschen. Hier stellt die Wahl des richtigen Modells – induzierte pluripotente Stammzelllinien im Vergleich zu primären Patientenzelllinien und Gewebeproben im Vergleich zu Tiermodellen – für die richtige Krankheit eine unglaublich wichtige Reihe von Kompromissen dar, die sich letztendlich auf die Leistungsfähigkeit der resultierenden Daten und der Maschine auswirken Lernen, für Patienten zu übersetzen.
Seer Bio geht neue Wege, um die Geheimnisse des Proteoms zu entschlüsseln, um die menschliche Gesundheit zu verbessern. Für Leser, die mit diesem Begriff nicht vertraut sind: Was ist das Proteom?
Die Proteom ist der sich verändernde Satz von Proteinen, die ein Organismus im Laufe der Zeit und als Reaktion auf Umwelt, Ernährung und Gesundheitszustand produziert oder verändert. Unter Proteomik versteht man die Untersuchung des Proteoms innerhalb eines bestimmten Zelltyps oder einer bestimmten Gewebeprobe. Das Genom eines Menschen oder anderer Organismen ist statisch: Mit der wichtigen Ausnahme somatischer Mutationen ist das Genom bei der Geburt das Genom, das man sein ganzes Leben lang besitzt und das in jeder Zelle seines Körpers exakt kopiert wird. Das Proteom ist dynamisch und verändert sich in Zeitspannen von Jahren, Tagen und sogar Minuten. Daher sind Proteome wesentlich näher am Phänotyp und letztendlich am Gesundheitszustand als Genome und daher aussagekräftiger für die Überwachung des Gesundheitszustands und das Verständnis von Krankheiten.
Bei Seer haben wir einen neuen Weg zum Zugriff auf das Proteom entwickelt, der tiefere Einblicke in Proteine und Proteoformen in komplexen Proben wie Plasma ermöglicht, einer leicht zugänglichen Probe, die bisher leider eine große Herausforderung für die konventionelle Massenspektrometrie-Proteomik darstellt.
Was ist die Seer's Proteograph™-Plattform und wie bietet sie eine neue Sicht auf das Proteom?
Die Proteograph-Plattform von Seer nutzt eine Bibliothek proprietärer Nanopartikel, die durch einen einfachen, schnellen und automatisierten Arbeitsablauf unterstützt werden und eine tiefgreifende und skalierbare Abfrage des Proteoms ermöglichen.
Die Proteograph-Plattform glänzt bei der Untersuchung von Plasma und anderen komplexen Proben, die einen großen dynamischen Bereich aufweisen – Unterschiede in der Häufigkeit verschiedener Proteine in der Probe um viele Größenordnungen –, bei denen herkömmliche Massenspektrometriemethoden den Teil des Proteoms mit geringer Häufigkeit nicht erkennen können. Die Nanopartikel von Seer sind mit einstellbaren physiochemischen Eigenschaften ausgestattet, die Proteine über den gesamten dynamischen Bereich hinweg auf unvoreingenommene Weise sammeln. In typischen Plasmaproben ermöglicht unsere Technologie den Nachweis von 5x bis 8x mehr Proteinen als bei der Verarbeitung von reinem Plasma ohne Verwendung des Proteographen. Daher hilft unsere Proteograph-Produktsuite Wissenschaftlern, von der Probenvorbereitung über die Instrumentierung bis hin zur Datenanalyse Proteom-Krankheitssignaturen zu finden, die andernfalls möglicherweise nicht nachweisbar wären. Wir sagen gerne, dass wir bei Seer ein neues Tor zum Proteom öffnen.
Darüber hinaus ermöglichen wir Wissenschaftlern die einfache Durchführung groß angelegter proteogenomischer Studien. Unter Proteogenomik versteht man die Kombination genomischer Daten mit proteomischen Daten, um Proteinvarianten zu identifizieren und zu quantifizieren, genomische Varianten mit Proteinhäufigkeitsniveaus zu verknüpfen und letztendlich das Genom und das Proteom mit Phänotyp und Krankheit zu verknüpfen und die ursächlichen und nachgelagerten genetischen Pfade, die mit Krankheiten verbunden sind, zu entwirren .
Können Sie einige der maschinellen Lerntechnologien besprechen, die derzeit bei Seer Bio eingesetzt werden?
Seer nutzt maschinelles Lernen in allen Schritten von der Technologieentwicklung bis zur nachgelagerten Datenanalyse. Zu diesen Schritten gehören: (1) Design unserer proprietären Nanopartikel, wobei maschinelles Lernen uns dabei hilft, zu bestimmen, welche physikalisch-chemischen Eigenschaften und Kombinationen von Nanopartikeln mit bestimmten Produktlinien und Tests funktionieren; (2) Erkennung und Quantifizierung von Peptiden, Proteinen, Varianten und Proteoformen anhand der von den MS-Instrumenten erzeugten Auslesedaten; (3) nachgelagerte proteomische und proteogenomische Analysen in großen Bevölkerungskohorten.
Letztes Jahr haben wir veröffentlichte einen Artikel in Advanced Materials Kombination von Proteomikmethoden, Nanotechnik und maschinellem Lernen, um unser Verständnis der Mechanismen der Proteinkoronabildung zu verbessern. Dieses Papier deckt Nano-Bio-Wechselwirkungen auf und liefert Informationen für Seer bei der Entwicklung verbesserter zukünftiger Nanopartikel und Produkte.
Über die Entwicklung von Nanopartikeln hinaus haben wir uns weiterentwickelt neuartige Algorithmen zur Identifizierung von Peptidvarianten und posttranslationalen Modifikationen (PTMs). Wir haben kürzlich eine Methode entwickelt für Nachweis proteinquantifizierter Merkmalsorte (pQTLs), das robust gegenüber Proteinvarianten ist, was ein bekannter Störfaktor für die affinitätsbasierte Proteomik ist. Wir erweitern diese Arbeit, um diese Peptide direkt aus den Rohspektren zu identifizieren, indem wir auf Deep Learning basierende De-novo-Sequenzierungsmethoden verwenden, um eine Suche zu ermöglichen, ohne die Größe der Spektralbibliotheken zu erhöhen.
Unser Team entwickelt außerdem Methoden, die es Wissenschaftlern ohne umfassende Erfahrung im maschinellen Lernen ermöglichen, Modelle des maschinellen Lernens optimal abzustimmen und in ihrer Entdeckungsarbeit zu nutzen. Dies wird über ein Seer ML-Framework erreicht, das auf dem basiert AutoML Tool, das eine effiziente Optimierung von Hyperparametern mittels Bayes'scher Optimierung ermöglicht.
Schließlich entwickeln wir Methoden, um den Batch-Effekt zu reduzieren und die quantitative Genauigkeit der Massenspektrenauslesung zu erhöhen, indem wir die gemessenen quantitativen Werte modellieren, um erwartete Metriken wie die Korrelation von Intensitätswerten über Peptide innerhalb einer Proteingruppe zu maximieren.
Halluzinationen sind ein häufiges Problem bei LLMs. Welche Lösungen gibt es, um dies zu verhindern oder zu mildern?
LLMs sind generative Methoden, denen ein großer Korpus zur Verfügung gestellt wird und die darauf trainiert sind, ähnliche Texte zu generieren. Sie erfassen die zugrunde liegenden statistischen Eigenschaften des Textes, an dem sie trainiert werden, von einfachen lokalen Eigenschaften, wie z. B. wie oft bestimmte Kombinationen von Wörtern (oder Tokens) zusammen gefunden werden, bis hin zu Eigenschaften auf höherer Ebene, die das Verständnis von Kontext und Bedeutung emulieren.
Allerdings werden LLMs nicht in erster Linie darauf trainiert, korrekt zu sein. Verstärkungslernen mit menschlichem Feedback (RLHF) und andere Techniken helfen dabei, sie auf wünschenswerte Eigenschaften einschließlich Korrektheit zu trainieren, sind jedoch nicht vollständig erfolgreich. Bei einer Eingabeaufforderung generieren LLMs Text, der den statistischen Eigenschaften der Trainingsdaten am ähnlichsten ist. Oft ist dieser Text auch richtig. Wenn man beispielsweise fragt: „Wann wurde Alexander der Große geboren“, lautet die richtige Antwort 356 v. Chr. (oder v. Chr.), und ein LLM wird diese Antwort wahrscheinlich geben, da die Geburt Alexanders des Großen in den Trainingsdaten häufig als dieser Wert erscheint. Auf die Frage „Wann wurde Kaiserin Reginella geboren“, eine fiktive Figur, die im Schulungskorpus nicht vorkommt, wird der LLM jedoch wahrscheinlich halluzinieren und eine Geschichte über ihre Geburt erfinden. Wenn dem LLM eine Frage gestellt wird, auf die er möglicherweise keine richtige Antwort findet (entweder weil die richtige Antwort nicht existiert oder aus anderen statistischen Gründen), ist es wahrscheinlich, dass er halluziniert und antwortet, als ob er es wüsste. Dadurch entstehen Halluzinationen, die für ernsthafte Anwendungen ein offensichtliches Problem darstellen, etwa „Wie kann dieser oder jener Krebs behandelt werden?“.
Es gibt noch keine perfekten Lösungen für Halluzinationen. Sie sind im Design des LLM endemisch. Eine Teillösung ist die richtige Aufforderung, beispielsweise die Aufforderung an den LLM, „sorgfältig und Schritt für Schritt zu denken“ usw. Dies erhöht die Wahrscheinlichkeit, dass LLMs keine Geschichten erfinden. Ein ausgefeilterer Ansatz, der derzeit entwickelt wird, ist die Verwendung von Wissensgraphen. Wissensgraphen stellen strukturierte Daten bereit: Entitäten in einem Wissensgraphen sind auf vordefinierte, logische Weise mit anderen Entitäten verbunden. Die Erstellung eines Wissensgraphen für eine bestimmte Domäne ist natürlich eine anspruchsvolle Aufgabe, aber mit einer Kombination aus automatisierten und statistischen Methoden und Kuratierung machbar. Mit einem integrierten Wissensgraphen können LLMs die von ihnen generierten Aussagen mit dem strukturierten Satz bekannter Fakten vergleichen und können darauf beschränkt werden, keine Aussage zu generieren, die im Widerspruch zum Wissensgraphen steht oder von diesem nicht unterstützt wird.
Aufgrund des grundsätzlichen Problems von Halluzinationen und wohl auch aufgrund ihres Mangels an ausreichenden Argumentations- und Urteilsfähigkeiten sind LLMs heute wirkungsvoll zum Abrufen, Verknüpfen und Destillieren von Informationen, können jedoch menschliche Experten bei ernsthaften Anwendungen wie medizinischer Diagnose oder Rechtsberatung nicht ersetzen. Dennoch können sie die Effizienz und Leistungsfähigkeit menschlicher Experten in diesen Bereichen enorm steigern.
Können Sie uns Ihre Vision für eine Zukunft mitteilen, in der die Biologie von Daten und nicht von Hypothesen gesteuert wird?
Der traditionelle hypothesengesteuerte Ansatz, bei dem Forscher Muster finden, Hypothesen entwickeln, Experimente oder Studien durchführen, um sie zu testen und dann Theorien auf der Grundlage der Daten zu verfeinern, wird durch ein neues Paradigma ersetzt, das auf datengesteuerter Modellierung basiert.
In diesem aufkommenden Paradigma beginnen Forscher mit der hypothesenfreien, groß angelegten Datengenerierung. Anschließend trainieren sie ein maschinelles Lernmodell wie ein LLM mit dem Ziel einer genauen Rekonstruktion verdeckter Daten, einer starken Regression oder einer Klassifizierungsleistung in einer Reihe nachgelagerter Aufgaben. Sobald das maschinelle Lernmodell die Daten genau vorhersagen kann und eine Genauigkeit erreicht, die mit der Ähnlichkeit zwischen experimentellen Replikaten vergleichbar ist, können Forscher das Modell abfragen, um Erkenntnisse über das biologische System zu gewinnen und die zugrunde liegenden biologischen Prinzipien zu erkennen.
LLMs erweisen sich als besonders gut bei der Modellierung biomolekularer Daten und sollen einen Wandel von der hypothesengesteuerten zur datengesteuerten biologischen Entdeckung vorantreiben. Dieser Wandel wird in den nächsten 10 Jahren immer deutlicher werden und eine genaue Modellierung biomolekularer Systeme mit einer Granularität ermöglichen, die weit über die menschlichen Fähigkeiten hinausgeht.
Was sind die potenziellen Auswirkungen auf die Krankheitsdiagnose und die Arzneimittelentwicklung?
Ich glaube, dass LLM und generative KI zu erheblichen Veränderungen in der Life-Science-Branche führen werden. Ein Bereich, der stark von LLMs profitieren wird, ist die klinische Diagnose, insbesondere bei seltenen, schwer zu diagnostizierenden Krankheiten und Krebssubtypen. Es gibt enorme Mengen umfassender Patienteninformationen, die wir nutzen können – von Genomprofilen, Behandlungsreaktionen, Krankenakten und Familiengeschichte –, um eine genaue und zeitnahe Diagnose zu ermöglichen. Wenn wir einen Weg finden, all diese Daten so zusammenzustellen, dass sie leicht zugänglich sind und nicht von einzelnen Gesundheitsorganisationen isoliert gespeichert werden, können wir die diagnostische Präzision erheblich verbessern. Dies bedeutet nicht, dass die Modelle des maschinellen Lernens, einschließlich LLMs, in der Lage sein werden, autonom bei der Diagnose zu arbeiten. Aufgrund ihrer technischen Grenzen werden sie in absehbarer Zeit nicht autonom sein, sondern menschliche Experten ergänzen. Sie werden leistungsstarke Werkzeuge sein, die dem Arzt dabei helfen, in einem Bruchteil der bisher benötigten Zeit hervorragend fundierte Beurteilungen und Diagnosen zu erstellen und seine Diagnosen ordnungsgemäß zu dokumentieren und dem Patienten sowie dem gesamten über die Maschine verbundenen Netzwerk von Gesundheitsdienstleistern mitzuteilen Lernsystem.
Die Branche nutzt maschinelles Lernen bereits für die Arzneimittelforschung und -entwicklung und wirbt damit für die Fähigkeit, Kosten und Zeitpläne im Vergleich zum traditionellen Paradigma zu reduzieren. LLMs ergänzen die verfügbare Toolbox weiter und bieten hervorragende Rahmenbedingungen für die Modellierung umfangreicher biomolekularer Daten, einschließlich Genomen, Proteomen, funktionellen genomischen und epigenomischen Daten, Einzelzelldaten und mehr. In absehbarer Zukunft werden Foundation LLMs zweifellos über alle diese Datenmodalitäten und große Kohorten von Personen hinweg vernetzt sein, deren genomische, proteomische und Gesundheitsinformationen gesammelt werden. Solche LLMs werden bei der Generierung vielversprechender Angriffspunkte für Arzneimittel helfen, wahrscheinliche Aktivitätsbereiche von Proteinen identifizieren, die mit biologischen Funktionen und Krankheiten verbunden sind, oder Wege und komplexere Zellfunktionen vorschlagen, die auf spezifische Weise mit kleinen Molekülen oder anderen Arzneimittelmodalitäten moduliert werden können. Wir können LLMs auch nutzen, um Medikamente-Responder und Non-Responder anhand genetischer Anfälligkeit zu identifizieren oder Medikamente für andere Krankheitsindikationen wiederzuverwenden. Viele der bestehenden innovativen KI-basierten Arzneimittelforschungsunternehmen beginnen zweifellos bereits, in diese Richtung zu denken und sich zu entwickeln, und wir sollten mit der Gründung weiterer Unternehmen sowie öffentlichen Bemühungen rechnen, die auf den Einsatz von LLMs in der menschlichen Gesundheit und bei Arzneimitteln abzielen Entdeckung.
Vielen Dank für das ausführliche Interview, Leser, die mehr erfahren möchten, sollten vorbeischauen Seher.












