Entretiens
Dr. Serafim Batzoglou, Chief Data Officer chez Seer – Série d’entretiens

Serafim Batzoglou est le Chief Data Officer de Seer. Avant de rejoindre Seer, Serafim a occupé le poste de Chief Data Officer chez Insitro, où il a dirigé l’apprentissage automatique et la science des données dans leur approche de la découverte de médicaments. Avant Insitro, il a occupé le poste de VP de la biologie appliquée et computationnelle chez Illumina, où il a dirigé la recherche et le développement de technologies d’IA et d’essais moléculaires pour rendre les données génomiques plus interprétables en matière de santé humaine.
Qu’est-ce qui vous a initialement attiré dans le domaine de la génomique ?
Je me suis intéressé au domaine de la biologie computationnelle au début de mon doctorat en informatique au MIT, lorsque j’ai suivi un cours sur le sujet enseigné par Bonnie Berger, qui est devenue mon directeur de thèse, et David Gifford. Le projet du génome humain prenait de l’ampleur pendant mon doctorat. Eric Lander, qui dirigeait le Centre de génomique du MIT, est devenu mon co-directeur de thèse et m’a impliqué dans le projet. Motivé par le projet du génome humain, j’ai travaillé sur l’assemblage de génomes entiers et la génomique comparative de l’ADN humain et murin.
Je suis ensuite allé à l’Université de Stanford en tant que membre du département d’informatique, où j’ai passé 15 ans, et j’ai eu le privilège de diriger environ 30 étudiants de doctorat extrêmement talentueux et de nombreux chercheurs postdoctoraux et étudiants de premier cycle. L’objectif de mon équipe a été l’application d’algorithmes, d’apprentissage automatique et de construction d’outils logiciels pour l’analyse de grandes quantités de données génomiques et biomoléculaires. J’ai quitté Stanford en 2016 pour diriger une équipe de recherche et de développement technologique chez Illumina. Depuis, j’ai apprécié de diriger des équipes de R&D dans l’industrie. Je trouve que le travail d’équipe, l’aspect commercial et l’impact direct sur la société sont caractéristiques de l’industrie par rapport à l’université. J’ai travaillé dans des entreprises innovantes tout au long de ma carrière : DNAnexus, que j’ai co-fondée en 2009, Illumina, Insitro et maintenant Seer. L’informatique et l’apprentissage automatique sont essentiels à toute la chaîne technologique de la biotechnologie, de la technologie de développement à l’acquisition de données, à l’interprétation de données biologiques et à la traduction en santé humaine.
Au cours des 20 dernières années, la séquençage du génome humain est devenu beaucoup moins cher et plus rapide. Cela a conduit à une croissance spectaculaire du marché de la séquençage du génome et à une adoption plus large dans l’industrie des sciences de la vie. Nous sommes maintenant à la veille d’avoir des données génomiques, multi-omiques et phénotypiques de taille suffisante pour révolutionner de manière significative les soins de santé, y compris la prévention, le diagnostic, le traitement et la découverte de médicaments. Nous pouvons de plus en plus découvrir les fondements moléculaires des maladies pour les individus grâce à l’analyse computationnelle des données génomiques, et les patients ont la chance de recevoir des traitements personnalisés et ciblés, en particulier dans les domaines du cancer et des maladies génétiques rares. Au-delà de l’utilisation évidente en médecine, l’apprentissage automatique couplé avec les informations génomiques nous permet de gagner des insights dans d’autres domaines de notre vie, tels que notre généalogie et notre nutrition. Les prochaines années verront l’adoption de soins de santé personnalisés et basés sur les données, d’abord pour des groupes sélectionnés de personnes, tels que les patients atteints de maladies rares, et de plus en plus pour le grand public.
Avant votre rôle actuel, vous étiez Chief Data Officer chez Insitro, où vous avez dirigé l’apprentissage automatique et la science des données dans leur approche de la découverte de médicaments. Quelles étaient certaines de vos principales conclusions pendant cette période sur la façon dont l’apprentissage automatique peut être utilisé pour accélérer la découverte de médicaments ?
Le paradigme conventionnel de la découverte et du développement de médicaments « essai et erreur » est encombré d’inefficacités et de délais extrêmement longs. Pour qu’un médicament atteigne le marché, cela peut prendre plus d’un milliard de dollars et plus de dix ans. En incorporant l’apprentissage automatique dans ces efforts, nous pouvons réduire considérablement les coûts et les délais à plusieurs étapes. Une étape est l’identification des cibles, où un gène ou un ensemble de gènes qui modulent un phénotype de maladie ou rétablissent un état cellulaire sain peuvent être identifiés grâce à des perturbations génétiques et chimiques à grande échelle, ainsi que des lectures phénotypiques telles que l’imagerie et la génomique fonctionnelle. Une autre étape est l’identification et l’optimisation des composés, où une petite molécule ou une autre modalité peut être conçue par prédiction in silico basée sur l’apprentissage automatique ainsi que par criblage in vitro, et de plus, les propriétés souhaitées d’un médicament telles que la solubilité, la perméabilité, la spécificité et la non-toxicité peuvent être optimisées. L’aspect le plus difficile et le plus important est peut-être la traduction en humains. Ici, le choix du bon modèle – lignées cellulaires pluripotentes induites par des cellules souches contre des lignées cellulaires primaires et des échantillons de tissus contre des modèles animaux – pour la bonne maladie pose un ensemble de compromis incroyablement important qui reflète finalement la capacité des données résultantes plus l’apprentissage automatique à se traduire en patients.
Seer Bio est pionnier dans de nouvelles façons de décoder les secrets du protéome pour améliorer la santé humaine. Pour les lecteurs qui ne sont pas familiers avec ce terme, qu’est-ce que le protéome ?
Le protéome est l’ensemble de protéines produit ou modifié par un organisme au fil du temps et en réponse à l’environnement, à la nutrition et à l’état de santé. La protéomique est l’étude du protéome dans un type de cellule ou un échantillon de tissu donné. Le génome d’un humain ou d’autres organismes est statique : à l’exception importante des mutations somatiques, le génome à la naissance est le génome que l’on a toute sa vie, copié exactement dans chaque cellule du corps. Le protéome est dynamique et change dans des délais de années, de jours et même de minutes. Comme tel, les protéomes sont beaucoup plus proches du phénotype et, finalement, de l’état de santé que les génomes, et sont donc plus informatifs pour la surveillance de la santé et la compréhension des maladies.
Chez Seer, nous avons développé une nouvelle façon d’accéder au protéome qui fournit des insights plus profonds sur les protéines et les protéiformes dans des échantillons complexes tels que le plasma, qui est un échantillon très accessible qui, malheureusement, a posé un grand défi à la protéomique conventionnelle de spectrométrie de masse.
Qu’est-ce que la plate-forme Proteograph de Seer et comment offre-t-elle une nouvelle vision du protéome ?
La plate-forme Proteograph de Seer utilise une bibliothèque de nanoparticules ingénierées de propriété, alimentée par un flux de travail simple, rapide et automatisé, permettant une interrogation approfondie et évolutive du protéome.
La plate-forme Proteograph brille dans l’interrogation du plasma et d’autres échantillons complexes qui présentent une grande amplitude dynamique – de nombreuses ordres de grandeur de différence dans l’abondance de diverses protéines dans l’échantillon – où les méthodes de spectrométrie de masse conventionnelles ne sont pas en mesure de détecter la partie à faible abondance du protéome. Les nanoparticules de Seer sont conçues avec des propriétés physicochimiques ajustables qui rassemblent les protéines à travers la plage dynamique de manière non biaisée. Dans les échantillons de plasma typiques, notre technologie permet la détection de 5 à 8 fois plus de protéines que lors du traitement du plasma brut sans utiliser la plate-forme Proteograph. En conséquence, de la préparation des échantillons à l’instrumentation et à l’analyse des données, notre suite de produits Proteograph aide les scientifiques à trouver des signatures de maladie du protéome qui pourraient autrement être indétectables. Nous aimons dire que chez Seer, nous ouvrons une nouvelle porte d’entrée vers le protéome.
En outre, nous permettons aux scientifiques d’effectuer facilement des études protéogénomiques à grande échelle. La protéogénomique est la combinaison de données génomiques avec des données protéomiques pour identifier et quantifier les variants de protéines, relier les variants génomiques avec les niveaux d’abondance de protéines, et finalement relier le génome et le protéome au phénotype et à la maladie, et commencer à démêler les voies génétiques causales et en aval associées à la maladie.
Pouvez-vous discuter certaines des technologies d’apprentissage automatique actuellement utilisées chez Seer Bio ?
Seer utilise l’apprentissage automatique à toutes les étapes, de la technologie de développement à l’analyse de données en aval. Ces étapes incluent : (1) la conception de nos nanoparticules de propriété, où l’apprentissage automatique nous aide à déterminer quelles propriétés physicochimiques et combinaisons de nanoparticules fonctionneront avec des lignes de produits et des essais spécifiques ; (2) la détection et la quantification des peptides, des protéines, des variants et des protéiformes à partir des données de sortie produites par les instruments MS ; (3) les analyses protéomiques et protéogénomiques en aval dans de grandes cohortes de population.
L’année dernière, nous publiions un article dans Advanced Materials combinant les méthodes de protéomique, de nano-ingénierie et d’apprentissage automatique pour améliorer notre compréhension des mécanismes de formation de la couronne de protéines. Cet article a découvert des interactions nano-bio et éclaire Seer dans la création de nanoparticules et de produits améliorés à l’avenir.
Au-delà du développement de nanoparticules, nous avons développé des algorithmes novateurs pour identifier les peptides variants et les modifications post-traductionnelles (PTM). Nous avons récemment développé une méthode pour la détection des loci de traits quantifiés de protéines (pQTL) qui est robuste aux variants de protéines, qui est un facteur de confusion connu pour la protéomique basée sur l’affinité. Nous étendons ce travail pour identifier directement ces peptides à partir des spectres bruts en utilisant des méthodes de séquençage de novo basées sur l’apprentissage profond pour permettre la recherche sans gonfler la taille des bibliothèques spectrales.
<p Notre équipe développe également des méthodes pour permettre aux scientifiques sans expertise approfondie en apprentissage automatique d'optimiser et d'utiliser des modèles d'apprentissage automatique dans leur travail de découverte. Cela est réalisé via un cadre Seer ML basé sur l'outil AutoML, qui permet un réglage efficace des hyperparamètres via l’optimisation bayésienne.
Enfin, nous développons des méthodes pour réduire l’effet de lot et augmenter la précision quantitative de la lecture de la spectrométrie de masse en modélisant les valeurs quantitatives mesurées pour maximiser les métriques attendues telles que la corrélation des valeurs d’intensité entre les peptides dans un groupe de protéines.
Les hallucinations sont un problème courant avec les LLM, quels sont certaines des solutions pour les prévenir ou les atténuer ?
Les LLM sont des méthodes génératives qui sont données un grand corpus et sont formées pour générer du texte similaire. Ils capturent les propriétés statistiques sous-jacentes du texte sur lequel ils sont formés, des propriétés locales simples telles que la fréquence à laquelle certaines combinaisons de mots (ou de jetons) sont trouvées ensemble, à des propriétés de niveau supérieur qui simulent la compréhension du contexte et du sens.
Cependant, les LLM ne sont pas principalement formés pour être corrects. L’apprentissage par renforcement avec une rétroaction humaine (RLHF) et d’autres techniques les aident à former des propriétés souhaitables, y compris la correction, mais ne sont pas entièrement réussies. Étant donné une invite, les LLM généreront du texte qui ressemble le plus aux propriétés statistiques des données de formation. Souvent, ce texte est également correct. Par exemple, si l’on demande « quand Alexandre le Grand est-il né », la bonne réponse est 356 avant J.-C. (ou avant notre ère), et un LLM est susceptible de donner cette réponse car dans les données de formation, la naissance d’Alexandre le Grand apparaît souvent avec cette valeur. Cependant, si l’on demande « quand l’impératrice Reginella est-elle née », un personnage fictif qui n’est pas présent dans le corpus de formation, le LLM est susceptible de halluciner et de créer une histoire de sa naissance. De même, lorsqu’on pose une question à laquelle le LLM peut ne pas retrouver de bonne réponse (soit parce que la bonne réponse n’existe pas, soit pour d’autres raisons statistiques), il est susceptible de halluciner et de répondre comme s’il savait. Cela crée des hallucinations qui sont un problème évident pour les applications sérieuses, telles que « comment traiter un tel cancer ».
Il n’y a pas de solutions parfaites pour les hallucinations. Elles sont inhérentes à la conception du LLM. Une solution partielle est une invite appropriée, telle que demander au LLM de « réfléchir soigneusement, étape par étape », etc. Cela augmente la probabilité pour le LLM de ne pas inventer d’histoires. Une approche plus sophistiquée qui est en cours de développement est l’utilisation de graphes de connaissances. Les graphes de connaissances fournissent des données structurées : les entités dans un graphique de connaissances sont liées à d’autres entités d’une manière logique prédéfinie. La construction d’un graphique de connaissances pour un domaine donné est bien sûr une tâche difficile mais réalisable avec une combinaison de méthodes automatisées et statistiques et de curation. Avec un graphique de connaissances intégré, les LLM peuvent vérifier les énoncés qu’ils génèrent contre l’ensemble structuré de faits connus et peuvent être contraints de ne pas générer d’énoncé qui contredit ou n’est pas étayé par le graphique de connaissances.
En raison du problème fondamental des hallucinations, et sans doute en raison de leur manque de capacités de raisonnement et de jugement suffisantes, les LLM sont aujourd’hui puissants pour la récupération, la connexion et la distillation d’informations, mais ne peuvent pas remplacer les experts humains dans des applications sérieuses telles que le diagnostic médical ou les conseils juridiques. Cependant, ils peuvent considérablement améliorer l’efficacité et la capacité des experts humains dans ces domaines.
Pouvez-vous partager votre vision d’un avenir où la biologie est guidée par les données plutôt que par des hypothèses ?
L’approche traditionnelle basée sur l’hypothèse, qui consiste pour les chercheurs à trouver des modèles, à développer des hypothèses, à effectuer des expériences ou des études pour les tester, puis à affiner les théories en fonction des données, est en train d’être supplantée par un nouveau paradigme basé sur la modélisation basée sur les données.
Dans ce paradigme émergent, les chercheurs commencent par une génération de données à grande échelle et sans hypothèse. Ensuite, ils forment un modèle d’apprentissage automatique tel qu’un LLM avec l’objectif d’une reconstruction précise des données occultées, d’une forte régression ou d’une performance de classification dans un certain nombre de tâches en aval. Une fois que le modèle d’apprentissage automatique peut prédire avec précision les données et atteindre une fidélité comparable à la similarité entre les répétitions expérimentales, les chercheurs peuvent interroger le modèle pour extraire des informations sur le système biologique et discerner les principes biologiques sous-jacents.
Les LLM se révèlent particulièrement efficaces pour modéliser les données biomoléculaires et sont conçus pour alimenter un changement de la découverte biologique basée sur l’hypothèse à la découverte basée sur les données. Ce changement deviendra de plus en plus prononcé au cours des 10 prochaines années et permettra une modélisation précise des systèmes biomoléculaires à une granularité qui va bien au-delà de la capacité humaine.
Quel est l’impact potentiel pour le diagnostic des maladies et la découverte de médicaments ?
Je crois que les LLM et l’IA générative conduiront à des changements importants dans l’industrie des sciences de la vie. Un domaine qui bénéficiera grandement des LLM est le diagnostic clinique, en particulier pour les maladies rares et difficiles à diagnostiquer et les sous-types de cancer. Il existe une quantité énorme d’informations complètes sur les patients que nous pouvons exploiter – des profils génomiques, des réponses aux traitements, des dossiers médicaux et des antécédents familiaux – pour conduire à un diagnostic précis et opportun. Si nous pouvons trouver un moyen de compiler toutes ces données de telle sorte qu’elles soient facilement accessibles et non isolées par des organisations de santé individuelles, nous pouvons améliorer considérablement la précision du diagnostic. Cela ne signifie pas que les modèles d’apprentissage automatique, y compris les LLM, seront en mesure de fonctionner de manière autonome dans le diagnostic. En raison de leurs limitations techniques, dans un avenir prévisible, ils ne seront pas autonomes, mais ils seront des outils puissants pour aider les médecins à fournir des évaluations et des diagnostics superbement informés en un temps fractionnaire de celui nécessaire à ce jour, et à documenter et communiquer correctement leurs diagnostics aux patients ainsi qu’à l’ensemble du réseau de fournisseurs de soins de santé connectés via le système d’apprentissage automatique.
L’industrie utilise déjà l’apprentissage automatique pour la découverte et le développement de médicaments, vantant sa capacité à réduire les coûts et les délais par rapport au paradigme traditionnel. Les LLM ajoutent encore à la boîte à outils disponible et fournissent d’excellents cadres pour la modélisation de grandes quantités de données biomoléculaires, y compris les génomes, les protéomes, les données génomiques fonctionnelles et épigénomiques, les données à cellule unique et plus encore. Dans un avenir prévisible, les LLM de base relieront sans aucun doute tous ces types de données et traverseront de grandes cohortes d’individus dont les informations génomiques, protéomiques et de santé sont collectées. De tels LLM aideront à la génération de cibles de médicaments prometteuses, à l’identification de poches d’activité de protéines associées à la fonction biologique et à la maladie, ou à la suggestion de voies et de fonctions cellulaires plus complexes qui peuvent être modulées d’une manière spécifique avec de petites molécules ou d’autres modalités de médicaments. Nous pouvons également puiser dans les LLM pour identifier les répondants et les non-répondants aux médicaments en fonction de la susceptibilité génétique, ou pour réutiliser les médicaments dans d’autres indications de maladie. Beaucoup des entreprises de découverte de médicaments basées sur l’IA innovantes sont sans aucun doute déjà en train de réfléchir et de développer dans cette direction, et nous devrions nous attendre à voir la formation de sociétés et d’efforts publics visant à déployer les LLM dans la santé humaine et la découverte de médicaments. Thank you for the detailed interview, readers who wish to learn more should visit Seer.












