בדל ד"ר סרפים בצוגלו, מנהל נתונים ראשי ב-Seer - סדרת ראיונות - Unite.AI
צור קשר

ראיונות

ד"ר סרפים בזוגלו, מנהל נתונים ראשי ב-Seer – סדרת ראיונות

mm

יצא לאור

 on

סרפים בצוגלו הוא מנהל נתונים ראשי ב רואה. לפני הצטרפותו ל-Seer, סרפים שימש כמנהל נתונים ראשי ב-Insitro, והוביל למידת מכונה ומדעי הנתונים בגישתם לגילוי תרופות. לפני האינסיטרו, הוא שימש כסמנכ"ל לביולוגיה יישומית ומישובית ב-Illumina, והוביל מחקר ופיתוח טכנולוגי של AI ומבחנים מולקולריים להפיכת נתונים גנומיים לניתנים יותר לפירוש בבריאות האדם.

מה משך אותך בתחילה לתחום הגנומיקה?

התעניינתי בתחום הביולוגיה החישובית בתחילת הדוקטורט שלי במדעי המחשב ב-MIT, כשלקחתי שיעור בנושא שלימדו בוני ברגר, שהפכה ליועצת הדוקטורט שלי, ודיוויד גיפורד. פרויקט הגנום האנושי תפס תאוצה במהלך הדוקטורט שלי. אריק לנדר, שעמד בראש מרכז הגנום ב-MIT הפך ליועץ שותף לדוקטורט שלי ושיתף אותי בפרויקט. בהנעה מפרויקט הגנום האנושי, עבדתי על הרכבה של הגנום כולו ועל גנומיקה השוואתית של DNA של אדם ועכבר.

לאחר מכן עברתי לאוניברסיטת סטנפורד כפקולטה במחלקה למדעי המחשב שם ביליתי 15 שנה, וזכיתי לייעץ לכ-30 סטודנטים לדוקטורט מוכשרים להפליא ולהרבה חוקרים פוסט-דוקטורנטים ובוגרי תואר ראשון. המיקוד של הצוות שלי היה יישום אלגוריתמים, למידת מכונה ובניית כלי תוכנה לניתוח נתונים גנומיים וביו-מולקולריים בקנה מידה גדול. עזבתי את סטנפורד ב-2016 כדי להוביל צוות מחקר ופיתוח טכנולוגי באילומינה. מאז, נהניתי להוביל צוותי מו"פ בתעשייה. אני מוצא שעבודת צוות, ההיבט העסקי והשפעה ישירה יותר על החברה אופייניים לתעשייה בהשוואה לאקדמיה. עבדתי בחברות חדשניות במהלך הקריירה שלי: DNAnexus, שייסדתי ב-2009, Illumina, insitro ועכשיו Seer. חישוב ולמידת מכונה חיוניים בכל שרשרת הטכנולוגיה בביוטכנולוגיה, מפיתוח טכנולוגיה, דרך רכישת נתונים ועד לפירוש נתונים ביולוגיים ותרגום לבריאות האדם.

במהלך 20 השנים האחרונות, ריצוף הגנום האנושי הפך לזול ומהיר יותר. זה הוביל לצמיחה דרמטית בשוק ריצוף הגנום ולאימוץ רחב יותר בתעשיית מדעי החיים. אנו נמצאים כעת בקצה של נתונים גנומיים, רב-אומיים ופנוטיפיים של אוכלוסיה בגודל מספיק כדי לחולל מהפכה משמעותית בתחום הבריאות, כולל מניעה, אבחון, טיפול וגילוי תרופות. אנו יכולים לגלות יותר ויותר את היסודות המולקולריים של מחלה עבור אנשים באמצעות ניתוח חישובי של נתונים גנומיים, ולמטופלים יש הזדמנות לקבל טיפולים מותאמים אישית וממוקדים, במיוחד בתחומי הסרטן ומחלות גנטיות נדירות. מעבר לשימוש הברור ברפואה, למידת מכונה בשילוב עם מידע גנומי מאפשר לנו לקבל תובנות על תחומים אחרים בחיינו, כמו הגנאלוגיה והתזונה שלנו. בשנים הקרובות יתקבלו אימוץ של שירותי בריאות מותאמים אישית, מונעי נתונים, תחילה עבור קבוצות נבחרות של אנשים, כגון חולי מחלות נדירות, ויותר ויותר עבור הציבור הרחב.

לפני תפקידך הנוכחי היית מנהל נתונים ראשי ב אינסיטרו, מובילים למידת מכונה ומדע נתונים בגישתם לגילוי תרופות. מה היו כמה מהדברים העיקריים שלך מתקופת זמן זו לגבי האופן שבו ניתן להשתמש בלמידת מכונה כדי להאיץ את גילוי התרופות?

פרדיגמת "ניסוי וטעייה" של גילוי ופיתוח תרופות קונבנציונליות נגועה בחוסר יעילות ובלוחות זמנים ארוכים ביותר. עד שתרופה אחת תגיע לשוק, זה יכול לקחת יותר ממיליארד דולר ויותר מעשור. על ידי שילוב למידת מכונה במאמצים אלה, נוכל להפחית באופן דרמטי עלויות ומסגרות זמן במספר שלבים בדרך. שלב אחד הוא זיהוי מטרה, שבו ניתן לזהות גן או קבוצה של גנים המווסתים פנוטיפ של מחלה או מחזירים מצב תאי של מחלה למצב בריא יותר באמצעות הפרעות גנטיות וכימיות בקנה מידה גדול, וקריאה פנוטיפית כמו הדמיה וגנומיקה תפקודית. . שלב נוסף הוא זיהוי ואופטימיזציה של תרכובות, שבהן ניתן לעצב מולקולה קטנה או מודאליות אחרת על ידי חיזוי סיליקו מונעת למידת מכונה, כמו גם הקרנה חוץ גופית, ויותר מכך תכונות רצויות של תרופה כמו מסיסות, חדירות, סגוליות ואי- ניתן לייעל את הרעילות. ההיבט הקשה והחשוב ביותר הוא אולי התרגום לבני אדם. כאן, הבחירה במודל הנכון - קווים שמקורם בתאי גזע פלוריפוטנטיים לעומת שורות תאים ודגימות רקמה של חולים ראשוניים לעומת מודלים של בעלי חיים - למחלה הנכונה מציבה קבוצה חשובה להפליא של פשרות שמשקפות בסופו של דבר את היכולת של הנתונים המתקבלים בתוספת המכונה. ללמוד לתרגם למטופלים.

Seer Bio היא חלוצה של דרכים חדשות לפענח את סודות הפרוטאום כדי לשפר את בריאות האדם, עבור קוראים שלא מכירים את המונח הזה מהו הפרוטאום?

השמיים פרוטאום הוא מערך החלבונים המשתנה המיוצר או משתנה על ידי אורגניזם לאורך זמן ותגובה לסביבה, תזונה ומצב בריאותי. פרוטאומיקה היא המחקר של הפרוטאום בתוך סוג תא או דגימת רקמה נתונה. הגנום של אדם או אורגניזמים אחרים הוא סטטי: למעט מוטציות סומטיות, הגנום בלידה הוא הגנום שיש לו כל חייהם, המועתק בדיוק בכל תא בגופם. הפרוטאום הוא דינמי ומשתנה בטווחי זמן של שנים, ימים ואפילו דקות. ככאלה, הפרוטאומים קרובים הרבה יותר לפנוטיפ ובסופו של דבר למצב בריאותי מאשר גנומים, וכתוצאה מכך אינפורמטיביים יותר לניטור בריאות והבנת מחלות.

ב-Seer, פיתחנו דרך חדשה לגשת לפרוטאום המספקת תובנות עמוקות יותר לגבי חלבונים ופרוטאופורמים בדגימות מורכבות כמו פלזמה, שהיא דגימה נגישה ביותר שלצערי עד היום היווה אתגר גדול עבור פרוטאומיקת ספקטרומטריית מסה קונבנציונלית.

מהי פלטפורמת ה-Seer's Proteograph™ וכיצד היא מציעה מבט חדש על הפרוטאום?

פלטפורמת Proteograph של Seer ממנפת ספרייה של ננו-חלקיקים מהונדסים קנייניים, המופעלים על ידי זרימת עבודה פשוטה, מהירה ואוטומטית, המאפשרת חקירה עמוקה וניתנת להרחבה של הפרוטאום.

פלטפורמת ה-Proteograph זוהרת בחקירת פלזמה ודגימות מורכבות אחרות המציגות טווח דינמי גדול - הבדלים בסדרי גודל רבים בשפע של חלבונים שונים בדגימה - כאשר שיטות ספקטרומטריית מסה קונבנציונליות אינן מסוגלות לזהות את החלק בשפע הנמוך של הפרוטאום. הננו-חלקיקים של Seer מתוכננים עם תכונות פיזיוכימיות ניתנות לכוונון האוספים חלבונים על פני הטווח הדינמי בצורה לא משוחדת. בדגימות פלזמה טיפוסיות, הטכנולוגיה שלנו מאפשרת זיהוי של פי 5 עד פי 8 יותר חלבונים מאשר בעת עיבוד פלזמה מסודרת ללא שימוש ב-Proteograph. כתוצאה מכך, מהכנת דגימות ועד מכשור ועד ניתוח נתונים, חבילת מוצרי הפרוטאוגרף שלנו מסייעת למדענים למצוא חתימות של מחלות פרוטאומה שאחרת עשויות להיות בלתי ניתנות לגילוי. אנחנו אוהבים לומר שב-Seer, אנחנו פותחים שער חדש לפרוטאום.

יתר על כן, אנו מאפשרים למדענים לבצע בקלות מחקרים פרוטאוגנומיים בקנה מידה גדול. פרוטאוגנומיקה היא שילוב של נתונים גנומיים עם נתונים פרוטאומיים כדי לזהות ולכמת גרסאות חלבון, לקשר גרסאות גנומיות עם רמות שפע חלבון, ובסופו של דבר לקשר את הגנום והפרוטאום לפנוטיפ ולמחלה, ולהתחיל לפרק את המסלולים הגנטיים הסיבתיים והמורדים הקשורים למחלה. .

האם אתה יכול לדון בחלק מטכנולוגיית למידת המכונה שנמצאת בשימוש כיום ב-Seer Bio?

Seer ממנפת למידת מכונה בכל השלבים מפיתוח טכנולוגיה ועד לניתוח נתונים במורד הזרם. שלבים אלה כוללים: (1) עיצוב הננו-חלקיקים הקנייניים שלנו, כאשר למידת מכונה עוזרת לנו לקבוע אילו תכונות פיזיקוכימיות ושילובים של ננו-חלקיקים יעבדו עם קווי מוצרים ומבחנים ספציפיים; (2) זיהוי וכימות של פפטידים, חלבונים, גרסאות ופרוטאופורמים מנתוני הקריאה שהופקו ממכשירי הטרשת הנפוצה; (3) ניתוחים פרוטאומיים ופרוטאוגנומיים במורד הזרם בקבוצות אוכלוסיה בקנה מידה גדול.

בשנה שעברה, אנחנו פרסם מאמר ב-Advanced Materials שילוב של שיטות פרוטאומיקה, ננו-הנדסה ולמידת מכונה לשיפור ההבנה שלנו לגבי מנגנוני היווצרות קורונה של חלבון. מאמר זה חשף אינטראקציות ננו-ביו ומודיע ל-Seer ביצירת ננו-חלקיקים ומוצרים עתידיים משופרים.

מעבר לפיתוח ננו-חלקיקים, פיתחנו אלגוריתמים חדשים לזיהוי פפטידים שונים ושינויים לאחר תרגום (PTMs). לאחרונה פיתחנו שיטה עבור זיהוי של לוקוסים של תכונה מכומדת חלבון (pQTLs) חזק לגרסאות חלבון, שהוא מבלב ידוע לפרוטאומיקה מבוססת זיקה. אנו מרחיבים עבודה זו כדי לזהות ישירות את הפפטידים הללו מהספקטרום הגולמי באמצעות שיטות רצף דה נובו מבוססות למידה עמוקה כדי לאפשר חיפוש מבלי לנפח את גודל הספריות הספקטרליות.

הצוות שלנו גם מפתח שיטות כדי לאפשר למדענים ללא מומחיות עמוקה בלמידת מכונה לכוון בצורה מיטבית ולהשתמש במודלים של למידת מכונה בעבודת הגילוי שלהם. זה מושג באמצעות מסגרת של Seer ML המבוססת על AutoML כלי, המאפשר כוונון היפרפרמטר יעיל באמצעות אופטימיזציה בייסיאנית.

לבסוף, אנו מפתחים שיטות להפחתת השפעת האצווה ולהגביר את הדיוק הכמותי של קריאת מפרט המסה על ידי מודל של הערכים הכמותיים הנמדדים כדי למקסם את המדדים הצפויים כגון מתאם של ערכי עוצמה על פני פפטידים בתוך קבוצת חלבונים.

הזיות הן בעיה נפוצה עם LLMs, מהם כמה מהפתרונות למנוע או להפחית זאת?

LLMs הן שיטות גנרטיביות שמקבלות קורפוס גדול ומאומנות ליצור טקסט דומה. הם לוכדים את המאפיינים הסטטיסטיים הבסיסיים של הטקסט שעליו הם מאומנים, ממאפיינים מקומיים פשוטים כגון התדירות שבה שילובים מסוימים של מילים (או אסימונים) נמצאים יחד, ועד למאפיינים ברמה גבוהה יותר שמחקות הבנה של הקשר ומשמעות.

עם זאת, לימודי LLM אינם מאומנים בעיקר להיות נכונים. למידת חיזוק עם משוב אנושי (RLHF) וטכניקות אחרות עוזרות לאמן אותם לתכונות רצויות כולל נכונות, אך אינן מוצלחות במלואן. בהינתן הנחיה, LLMs ייצרו טקסט הדומה ביותר למאפיינים הסטטיסטיים של נתוני האימון. לעתים קרובות, גם הטקסט הזה נכון. לדוגמה, אם נשאל "מתי נולד אלכסנדר מוקדון", התשובה הנכונה היא 356 לפנה"ס (או לפני הספירה), וסביר להניח ש-LLM ייתן את התשובה הזו מכיוון שבתוך נתוני ההכשרה, לידתו של אלכסנדר מוקדון מופיעה לעתים קרובות כערך זה. עם זאת, כשנשאלת "מתי נולדה הקיסרית רג'ינלה", דמות בדיונית שאינה נוכחת בקורפוס ההדרכה, ה-LLM צפוי להזות וליצור סיפור לידתה. באופן דומה, כאשר נשאלת שאלה שה-LLM עשוי שלא לקבל עליה תשובה נכונה (או בגלל שהתשובה הנכונה לא קיימת, או למטרות סטטיסטיות אחרות), סביר להניח שהוא יזה ויענה כאילו הוא יודע. זה יוצר הזיות שהן בעיה ברורה ליישומים רציניים, כמו "איך ניתן לטפל בסרטן כזה ואחר".

אין עדיין פתרונות מושלמים להזיות. הם אנדמיים לעיצוב של LLM. פתרון חלקי אחד הוא הנחיה נכונה, כגון בקשה מה-LLM "לחשוב היטב, צעד אחר צעד", וכן הלאה. זה מגדיל את הסבירות של LLMs לא לרקוח סיפורים. גישה מתוחכמת יותר שמפותחת היא שימוש בגרפי ידע. גרפי ידע מספקים נתונים מובנים: ישויות בגרף ידע מחוברות לישויות אחרות באופן הגיוני מוגדר מראש. בניית גרף ידע עבור תחום נתון היא כמובן משימה מאתגרת אך ניתנת לביצוע עם שילוב של שיטות אוטומטיות וסטטיסטיות ואוצרות. עם גרף ידע מובנה, LLMs יכולים להצליב את ההצהרות שהם יוצרים מול הסט המובנה של עובדות ידועות, וניתן להגביל אותם שלא ליצור הצהרה שסותרת או לא נתמכת על ידי גרף הידע.

בגלל הנושא הבסיסי של הזיות, וללא ספק בגלל היעדר יכולות הנמקה ושיקול דעת מספקים, LLMs הם היום חזקים לאחזור, חיבור וזיקוק מידע, אך אינם יכולים להחליף מומחים אנושיים ביישומים רציניים כמו אבחון רפואי או ייעוץ משפטי. ובכל זאת, הם יכולים לשפר מאוד את היעילות והיכולת של מומחים אנושיים בתחומים אלה.

האם אתה יכול לחלוק את החזון שלך לעתיד שבו הביולוגיה מנווטת על ידי נתונים ולא השערות?

הגישה המסורתית מונעת ההשערות, הכוללת חוקרים מציאת דפוסים, פיתוח השערות, ביצוע ניסויים או מחקרים כדי לבדוק אותם, ולאחר מכן חידוד תיאוריות המבוססות על הנתונים, הולכת ומתחלפת על ידי פרדיגמה חדשה המבוססת על מודלים מונעי נתונים.

בפרדיגמה המתפתחת זו, החוקרים מתחילים עם יצירת נתונים בקנה מידה גדול ללא השערות. לאחר מכן, הם מאמנים מודל למידת מכונה כגון LLM במטרה של שחזור מדויק של נתונים חסומים, רגרסיה חזקה או ביצועי סיווג במספר משימות במורד הזרם. ברגע שמודל למידת המכונה יכול לחזות במדויק את הנתונים, ומשיג נאמנות הדומה לדמיון בין שכפולים ניסיוניים, החוקרים יכולים לחקור את המודל כדי להפיק תובנות לגבי המערכת הביולוגית ולהבחין בעקרונות הביולוגיים הבסיסיים.

LLMs מוכיחים כי הם טובים במיוחד במודלים של נתונים ביו-מולקולריים, והם מיועדים לתדלק מעבר מגילוי ביולוגי מונע השערות לגילוי ביולוגי מונע. השינוי הזה יתבטא יותר ויותר במהלך 10 השנים הבאות ויאפשר מודלים מדויקים של מערכות ביו-מולקולריות בפירוט החורגת הרבה מעבר ליכולת האנושית.

מהי ההשפעה הפוטנציאלית על אבחון מחלה וגילוי תרופות?

אני מאמין ש-LLM ובינה מלאכותית יובילו לשינויים משמעותיים בתעשיית מדעי החיים. תחום אחד שיפיק תועלת רבה מ-LLMs הוא אבחון קליני, במיוחד עבור מחלות נדירות שקשה לאבחן ותתי סוגים של סרטן. ישנן כמויות אדירות של מידע מקיף על המטופל שאנו יכולים לנצל - מפרופילים גנומיים, תגובות טיפוליות, רשומות רפואיות והיסטוריה משפחתית - כדי להניע אבחון מדויק ובזמן. אם נוכל למצוא דרך לאסוף את כל הנתונים האלה כך שיהיו נגישים בקלות, ושלא יסתמו על ידי ארגוני בריאות בודדים, נוכל לשפר באופן דרמטי את דיוק האבחון. אין זה אומר שמודלים של למידת מכונה, כולל LLMs, יוכלו לפעול באופן אוטונומי באבחון. בשל המגבלות הטכניות שלהם, בעתיד הנראה לעין הם לא יהיו אוטונומיים, אלא הם יגדילו את המומחים האנושיים. הם יהיו כלים רבי עוצמה שיסייעו לרופא לספק הערכות ואבחונים מושכלים ביותר בשבריר מהזמן הדרוש עד כה, ולתעד כראוי ולתקשר את האבחנות שלהם למטופל וכן לכל רשת ספקי הבריאות המחוברים באמצעות המכונה. מערכת למידה.

התעשייה כבר ממנפת למידת מכונה לגילוי ופיתוח תרופות, ומציגה את יכולתה להפחית עלויות וקווי זמן בהשוואה לפרדיגמה המסורתית. LLMs מוסיפים עוד לארגז הכלים הזמין, ומספקים מסגרות מצוינות למידול נתונים ביו-מולקולריים בקנה מידה גדול, כולל גנומים, פרוטומים, נתונים גנומיים ואפיגנומיים פונקציונליים, נתונים של תא בודד ועוד. בעתיד הנראה לעין, LLMs של קרן ללא ספק יתחברו על פני כל אופני הנתונים הללו ועל פני קבוצות גדולות של אנשים שהמידע הגנומי, הפרוטאומי והבריאותי שלהם נאסף. LLMs כאלה יסייעו ביצירת מטרות תרופות מבטיחות, יזהו כיסי פעילות סבירים של חלבונים הקשורים לתפקוד ביולוגי ומחלות, או יציעו מסלולים ותפקודים תאיים מורכבים יותר שניתן לשנות בצורה ספציפית עם מולקולות קטנות או שיטות תרופות אחרות. אנו יכולים גם להתחבר ל-LLMs כדי לזהות מגיבים לתרופות ולא מגיבים על סמך רגישות גנטית, או לייעוד מחדש של תרופות בהתוויות מחלה אחרות. רבות מחברות גילוי התרופות החדשניות מבוססות בינה מלאכותית הקיימות ללא ספק כבר מתחילות לחשוב ולהתפתח בכיוון הזה, ועלינו לצפות לראות היווצרות של חברות נוספות וכן מאמצים ציבוריים שמטרתם פריסת תרופות LLM בבריאות האדם ובתרופות תַגלִית.

תודה על הראיון המפורט, קוראים שרוצים ללמוד עוד צריכים לבקר רואה.

שותף מייסד של unite.AI וחבר ב- המועצה הטכנולוגית של פורבס, אנטואן הוא א עתידן שהוא נלהב מהעתיד של AI ורובוטיקה.

הוא גם המייסד של Securities.io, אתר אינטרנט המתמקד בהשקעה בטכנולוגיה משבשת.