saplama Dr. Serafim Batzoglou, Seer Veri Direktörü - Röportaj Serisi - Unite.AI
Bizimle iletişime geçin

Röportajlar

Dr. Serafim Batzoglou, Seer – Röportaj Serisinde Veri Direktörü

mm

Yayınlanan

 on

Serafim Batzoglou, Veri Direktörüdür Kâhin. Seer'a katılmadan önce Serafim, Insitro'da Baş Veri Sorumlusu olarak görev yaptı ve ilaç keşfi yaklaşımlarında makine öğrenimi ve veri bilimine liderlik etti. Insitro'dan önce Illumina'da Uygulamalı ve Hesaplamalı Biyoloji Başkan Yardımcısı olarak görev yaptı ve genomik verileri insan sağlığında daha yorumlanabilir hale getirmek için yapay zeka ve moleküler analizlere yönelik araştırma ve teknoloji geliştirme çalışmalarına liderlik etti.

Başlangıçta sizi genomik alanına çeken şey neydi?

Hesaplamalı biyoloji alanına ilgim, MIT'de bilgisayar bilimleri alanında doktora eğitimimin başlangıcında, doktora danışmanım olan Bonnie Berger ve David Gifford'un öğrettiği konuyla ilgili bir ders aldığımda başladı. İnsan genomu projesi doktoram sırasında hız kazanıyordu. MIT'de Genom Merkezi'nin başında bulunan Eric Lander, doktora ortak danışmanım oldu ve beni projeye dahil etti. İnsan genomu projesinin motivasyonuyla, tüm genomun birleştirilmesi ve insan ve fare DNA'sının karşılaştırmalı genomiği üzerinde çalıştım.

Daha sonra Stanford Üniversitesi'nin Bilgisayar Bilimleri bölümünde öğretim üyesi olarak 15 yılımı geçirdim ve yaklaşık 30 inanılmaz yetenekli doktora öğrencisine ve çok sayıda doktora sonrası araştırmacı ve lisans öğrencisine danışmanlık yapma ayrıcalığına sahip oldum. Ekibimin odak noktası, büyük ölçekli genomik ve biyomoleküler verilerin analizi için algoritmaların, makine öğreniminin ve yazılım araçlarının geliştirilmesinin uygulanması olmuştur. Illumina'da bir araştırma ve teknoloji geliştirme ekibine liderlik etmek için 2016 yılında Stanford'dan ayrıldım. O zamandan beri sektördeki Ar-Ge ekiplerine liderlik etmekten keyif alıyorum. Takım çalışmasının, iş yönünün ve topluma daha doğrudan etkinin, akademi ile karşılaştırıldığında endüstrinin karakteristik özellikleri olduğunu düşünüyorum. Kariyerim boyunca yenilikçi şirketlerde çalıştım: 2009'da kurucu ortağı olduğum DNAnexus, Illumina, insitro ve şimdi de Seer. Hesaplama ve makine öğrenimi, biyoteknolojideki teknoloji zincirinde, teknoloji geliştirmeden veri toplamaya, biyolojik veri yorumlama ve insan sağlığına çeviriye kadar çok önemlidir.

Son 20 yılda insan genomunun dizilenmesi çok daha ucuz ve hızlı hale geldi. Bu, genom dizileme pazarında çarpıcı bir büyümeye ve yaşam bilimleri endüstrisinde daha geniş çapta benimsenmesine yol açtı. Artık önleme, teşhis, tedavi ve ilaç keşfi de dahil olmak üzere sağlık hizmetlerinde anlamlı bir devrim yaratacak yeterli büyüklükte popülasyon genomik, multi-omik ve fenotipik verilere sahip olmanın eşiğindeyiz. Genomik verilerin hesaplamalı analizi yoluyla bireyler için hastalığın moleküler temellerini giderek daha fazla keşfedebiliyoruz ve hastalar, özellikle kanser ve nadir görülen genetik hastalıklar alanlarında kişiselleştirilmiş ve hedefe yönelik tedaviler alma şansına sahip oluyor. Tıpta bariz kullanımının ötesinde, genomik bilgilerle birleşen makine öğrenimi, şeceremiz ve beslenme gibi hayatımızın diğer alanlarına dair içgörü kazanmamıza olanak tanıyor. Önümüzdeki birkaç yıl, kişiselleştirilmiş, veriye dayalı sağlık hizmetlerinin, önce nadir hastalık hastaları gibi seçilmiş insan grupları için, giderek de geniş halk kitleleri için benimsendiğini görecek.

Mevcut göreviniz öncesinde Veri Direktörü olarak görev yapıyordunuz. Girişilaç keşfine yaklaşımlarında makine öğrenimi ve veri bilimine öncülük ediyor. İlaç keşfini hızlandırmak için makine öğreniminin nasıl kullanılabileceği konusunda bu dönemden çıkardığınız önemli çıkarımlar nelerdi?

Geleneksel ilaç keşfi ve geliştirme "deneme-yanılma" paradigması, verimsizlikler ve son derece uzun zaman çizelgeleri ile boğuşmaktadır. Bir ilacın pazara sunulması 1 milyar dolardan fazla ve on yıldan fazla bir zaman alabilir. Makine öğrenimini bu çabalara dahil ederek, birkaç adımda maliyetleri ve zaman dilimlerini önemli ölçüde azaltabiliriz. Bir adım, bir hastalık fenotipini modüle eden veya bir hastalığın hücresel durumunu daha sağlıklı bir duruma döndüren bir gen veya gen kümesinin, büyük ölçekli genetik ve kimyasal bozulmalar ve görüntüleme ve fonksiyonel genomik gibi fenotipik okumalar yoluyla tanımlanabildiği hedef tanımlamadır. . Diğer bir adım, küçük bir molekülün veya başka bir yöntemin, in silico tahminin yanı sıra in vitro tarama ile makine öğrenmesi ile tasarlanabildiği bileşik tanımlama ve optimizasyondur ve ayrıca çözünürlük, geçirgenlik, spesifiklik ve non-in vitro bir ilacın istenen özellikleridir. Toksisite optimize edilebilir. Belki de en zor ve en önemli husus insanlara tercümedir. Burada, doğru hastalık için doğru modelin (uyarılmış pluripotent kök hücre türevli hatlara karşı birincil hasta hücre hatları ve doku örneklerine karşı hayvan modellerine karşı) seçimi, sonuçta elde edilen verilerin artı makinenin yeteneğine yansıyan inanılmaz derecede önemli bir dizi ödünleşimi ortaya koyar. hastalara tercüme etmeyi öğreniyorum.

Seer Bio, insan sağlığını iyileştirmek amacıyla proteomun sırlarını çözmenin yeni yollarına öncülük ediyor. Bu terime aşina olmayan okuyucular için proteom nedir?

The proteom Bir organizmanın zamanla çevreye, beslenmeye ve sağlık durumuna tepki olarak ürettiği veya değiştirdiği değişen protein setidir. Proteomik, belirli bir hücre tipi veya doku örneğindeki proteomun incelenmesidir. Bir insanın veya diğer organizmaların genomu statiktir: somatik mutasyonların önemli istisnası dışında, doğumdaki genom, kişinin tüm hayatı boyunca sahip olduğu ve vücudunun her hücresine tam olarak kopyalanan genomdur. Proteom dinamiktir ve yıllar, günler ve hatta dakikalar süren zaman aralıklarında değişir. Bu nedenle proteomlar fenotipe ve sonuçta sağlık durumuna genomlardan çok daha yakındır ve sonuç olarak sağlığın izlenmesi ve hastalığın anlaşılması konusunda daha bilgilendiricidir.

Seer'de, ne yazık ki bugüne kadar geleneksel kütle spektrometresi proteomikleri için büyük bir zorluk teşkil eden, oldukça erişilebilir bir örnek olan plazma gibi karmaşık numunelerdeki proteinler ve proteoformlar hakkında daha derin bilgiler sağlayan proteomaya erişmenin yeni bir yolunu geliştirdik.

Seer'in Proteograph™ platformu nedir ve proteomun yeni görünümünü nasıl sunar?

Seer'in Proteograph platformu, basit, hızlı ve otomatikleştirilmiş bir iş akışıyla desteklenen, özel olarak tasarlanmış nanopartiküllerden oluşan bir kütüphaneden yararlanarak proteomun derin ve ölçeklenebilir şekilde sorgulanmasına olanak tanır.

Proteograph platformu, geleneksel kütle spektrometri yöntemlerinin proteomun düşük bolluk kısmını tespit edemediği geniş dinamik aralık (örnekteki çeşitli proteinlerin bolluğunda birçok büyüklük farkı) sergileyen plazma ve diğer karmaşık örneklerin sorgulanmasında parlıyor. Seer'in nanopartikülleri, proteinleri dinamik aralıkta tarafsız bir şekilde toplayan ayarlanabilir fizyokimyasal özelliklerle tasarlanmıştır. Tipik plazma numunelerinde teknolojimiz, Proteograph kullanılmadan saf plazmanın işlenmesine kıyasla 5 ila 8 kat daha fazla proteinin tespit edilmesini sağlar. Sonuç olarak, numune hazırlamadan enstrümantasyona ve veri analizine kadar Proteograph Ürün Paketimiz, bilim adamlarının normalde tespit edilemeyecek proteom hastalığı imzalarını bulmasına yardımcı olur. Seer'de proteoma yeni bir kapı açtığımızı söylemek isteriz.

Ayrıca bilim adamlarının büyük ölçekli proteogenomik çalışmaları kolaylıkla gerçekleştirmesine olanak sağlıyoruz. Proteogenomik, protein varyantlarını tanımlamak ve ölçmek, genomik varyantları protein bolluk seviyelerine bağlamak ve sonuçta genomu ve proteomu fenotip ve hastalığa bağlamak ve hastalıkla ilişkili nedensel ve aşağı yönlü genetik yolları çözmeye başlamak için genomik verilerin proteomik verilerle birleştirilmesidir. .

Seer Bio'da şu anda kullanılan makine öğrenimi teknolojilerinden bazılarını tartışabilir misiniz?

Seer, teknoloji geliştirmeden sonraki veri analizine kadar tüm adımlarda makine öğreniminden yararlanıyor. Bu adımlar şunları içerir: (1) makine öğreniminin, nanopartiküllerin hangi fizikokimyasal özelliklerinin ve kombinasyonlarının belirli ürün grupları ve analizlerle çalışacağını belirlememize yardımcı olduğu tescilli nanopartiküllerimizin tasarımı; (2) MS cihazlarından üretilen okuma verilerinden peptitlerin, proteinlerin, varyantların ve proteoformların tespiti ve miktarının belirlenmesi; (3) büyük ölçekli popülasyon kohortlarında aşağı yönlü proteomik ve proteogenomik analizler.

Geçen yıl, biz Advanced Materials'da bir makale yayınladı protein korona oluşum mekanizmalarına ilişkin anlayışımızı geliştirmek için proteomik yöntemleri, nanomühendisliği ve makine öğrenimini birleştiriyor. Bu makale nano-biyo etkileşimlerini ortaya çıkardı ve Seer'i geleceğin gelişmiş nanopartikülleri ve ürünlerinin yaratılması konusunda bilgilendiriyor.

Nanoparçacık geliştirmenin ötesinde, geliştiriyoruz Varyant peptidleri ve translasyon sonrası modifikasyonları tanımlamak için yeni algoritmalar (PTM'ler). Yakın zamanda bir yöntem geliştirdik. protein niceliksel özellik lokuslarının tespiti (pQTL'ler), afinite bazlı proteomik için bilinen bir karıştırıcı olan protein varyantlarına karşı dayanıklıdır. Bu çalışmayı, spektral kitaplıkların boyutunu şişirmeden aramaya izin vermek için derin öğrenmeye dayalı de novo sıralama yöntemlerini kullanarak bu peptitleri ham spektrumlardan doğrudan tanımlayacak şekilde genişletiyoruz.

Ekibimiz ayrıca, makine öğrenimi konusunda derinlemesine uzmanlığa sahip olmayan bilim adamlarının, keşif çalışmalarında makine öğrenimi modellerini en iyi şekilde ayarlamalarına ve kullanmalarına olanak sağlayacak yöntemler geliştiriyor. Bu, Seer ML çerçevesi aracılığıyla gerçekleştirilir. AutoML Bayesian optimizasyonu yoluyla verimli hiperparametre ayarlamasına olanak tanıyan araç.

Son olarak, bir protein grubu içindeki peptitler arasında yoğunluk değerlerinin korelasyonu gibi beklenen ölçümleri en üst düzeye çıkarmak için ölçülen niceliksel değerleri modelleyerek toplu etkiyi azaltmak ve kütle spesifikasyonu okumasının niceliksel doğruluğunu artırmak için yöntemler geliştiriyoruz.

Halüsinasyonlar LLM'lerde yaygın bir sorundur; bunu önlemek veya hafifletmek için bazı çözümler nelerdir?

Yüksek Lisans'lar, geniş bir derlem verilen ve benzer metinler oluşturmak üzere eğitilen üretken yöntemlerdir. Belirli kelime (veya simge) kombinasyonlarının ne sıklıkta bir arada bulunduğu gibi basit yerel özelliklerden, bağlam ve anlamın anlaşılmasını taklit eden daha yüksek düzeydeki özelliklere kadar, üzerinde eğitim aldıkları metnin temel istatistiksel özelliklerini yakalarlar.

Bununla birlikte, Yüksek Lisans'lar öncelikle doğru olacak şekilde eğitilmemiştir. İnsan geri bildirimi (RLHF) ve diğer tekniklerle pekiştirmeli öğrenme, onları doğruluk da dahil olmak üzere arzu edilen özellikler için eğitmeye yardımcı olur, ancak tam olarak başarılı değildir. Bir istem verildiğinde, LLM'ler eğitim verilerinin istatistiksel özelliklerine en çok benzeyen metni üretecektir. Çoğu zaman bu metin de doğrudur. Örneğin, "Büyük İskender ne zaman doğdu" diye sorulursa doğru cevap MÖ 356'dır (veya MÖ) ve bir yüksek lisans öğrencisinin bu cevabı vermesi muhtemeldir çünkü eğitim verileri içerisinde Büyük İskender'in doğumu sıklıkla bu değer olarak görünür. Bununla birlikte, eğitim külliyatında yer almayan kurgusal bir karakter olan "İmparatoriçe Reginella ne zaman doğdu" diye sorulduğunda Yüksek Lisans muhtemelen halüsinasyon görecek ve onun doğumuyla ilgili bir hikaye yaratacaktır. Benzer şekilde, LLM'nin doğru cevabını alamayabileceği bir soru sorulduğunda (doğru cevabın mevcut olmaması veya diğer istatistiksel amaçlar nedeniyle), muhtemelen halüsinasyon görmesi ve sanki biliyormuş gibi cevap vermesi muhtemeldir. Bu, "şu kanser nasıl tedavi edilebilir?" gibi ciddi uygulamalar için bariz bir sorun olan halüsinasyonlar yaratır.

Halüsinasyonlar için henüz mükemmel bir çözüm yok. LLM'nin tasarımına özgüdürler. Kısmi bir çözüm, Yüksek Lisans'tan "dikkatlice, adım adım düşünmesini" istemek gibi uygun yönlendirmelerdir. Bu, Yüksek Lisans'ın hikaye uydurmama olasılığını artırır. Geliştirilmekte olan daha karmaşık bir yaklaşım, bilgi grafiklerinin kullanılmasıdır. Bilgi grafikleri yapılandırılmış veriler sağlar: Bir bilgi grafiğindeki varlıklar diğer varlıklara önceden tanımlanmış, mantıksal bir şekilde bağlanır. Belirli bir alan için bir bilgi grafiği oluşturmak elbette zorlu bir iştir ancak otomatik ve istatistiksel yöntemler ve iyileştirme kombinasyonuyla yapılabilir. Yerleşik bir bilgi grafiğiyle, LLM'ler ürettikleri ifadeleri yapılandırılmış bilinen gerçekler kümesine göre çapraz kontrol edebilir ve bilgi grafiğiyle çelişen veya desteklenmeyen bir ifade oluşturmamak üzere sınırlandırılabilir.

Temel bir sorun olan halüsinasyonlar nedeniyle ve muhtemelen yeterli muhakeme ve muhakeme yeteneklerinden yoksun olmaları nedeniyle, yüksek lisans eğitimleri bugün bilgiyi alma, bağlama ve ayrıştırma konusunda güçlüdür ancak tıbbi teşhis veya hukuki tavsiye gibi ciddi uygulamalarda insan uzmanların yerini tutamaz. Yine de, bu alanlardaki insan uzmanların verimliliğini ve yeteneğini büyük ölçüde artırabilirler.

Biyolojinin hipotezler yerine veriler tarafından yönlendirildiği bir gelecek vizyonunuzu paylaşabilir misiniz?

Araştırmacıların modeller bulmasını, hipotezler geliştirmesini, bunları test etmek için deneyler veya çalışmalar yapmasını ve ardından verilere dayalı teorileri geliştirmesini içeren geleneksel hipoteze dayalı yaklaşımın yerini, veriye dayalı modellemeye dayalı yeni bir paradigma alıyor.

Ortaya çıkan bu paradigmada araştırmacılar hipotezsiz, büyük ölçekli veri üretimiyle başlıyor. Daha sonra, bir dizi aşağı yönlü görevde engellenen verilerin doğru bir şekilde yeniden yapılandırılması, güçlü regresyon veya sınıflandırma performansı amacıyla LLM gibi bir makine öğrenimi modelini eğitirler. Makine öğrenimi modeli verileri doğru bir şekilde tahmin edebildiğinde ve deneysel kopyalar arasındaki benzerlikle karşılaştırılabilir bir aslına uygunluk elde ettiğinde, araştırmacılar biyolojik sistem hakkında bilgi edinmek ve altta yatan biyolojik ilkeleri ayırt etmek için modeli sorgulayabilir.

Yüksek Lisans'ların özellikle biyomoleküler verileri modellemede iyi olduğu kanıtlanıyor ve hipoteze dayalı biyolojik keşiflerden veriye dayalı biyolojik keşiflere geçişi teşvik etmeye yönelik. Bu değişim önümüzdeki 10 yıl içinde giderek daha belirgin hale gelecek ve biyomoleküler sistemlerin insan kapasitesinin çok ötesine geçen bir ayrıntı düzeyinde doğru şekilde modellenmesine olanak tanıyacak.

Hastalık teşhisi ve ilaç keşfi üzerindeki potansiyel etkisi nedir?

Yüksek Lisans ve üretken yapay zekanın yaşam bilimleri endüstrisinde önemli değişikliklere yol açacağına inanıyorum. Yüksek Lisans'tan büyük ölçüde faydalanacak alanlardan biri, özellikle nadir, teşhis edilmesi zor hastalıklar ve kanser alt tipleri için klinik teşhistir. Doğru ve zamanında tanı koymak için genomik profillerden tedavi yanıtlarına, tıbbi kayıtlardan aile geçmişine kadar yararlanabileceğimiz muazzam miktarda kapsamlı hasta bilgisi vardır. Tüm bu verileri kolayca erişilebilecek ve bireysel sağlık kuruluşları tarafından bir kenara atılmayacak şekilde derlemenin bir yolunu bulabilirsek, teşhis doğruluğunu önemli ölçüde artırabiliriz. Bu, LLM'ler de dahil olmak üzere makine öğrenimi modellerinin teşhis konusunda özerk bir şekilde çalışabileceği anlamına gelmez. Teknik sınırlamaları nedeniyle, öngörülebilir gelecekte özerk olmayacaklar, bunun yerine insan uzmanlarını çoğaltacaklar. Bunlar, doktorun şimdiye kadar ihtiyaç duyulan süreden çok daha kısa bir sürede son derece bilgili değerlendirmeler ve teşhisler sunmasına ve teşhislerini düzgün bir şekilde belgeleyip hastaya ve makine aracılığıyla bağlanan tüm sağlık sağlayıcıları ağına iletmesine yardımcı olacak güçlü araçlar olacak. öğrenme sistemi.

Sektör, ilaç keşfi ve geliştirme için halihazırda makine öğreniminden yararlanıyor ve geleneksel paradigmaya kıyasla maliyetleri ve zaman çizelgelerini azaltma yeteneğini öne çıkarıyor. LLM'ler ayrıca mevcut araç kutusuna eklenir ve genomlar, proteomlar, fonksiyonel genomik ve epigenomik veriler, tek hücreli veriler ve daha fazlasını içeren büyük ölçekli biyomoleküler verilerin modellenmesi için mükemmel çerçeveler sağlar. Öngörülebilir gelecekte, vakıf LLM'leri şüphesiz tüm bu veri yöntemleri ve genomik, proteomik ve sağlık bilgileri toplanan geniş birey grupları arasında bağlantı kuracaktır. Bu tür LLM'ler umut verici ilaç hedeflerinin oluşturulmasına yardımcı olacak, biyolojik fonksiyon ve hastalıkla ilişkili proteinlerin olası aktivite paketlerini tanımlayacak veya küçük moleküller veya diğer ilaç yöntemleriyle spesifik bir şekilde modüle edilebilecek yollar ve daha karmaşık hücresel fonksiyonlar önerecektir. Ayrıca genetik duyarlılığa dayalı olarak ilaca yanıt verenleri ve yanıt vermeyenleri belirlemek veya ilaçları diğer hastalık endikasyonlarında yeniden kullanmak için LLM'lerden de yararlanabiliriz. Mevcut yenilikçi yapay zeka tabanlı ilaç keşif şirketlerinin birçoğu şüphesiz zaten bu yönde düşünmeye ve gelişmeye başlıyor ve insan sağlığı ve ilaç alanında yüksek lisans (LLM)'lerin yaygınlaştırılmasını amaçlayan kamu çabalarının yanı sıra ek şirketlerin oluşumunu da görmeyi beklemeliyiz. keşif.

Detaylı röportaj için teşekkürler, daha fazlasını öğrenmek isteyen okuyucular ziyaret etmeli Kâhin.

Unite.AI'nin kurucu ortağı ve Forbes Teknoloji Konseyi, Antoine bir fütürist Yapay zeka ve robot biliminin geleceği konusunda tutkulu olan.

Aynı zamanda Kurucusu menkul kıymetler.io, çığır açan teknolojilere yatırım yapmaya odaklanan bir web sitesi.