Συνεντεύξεις
Λέλαντ Χάιμαν, Αρχισυντάκτης Δεδομένων στη Sherlock Biosciences – Σειρά Συνεντεύξεων

Ο Λέλαντ Χάιμαν είναι ο Αρχισυντάκτης Δεδομένων στη Sherlock Biosciences. Είναι ένας έμπειρος επιστήμονας υπολογιστών και ερευνητής με 배κγκραουντ στη μηχανική μάθηση και молекулярνα διαγνωστικά.
Η Sherlock Biosciences είναι μια βιοτεχνολογική εταιρεία με έδρα το Κέιμπριτζ της Μασαχουσέτης, που αναπτύσσει διαγνωστικά τεστ χρησιμοποιώντας CRISPR. Στόχος τους είναι να ανατρέψουν τα μοριακά διαγνωστικά με καλύτερα, ταχύτερα και οικονομικά τεστ.
Τι σας έκανε να ενδιαφερθείτε για την επιστήμη των υπολογιστών;
Άρχισα να προγραμματίζω σε πολύ μικρή ηλικία, αλλά κυρίως ενδιαφερόμουν να δημιουργώ βιντεοπαιχνίδια με τους φίλους μου. Το ενδιαφέρον μου αυξήθηκε σε άλλες εφαρμογές της επιστήμης των υπολογιστών κατά τη διάρκεια του κολεγίου και της μεταπτυχιακής μου εκπαίδευσης, ιδιαίτερα με όλα τα πρωτοποριακά έργα μηχανικής μάθησης που συνέβησαν στις αρχές της δεκαετίας του 2010. Όλος ο τομέας φαινόταν σαν ένα τόσο ενθουσιώδες νέο μέτωπο που θα μπορούσε να επηρεάσει trực tiếp την επιστημονική έρευνα και την καθημερινή μας ζωή — δεν μπορούσα να μην με ελκύει.
Επίσης, ακολουθήσατε διδακτορικό στη Κυτταρική και Μοριακή Βιολογία, πότε συνειδητοποιήσατε ότι τα δύο πεδία θα διασταυρώνονταν;
Άρχισα να κάνω αυτό το είδος διασταυρούμενου έργου με την επιστήμη των υπολογιστών και τη βιολογία από νωρίς στη μεταπτυχιακή μου εκπαίδευση. Το εργαστήριό μου επικεντρώθηκε στην επίλυση προβλημάτων μηχανικής πρωτεϊνών μέσω συνεργασιών μεταξύ βιοχημικών, επιστημόνων υπολογιστών και όλων των ενδιάμεσων. Γρήγορα κατέλαβα ότι η μηχανική μάθηση θα μπορούσε να προσφέρει πολύτιμες πληροφορίες για τα βιολογικά συστήματα και να κάνει την πειραματική διαδικασία πολύ πιο εύκολη. Αντιστρόφως, απέκτησα επίσης μια εκτίμηση για την αξία της βιολογικής直覺 όταν κατασκευάζονται μοντέλα μηχανικής μάθησης. Κατά τη γνώμη μου, το σωστό κάδρο του προβλήματος είναι το κρίσιμο στοιχείο στη μηχανική μάθηση. Αυτός είναι ο λόγος για τον οποίο πιστεύω ότι οι συνεργατικές προσπάθειες σε διαφορετικά πεδία μπορούν να έχουν einen βαθύ αντίκτυπο.
Από το 2022 εργάζεστε στη Sherlock Biosciences, θα μπορούσατε να μοιραστείτε κάποιες λεπτομέρειες σχετικά με το ρόλο σας;
Τώρα ηγήtω της υπολογιστικής ομάδας στη Sherlock Biosciences. Η ομάδα μας είναι υπεύθυνη για το σχεδιασμό των στοιχείων που περιλαμβάνονται στα διαγνωστικά μας τεστ, την διεπαφή με τους πειραματιστές που δοκιμάζουν αυτά τα σχέδια στο υγρό εργαστήριο και την κατασκευή νέων υπολογιστικών ικανοτήτων για την βελτίωση των σχεδίων. Πέρα από τη συντονισμό αυτών των δραστηριοτήτων, εργάζομαι στα τμήματα μηχανικής μάθησης του κώδικα μας, πειραματίζομαι με νέες αρχιτεκτονικές μοντέλων και νέους τρόπους για να προσομοιώσω τη φυσική του DNA και του RNA που εμπλέκεται στα τεστ μας.
Η μηχανική μάθηση είναι στο κέντρο της Sherlock Biosciences, θα μπορούσατε να περιγράψετε τον τύπο δεδομένων και τον όγκο δεδομένων που συλλέγονται και πώς η ML τα αναλύει;
Κατά τη διάρκεια της ανάπτυξης του τεστ, δοκιμάζουμε δεκάδες έως εκατοντάδες υποψήφια τεστ για κάθε νέο παθογόνο. Αν και η πλειοψηφία αυτών των υποψηφίων δεν θα περάσουν σε ένα εμπορικό τεστ, τα βλέπουμε ως μια ευκαιρία να μάθουμε από τα λάθη μας. Σε αυτές τις πειραματικές δοκιμές, μετράμε δύο βασικά πράγματα: την ευαισθησία και την ταχύτητα. Τα μοντέλα μας λαμβάνουν τις ακολουθίες DNA και RNA σε κάθε τεστ ως είσοδο και μαθαίνουν να προβλέπουν την ευαισθησία και την ταχύτητα του τεστ.
Πώς προβλέπει η ML ποια μοριακά διαγνωστικά στοιχεία θα εκτελεστούν με τη μεγαλύτερη ταχύτητα και ακρίβεια;
Όταν σκεφτόμαστε πώς ένας άνθρωπος μαθαίνει, υπάρχουν δύο основные στρατηγικές. Από τη μια πλευρά, ένας άνθρωπος θα μπορούσε να μάθει να κάνει μια εργασία μέσω καθαρής δοκιμής και λάθους. Θα επαναλάμβανε την εργασία και μετά από πολλές αποτυχίες, θα έμαθε τις κανόνες της εργασίας μόνος του. Αυτή η στρατηγική ήταν khá δημοφιλής πριν από το διαδίκτυο. Ωστόσο, θα μπορούσαμε να παρέχουμε σε αυτόν τον άνθρωπο einen δάσκαλο για να του πει τις κανόνες της εργασίας αμέσως. Ο μαθητής με τον δάσκαλο θα μπορούσε να μάθει πολύ πιο γρήγορα από την προσέγγιση της δοκιμής και λάθους, αλλά μόνο αν είχε einen καλό δάσκαλο που κατανοούσε πλήρως την εργασία.
Η προσέγγισή μας για την εκπαίδευση μοντέλων μηχανικής μάθησης είναι κάπου στη μέση μεταξύ αυτών των δύο στρατηγικών. Αν και δεν έχουμε einen τέλειο “δάσκαλο” για τα μοντέλα μηχανικής μάθησης, μπορούμε να τα ξεκινήσουμε με κάποιες γνώσεις για τη φυσική του DNA και του RNA στις ακολουθίες του τεστ. Αυτό τους βοηθά να μαθαίνουν να κάνουν καλύτερες προβλέψεις με λιγότερα δεδομένα. Για να το κάνουμε αυτό, τρέχουμε πολλές βιοφυσικές προσομοιώσεις στις ακολουθίες DNA και RNA του τεστ. Στη συνέχεια, τα βάζουμε στο μοντέλο και του ζητάμε να προβλέψει την ταχύτητα και την ευαισθησία του τεστ. Επαναλαμβάνουμε αυτή τη διαδικασία για όλα τα πειράματα που έχουμε πραγματοποιήσει στο εργαστήριο και το μοντέλο δείχνει τη διαφορά μεταξύ των προβλέψεών του και ό,τι πραγματικά συνέβη. Με αρκετή επανάληψη, τελικά μαθαίνει πώς η φυσική του DNA και του RNA σχετίζεται με την ταχύτητα και την ευαισθησία κάθε τεστ.
Ποια είναι άλλα τρόπα με τα οποία οι αλγόριθμοι AI χρησιμοποιούνται από τη Sherlock Biosciences;
Χρησιμοποιήσαμε αλγόριθμους μηχανικής μάθησης για να λύσουμε eine ποικιλία προβλημάτων. Λίγα παραδείγματα που μου έρχονται στο μυαλό σχετίζονται με την έρευνα αγοράς και την ανάλυση εικόνων. Για την έρευνα αγοράς, εκπαιδεύσαμε μοντέλα που μαθαίνουν για διαφορετικούς τύπους πελατών και πόσοι άνθρωποι θα είχαν μια ανεκπλήρωτη ανάγκη για διαγνωστικά τεστ. Έχουμε επίσης κατασκευάσει μοντέλα για να αναλύσουν εικόνες από λωρίδες λATERAL ροής (του τύπου τεστ που χρησιμοποιείται συνήθως σε over-the-counter COVID τεστ) και να προβλέψουν αυτόματα αν υπάρχει μια θετική ζώνη. Αν και αυτό φαίνεται σαν μια тривиální εργασία για έναν άνθρωπο, μπορώ να πω από προσωπική εμπειρία ότι είναι eine πολύ βολική εναλλακτική λύση για το χειροκίνητο σχολιασμό χιλιάδων εικόνων.
Ποια είναι κάποια από τα προβλήματα πίσω από την κατασκευή μοντέλων ML που λειτουργούν χέρι-χέρι με τις τελευταίες βιοεπιστημονικές τεχνολογίες όπως το CRISPR;
Η διαθεσιμότητα δεδομένων είναι το основικό πρόβλημα με την εφαρμογή μοντέλων μηχανικής μάθησης σε οποιαδήποτε βιοεπιστημονική τεχνολογία. Το CRISPR και οι τεχνολογίες που βασίζονται στο DNA ή το RNA αντιμετωπίζουν einen ιδιαίτερο πρόβλημα, κυρίως λόγω του σημαντικά μικρότερου συνόλου δομικών δεδομένων που είναι διαθέσιμα για τα νουκλεϊκά οξέα σε σύγκριση με τις πρωτεΐνες. Αυτός είναι ο λόγος για τον οποίο έχουμε δει巨αντιαίες προόδους στη μηχανική μάθηση των πρωτεϊνών τα τελευταία χρόνια (με το AlphaFold2 και άλλα), αλλά οι προόδους στη μηχανική μάθηση του DNA και του RNA παραμένουν πίσω.
Τι είναι η οράση σας για το μέλλον της ολοκλήρωσης της AI με το CRISPR και τη βιοεπιστήμη;
Βλέπουμε μια τεράστια έκρηξη AI στις περιοχές της μηχανικής των πρωτεϊνών και της ανακάλυψης φαρμάκων αυτή τη στιγμή και περιμένω ότι αυτό θα συνεχίσει να επιταχύνει την ανάπτυξη στη φαρμακευτική βιομηχανία. Θα ήθελα να δω το ίδιο να συμβεί με το CRISPR και άλλες τεχνολογίες που βασίζονται στο DNA και το RNA τα επόμενα χρόνια. Αυτό θα μπορούσε να έχει einen τεράστιο αντίκτυπο στη διαγνωστική, την ιατρική και τη συνθετική βιολογία. Έχουμε ήδη δει τα οφέλη των υπολογιστικών εργαλείων στην ανάπτυξη διαγνωστικών και τεχνολογιών CRISPR εδώ στη Sherlock και ελπίζω ότι αυτό το είδος εργασίας θα ενθαρρύνει einen “χιονοστιβάδα” αντίκτυπο για να ωθήσει το πεδίο προς τα εμπρός.
Ευχαριστώ για τη μεγάλη συνέντευξη, οι αναγνώστες που επιθυμούν να μάθουν περισσότερα μπορούν να επισκεφθούν Sherlock Biosciences.












