رطم الدكتور سيرافيم باتزغلو، كبير مسؤولي البيانات في Seer - سلسلة المقابلات - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

مقابلات

الدكتور سيرافيم باتسوغلو، كبير مسؤولي البيانات في Seer – سلسلة المقابلات

mm

تم النشر

 on

سيرافيم باتزغلو هو مدير البيانات في شركة الرائي. قبل انضمامه إلى Seer، شغل سيرافيم منصب كبير موظفي البيانات في Insitro، حيث قاد التعلم الآلي وعلوم البيانات في نهجهم لاكتشاف الأدوية. قبل انضمامه إلى Insitro، شغل منصب نائب الرئيس لعلم الأحياء التطبيقي والحاسوبي في Illumina، حيث قاد الأبحاث والتطوير التكنولوجي للذكاء الاصطناعي والمقايسات الجزيئية لجعل البيانات الجينومية أكثر قابلية للتفسير في صحة الإنسان.

ما الذي جذبك في البداية إلى مجال علم الجينوم؟

أصبحت مهتمًا بمجال علم الأحياء الحسابي في بداية دراستي للدكتوراه في علوم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا، عندما التحقت بفصل دراسي حول الموضوع الذي درّسته بوني بيرجر، التي أصبحت مستشارة الدكتوراه، وديفيد جيفورد. كان مشروع الجينوم البشري يتسارع أثناء دراستي لدرجة الدكتوراه. أصبح إريك لاندر، الذي كان يرأس مركز الجينوم في معهد ماساتشوستس للتكنولوجيا، مستشارًا مشاركًا لدكتوراه وأشركني في المشروع. بدافع من مشروع الجينوم البشري، عملت على تجميع الجينوم الكامل وعلم الجينوم المقارن للحمض النووي البشري والفأري.

انتقلت بعد ذلك إلى جامعة ستانفورد كعضو هيئة تدريس في قسم علوم الكمبيوتر حيث قضيت 15 عامًا، وكان لي شرف تقديم المشورة لنحو 30 طالب دكتوراه موهوبين بشكل لا يصدق والعديد من باحثي ما بعد الدكتوراه والطلاب الجامعيين. كان تركيز فريقي منصبًا على تطبيق الخوارزميات والتعلم الآلي وأدوات البرمجيات المصممة لتحليل البيانات الجينومية والجزيئية الحيوية واسعة النطاق. غادرت جامعة ستانفورد في عام 2016 لقيادة فريق تطوير البحث والتكنولوجيا في شركة Illumina. ومنذ ذلك الحين، استمتعت بقيادة فرق البحث والتطوير في الصناعة. أجد أن العمل الجماعي، والجانب التجاري، والتأثير المباشر على المجتمع هي سمات الصناعة مقارنة بالأوساط الأكاديمية. لقد عملت في شركات مبتكرة خلال مسيرتي المهنية: DNAnexus، التي شاركت في تأسيسها عام 2009، وIllumina، وinsitro، والآن Seer. يعد الحساب والتعلم الآلي ضروريين عبر سلسلة التكنولوجيا في مجال التكنولوجيا الحيوية، بدءًا من تطوير التكنولوجيا، وحتى الحصول على البيانات، وتفسير البيانات البيولوجية وترجمتها إلى صحة الإنسان.

على مدى السنوات العشرين الماضية، أصبح تحديد تسلسل الجينوم البشري أرخص وأسرع إلى حد كبير. وأدى ذلك إلى نمو كبير في سوق تسلسل الجينوم واعتماد أوسع في صناعة علوم الحياة. نحن الآن على أعتاب الحصول على بيانات الجينوم السكاني والمتعددة الأشكال والمظهرية ذات الحجم الكافي لإحداث ثورة في الرعاية الصحية بما في ذلك الوقاية والتشخيص والعلاج واكتشاف الأدوية. يمكننا أن نكتشف على نحو متزايد الأسس الجزيئية للمرض لدى الأفراد من خلال التحليل الحسابي للبيانات الجينومية، ويحظى المرضى بفرصة تلقي علاجات مخصصة ومستهدفة، وخاصة في مجالات السرطان والأمراض الوراثية النادرة. وبعيدًا عن الاستخدام الواضح في الطب، يتيح لنا التعلم الآلي إلى جانب المعلومات الجينومية اكتساب نظرة ثاقبة في مجالات أخرى من حياتنا، مثل علم الأنساب والتغذية. ستشهد السنوات العديدة القادمة اعتماد الرعاية الصحية الشخصية القائمة على البيانات، أولاً لمجموعات مختارة من الأشخاص، مثل مرضى الأمراض النادرة، وبشكل متزايد لعامة الناس.

قبل منصبك الحالي، كنت مديرًا للبيانات في إنسيترو، يقودون التعلم الآلي وعلوم البيانات في نهجهم لاكتشاف الأدوية. ما هي بعض النقاط الرئيسية التي تعلمتها من هذه الفترة الزمنية فيما يتعلق بكيفية استخدام التعلم الآلي لتسريع اكتشاف الأدوية؟

إن نموذج "التجربة والخطأ" التقليدي لاكتشاف الأدوية وتطويرها يعاني من أوجه القصور والجداول الزمنية الطويلة للغاية. لكي يصل دواء واحد إلى السوق، قد يستغرق الأمر ما يزيد عن مليار دولار وأكثر من عقد من الزمن. ومن خلال دمج التعلم الآلي في هذه الجهود، يمكننا تقليل التكاليف والأطر الزمنية بشكل كبير في عدة خطوات على الطريق. تتمثل إحدى الخطوات في تحديد الهدف، حيث يمكن تحديد الجين أو مجموعة الجينات التي تعدل النمط الظاهري للمرض أو تعيد الحالة الخلوية للمرض إلى حالة أكثر صحة من خلال الاضطرابات الجينية والكيميائية واسعة النطاق، والقراءات المظهرية مثل التصوير وعلم الجينوم الوظيفي . خطوة أخرى هي تحديد المركب وتحسينه، حيث يمكن تصميم جزيء صغير أو طريقة أخرى عن طريق التعلم الآلي في التنبؤ السيليكو وكذلك في الفحص المختبري، علاوة على الخصائص المرغوبة للدواء مثل القابلية للذوبان والنفاذية والنوعية وعدم الذوبان. يمكن تحسين السمية. ربما يكون الجانب الأصعب والأكثر أهمية هو الترجمة إلى البشر. وهنا، فإن اختيار النموذج الصحيح - الخطوط المشتقة من الخلايا الجذعية متعددة القدرات مقابل خطوط خلايا المريض الأولية وعينات الأنسجة مقابل النماذج الحيوانية - للمرض المناسب يفرض مجموعة مهمة للغاية من المفاضلات التي تنعكس في النهاية على قدرة البيانات الناتجة بالإضافة إلى الآلة تعلم الترجمة للمرضى.

تعتبر شركة Seer Bio رائدة في طرق جديدة لفك أسرار البروتين لتحسين صحة الإنسان، للقراء الذين ليسوا على دراية بهذا المصطلح ما هو البروتين؟

بروتيني هي مجموعة البروتينات المتغيرة التي ينتجها الكائن الحي أو يعدلها بمرور الوقت استجابةً للبيئة والتغذية والحالة الصحية. علم البروتينات هو دراسة البروتين داخل نوع معين من الخلايا أو عينة الأنسجة. إن جينوم الإنسان أو الكائنات الحية الأخرى هو جينوم ثابت: مع الاستثناء المهم للطفرات الجسدية، فإن الجينوم عند الولادة هو الجينوم الذي يعيشه الشخص طوال حياته، ويتم نسخه بالضبط في كل خلية من خلايا جسمه. البروتين ديناميكي ويتغير على مدار السنوات والأيام وحتى الدقائق. على هذا النحو، تكون البروتينات أقرب إلى النمط الظاهري وفي النهاية إلى الحالة الصحية من الجينومات، وبالتالي فهي أكثر إفادة لرصد الصحة وفهم المرض.

في Seer، قمنا بتطوير طريقة جديدة للوصول إلى البروتين الذي يوفر رؤى أعمق للبروتينات والأشكال البروتينية في العينات المعقدة مثل البلازما، وهي عينة يمكن الوصول إليها بسهولة والتي لسوء الحظ حتى الآن شكلت تحديًا كبيرًا لبروتينات قياس الطيف الكتلي التقليدية.

ما هي منصة Seer's Proteograph™ وكيف تقدم رؤية جديدة للبروتين؟

تستفيد منصة Seer's Proteograph من مكتبة من الجسيمات النانوية المصممة هندسيًا، والمدعومة بسير عمل بسيط وسريع وآلي، مما يتيح استجوابًا عميقًا وقابلاً للتطوير للبروتين.

تتألق منصة Proteograph في استجواب البلازما والعينات المعقدة الأخرى التي تظهر نطاقًا ديناميكيًا كبيرًا - العديد من الاختلافات في الحجم في وفرة البروتينات المختلفة في العينة - حيث تكون طرق قياس الطيف الكتلي التقليدية غير قادرة على اكتشاف الجزء المنخفض الوفرة من البروتين. تم تصميم الجسيمات النانوية الخاصة بـ Seer بخصائص فيزيائية كيميائية قابلة للضبط تجمع البروتينات عبر النطاق الديناميكي بطريقة غير متحيزة. في عينات البلازما النموذجية، تتيح تقنيتنا اكتشاف بروتينات أكثر بمقدار 5 إلى 8 مرات مقارنة بمعالجة البلازما النقية دون استخدام البروتيوغراف. ونتيجة لذلك، بدءًا من إعداد العينات وحتى الأدوات وحتى تحليل البيانات، تساعد مجموعة منتجات Proteograph العلماء في العثور على بصمات الأمراض البروتينية التي قد لا يمكن اكتشافها. نود أن نقول إننا في Seer نفتح بوابة جديدة للبروتين.

علاوة على ذلك، فإننا نسمح للعلماء بإجراء دراسات بروتينية واسعة النطاق بسهولة. علم الجينات البروتينية هو الجمع بين البيانات الجينومية والبيانات البروتينية لتحديد وقياس متغيرات البروتين، وربط المتغيرات الجينومية بمستويات وفرة البروتين، وفي النهاية ربط الجينوم والبروتين بالنمط الظاهري والمرض، والبدء في فك تشابك المسارات الجينية السببية والمصب المرتبطة بالمرض .

هل يمكنك مناقشة بعض تقنيات التعلم الآلي المستخدمة حاليًا في Seer Bio؟

تستفيد Seer من التعلم الآلي في جميع الخطوات بدءًا من تطوير التكنولوجيا وحتى تحليل البيانات النهائية. تتضمن هذه الخطوات ما يلي: (1) تصميم الجسيمات النانوية الخاصة بنا، حيث يساعدنا التعلم الآلي في تحديد الخصائص الفيزيائية والكيميائية ومجموعات الجسيمات النانوية التي ستعمل مع خطوط إنتاج وفحوصات محددة؛ (2) الكشف والقياس الكمي للببتيدات والبروتينات والمتغيرات والبروتينات من بيانات القراءة المنتجة من أدوات مرض التصلب العصبي المتعدد؛ (3) التحليلات البروتينية والبروتينية في المصب في مجموعات سكانية واسعة النطاق.

في العام الماضي نحن نشرت ورقة في المواد المتقدمة الجمع بين أساليب علم البروتينات وهندسة النانو والتعلم الآلي لتحسين فهمنا لآليات تكوين كورونا البروتين. كشفت هذه الورقة عن التفاعلات النانوية الحيوية وتقوم بإبلاغ Seer في إنشاء جسيمات ومنتجات نانوية مستقبلية محسنة.

وبعيدًا عن تطوير الجسيمات النانوية، فقد قمنا بالتطوير خوارزميات جديدة لتحديد الببتيدات المتغيرة وتعديلات ما بعد الترجمة (بتم). لقد قمنا مؤخرًا بتطوير طريقة لـ الكشف عن مواقع السمات الكمية للبروتين (pQTLs) التي تعتبر قوية بالنسبة لمتغيرات البروتين، والتي تعد من العوامل المربكة المعروفة للبروتينات القائمة على التقارب. نحن نقوم بتوسيع هذا العمل لتحديد هذه الببتيدات مباشرة من الأطياف الخام باستخدام أساليب تسلسل دي نوفو القائمة على التعلم العميق للسماح بالبحث دون تضخيم حجم المكتبات الطيفية.

يقوم فريقنا أيضًا بتطوير أساليب لتمكين العلماء الذين ليس لديهم خبرة عميقة في التعلم الآلي من ضبط نماذج التعلم الآلي واستخدامها على النحو الأمثل في أعمالهم الاستكشافية. يتم تحقيق ذلك من خلال إطار عمل Seer ML استنادًا إلى AutoML أداة تسمح بضبط المعلمات الفائقة بكفاءة عبر تحسين بايزي.

وأخيرا، نحن نعمل على تطوير أساليب للحد من تأثير الدفعة وزيادة الدقة الكمية لقراءات المواصفات الجماعية عن طريق نمذجة القيم الكمية المقاسة لتعظيم المقاييس المتوقعة مثل الارتباط بين قيم الكثافة عبر الببتيدات داخل مجموعة البروتين.

الهلوسة هي مشكلة شائعة مع LLMs، ما هي بعض الحلول لمنع ذلك أو التخفيف من حدته؟

LLMs هي طرق توليدية يتم منحها مجموعة كبيرة ويتم تدريبها لإنشاء نص مماثل. إنهم يلتقطون الخصائص الإحصائية الأساسية للنص الذي تم تدريبهم عليه، بدءًا من الخصائص المحلية البسيطة مثل عدد المرات التي يتم فيها العثور على مجموعات معينة من الكلمات (أو الرموز المميزة) معًا، إلى خصائص المستوى الأعلى التي تحاكي فهم السياق والمعنى.

ومع ذلك، لم يتم تدريب LLMs في المقام الأول ليكون صحيحا. يساعد التعلم المعزز بالتغذية الراجعة البشرية (RLHF) والتقنيات الأخرى في تدريبهم على الخصائص المرغوبة بما في ذلك الصحة، ولكنها ليست ناجحة تمامًا. بالنظر إلى المطالبة، سيقوم حاملو LLM بإنشاء نص يشبه إلى حد كبير الخصائص الإحصائية لبيانات التدريب. غالبًا ما يكون هذا النص صحيحًا أيضًا. على سبيل المثال، إذا سُئل "متى ولد الإسكندر الأكبر"، فإن الإجابة الصحيحة هي 356 قبل الميلاد (أو قبل الميلاد)، ومن المرجح أن يعطي ماجستير القانون هذه الإجابة لأنه ضمن بيانات التدريب يظهر ميلاد الإسكندر الأكبر غالبًا بهذه القيمة. ومع ذلك، عندما تُسأل "متى ولدت الإمبراطورة ريجينيلا"، وهي شخصية خيالية غير موجودة في مجموعة التدريب، فمن المرجح أن تهلوس ماجستير القانون وتخلق قصة ولادتها. وبالمثل، عندما يتم طرح سؤال قد لا يتمكن ماجستير إدارة الأعمال من الحصول على إجابة صحيحة له (إما بسبب عدم وجود الإجابة الصحيحة، أو لأغراض إحصائية أخرى)، فمن المرجح أن يهلوس ويجيب كما لو كان يعرف. وهذا يخلق الهلوسة التي تمثل مشكلة واضحة للتطبيقات الجادة، مثل "كيف يمكن علاج كذا وكذا من السرطان".

لا توجد حلول مثالية حتى الآن للهلوسة. فهي مستوطنة في تصميم LLM. أحد الحلول الجزئية هو التحفيز المناسب، مثل مطالبة ماجستير القانون "بالتفكير بعناية، خطوة بخطوة"، وما إلى ذلك. وهذا يزيد من احتمالية عدم اختلاق LLM للقصص. وهناك نهج أكثر تطورا يجري تطويره وهو استخدام الرسوم البيانية المعرفية. توفر الرسوم البيانية المعرفية بيانات منظمة: ترتبط الكيانات الموجودة في الرسم البياني المعرفي بالكيانات الأخرى بطريقة منطقية محددة مسبقًا. يعد إنشاء رسم بياني معرفي لمجال معين بالطبع مهمة صعبة ولكنها قابلة للتنفيذ من خلال مجموعة من الأساليب الآلية والإحصائية والتنظيم. باستخدام الرسم البياني المعرفي المدمج، يمكن لـ LLMs التحقق من البيانات التي يولدونها مقابل المجموعة المنظمة من الحقائق المعروفة، ويمكن تقييدهم لعدم إنشاء بيان يتناقض أو لا يدعمه الرسم البياني المعرفي.

بسبب القضية الأساسية المتمثلة في الهلوسة، وربما بسبب افتقارهم إلى القدرات الكافية في التفكير والحكم، أصبح حاملو شهادة الماجستير في القانون اليوم أقوياء في استرجاع المعلومات وربطها واستخلاصها، لكنهم لا يستطيعون استبدال الخبراء البشريين في التطبيقات الجادة مثل التشخيص الطبي أو المشورة القانونية. ومع ذلك، فإنها يمكن أن تعزز بشكل كبير كفاءة وقدرة الخبراء البشريين في هذه المجالات.

هل يمكنك مشاركة رؤيتك للمستقبل حيث يتم توجيه علم الأحياء بالبيانات بدلاً من الافتراضات؟

إن النهج التقليدي القائم على الفرضيات، والذي يتضمن قيام الباحثين بإيجاد الأنماط، وتطوير الفرضيات، وإجراء تجارب أو دراسات لاختبارها، ومن ثم تنقيح النظريات بناءً على البيانات، أصبح يحل محله نموذج جديد يعتمد على النمذجة المستندة إلى البيانات.

في هذا النموذج الناشئ، يبدأ الباحثون بتوليد بيانات واسعة النطاق خالية من الفرضيات. بعد ذلك، يقومون بتدريب نموذج التعلم الآلي مثل LLM بهدف إعادة البناء الدقيق للبيانات المحظورة أو الانحدار القوي أو أداء التصنيف في عدد من المهام النهائية. بمجرد أن يتمكن نموذج التعلم الآلي من التنبؤ بالبيانات بدقة، ويحقق الدقة التي يمكن مقارنتها بالتشابه بين التكرارات التجريبية، يمكن للباحثين استجواب النموذج لاستخراج نظرة ثاقبة حول النظام البيولوجي وتمييز المبادئ البيولوجية الأساسية.

تثبت LLMs أنها جيدة بشكل خاص في نمذجة البيانات الجزيئية الحيوية، وهي موجهة لدعم التحول من الاكتشاف البيولوجي القائم على الفرضيات إلى الاكتشاف البيولوجي القائم على البيانات. سيصبح هذا التحول واضحًا بشكل متزايد على مدار السنوات العشر القادمة وسيسمح بوضع نماذج دقيقة للأنظمة الجزيئية الحيوية بتفاصيل تتجاوز القدرة البشرية.

ما هو التأثير المحتمل لتشخيص الأمراض واكتشاف الأدوية؟

أعتقد أن LLM والذكاء الاصطناعي التوليدي سيؤديان إلى تغييرات كبيرة في صناعة علوم الحياة. أحد المجالات التي ستستفيد بشكل كبير من LLMs هو التشخيص السريري، وتحديدًا للأمراض النادرة التي يصعب تشخيصها وأنواع السرطان الفرعية. هناك كميات هائلة من المعلومات الشاملة للمرضى التي يمكننا الاستفادة منها - بدءًا من الملفات الجينومية والاستجابات للعلاج والسجلات الطبية والتاريخ العائلي - لإجراء تشخيص دقيق وفي الوقت المناسب. وإذا تمكنا من إيجاد طريقة لتجميع كل هذه البيانات بحيث يسهل الوصول إليها، ولا تحجبها المنظمات الصحية الفردية، فسوف نتمكن من تحسين دقة التشخيص بشكل كبير. هذا لا يعني أن نماذج التعلم الآلي، بما في ذلك LLMs، ستكون قادرة على العمل بشكل مستقل في التشخيص. ونظرًا لقيودها التقنية، فإنها لن تكون مستقلة في المستقبل المنظور، ولكنها بدلاً من ذلك ستعزز الخبراء البشريين. وستكون بمثابة أدوات قوية لمساعدة الطبيب على تقديم تقييمات وتشخيصات مستنيرة بشكل رائع في جزء صغير من الوقت اللازم حتى الآن، ولتوثيق تشخيصاته وإبلاغها بشكل صحيح إلى المريض وكذلك إلى الشبكة الكاملة لمقدمي الخدمات الصحية المتصلين من خلال الجهاز. نظام التعلم.

تستفيد الصناعة بالفعل من التعلم الآلي لاكتشاف الأدوية وتطويرها، وتروج لقدرتها على تقليل التكاليف والجداول الزمنية مقارنة بالنموذج التقليدي. تضيف LLMs أيضًا إلى مجموعة الأدوات المتاحة، وتوفر أطرًا ممتازة لنمذجة البيانات الجزيئية الحيوية واسعة النطاق بما في ذلك الجينومات والبروتينات والبيانات الجينومية والبيانات اللاجينومية الوظيفية وبيانات الخلية الواحدة والمزيد. في المستقبل المنظور، لا شك أن حاملي شهادة LLM سيتواصلون عبر جميع طرائق البيانات هذه وعبر مجموعات كبيرة من الأفراد الذين يتم جمع معلوماتهم الجينومية والبروتينية والصحية. ستساعد مثل هذه المواد في توليد أهداف دوائية واعدة، أو تحديد الجيوب المحتملة لنشاط البروتينات المرتبطة بالوظيفة البيولوجية والمرض، أو اقتراح مسارات ووظائف خلوية أكثر تعقيدًا يمكن تعديلها بطريقة محددة باستخدام جزيئات صغيرة أو طرائق دوائية أخرى. يمكننا أيضًا الاستفادة من ماجستير إدارة الأعمال لتحديد المستجيبين للأدوية وغير المستجيبين بناءً على القابلية الوراثية، أو لإعادة استخدام الأدوية في مؤشرات مرضية أخرى. مما لا شك فيه أن العديد من شركات اكتشاف الأدوية المبتكرة القائمة على الذكاء الاصطناعي بدأت بالفعل في التفكير والتطور في هذا الاتجاه، ويجب أن نتوقع رؤية تشكيل شركات إضافية بالإضافة إلى الجهود العامة التي تهدف إلى نشر ماجستير إدارة الأعمال في مجال صحة الإنسان والأدوية. اكتشاف.

شكرًا لك على المقابلة المفصلة، ​​وعلى القراء الذين يرغبون في معرفة المزيد زيارتها الرائي.