الذكاء الاصطناعي
ثورة في الرعاية الصحية: استكشاف الأثر والمستقبل للنماذج اللغوية الكبيرة في الطب

تمثل دمج وتطبيق النماذج اللغوية الكبيرة (LLMs) في الطب والرعاية الصحية موضوعًا هامًا وجذابًا للتطوير.
كما أشير إلى ذلك في مؤتمر جمعية إدارة المعلومات والأنظمة الصحية العالمي والمناسبات الأخرى البارزة، تتصدر شركات مثل جوجل الطريق في استكشاف إمكانيات الذكاء الاصطناعي التوليدي في مجال الرعاية الصحية. وتبرز مبادراتها، مثل Med-PaLM 2، التطورات المتسارعة في حلول الرعاية الصحية التي تعتمد على الذكاء الاصطناعي، خاصة في مجالات مثل التشخيص ورعاية المرضى والكفاءة الإدارية.
يُظهر Med-PaLM 2 من جوجل، وهو نموذج رائد في مجال الرعاية الصحية، قدرات مثيرة للإعجاب، حيث حقق مستوى “خبير” في أسئلة تشبه امتحان الترخيص الطبي الأمريكي. ويتعهد هذا النموذج، وغيره من النماذج المماثلة، بثورة في طريقة وصول أخصائيي الرعاية الصحية إلى المعلومات واستخدامها، مما قد يُحسن من دقة التشخيص وэффективية رعاية المرضى.
ومع هذه التطورات، تُثار مخاوف حول واقعية وأمان هذه التكنولوجيا في البيئات السريرية. على سبيل المثال، قد لا تكون الاعتماد على مصادر بيانات الإنترنت الواسعة لتدريب النماذج دائمًا مناسبًا أو موثوقًا به للأغراض الطبية. كما يشير نيجام شاه، دكتوراه، دكتور في الطب، رئيس علماء البيانات في رعاية ستانفورد الصحية، إلى أن الأسئلة الحاسمة التي يجب طرحها تتعلق بأداء هذه النماذج في البيئات الطبية الحقيقية وتأثيرها الفعلي على رعاية المرضى والكفاءة في الرعاية الصحية.
تُؤكد وجهة نظر الدكتور شاه على الحاجة إلى نهج أكثر تحديدًا في استخدام النماذج اللغوية الكبيرة في الطب. بدلاً من النماذج العامة التي تم تدريبها على بيانات الإنترنت الواسعة، يُقترح نهجًا أكثر تركيزًا حيث يتم تدريب النماذج على بيانات طبية محددة ومرتبطة.
يتماشى مع هذا، يعكس تطوير ميديترون من قبل باحثي EPFL تقدمًا مثيرًا للاهتمام في هذا المجال. يمثل ميديترون، وهو نموذج لغوي كبير مفتوح المصدر مصمم خصيصًا للتطبيقات الطبية، خطوة كبيرة إلى الأمام. تم تدريبه على بيانات طبية من مصادر موثوقة مثل PubMed والمرشدات السريرية، ويقدم ميديترون أداة أكثر تركيزًا وربما أكثر موثوقية لأخصائيي الرعاية الصحية. لا يُقدم طابعه المفتوح المصدر فقط الشفافية والتعاون، بل يسمح أيضًا بالتحسين المستمر واختبار الضغط من قبل مجتمع البحث الأوسع.
يُظهر تطوير أدوات مثل ميديترون و Med-PaLM 2 وغيرها من الأدوات التزايد في الاعتراف بالمتطلبات الفريدة لقطاع الرعاية الصحية فيما يتعلق بتطبيقات الذكاء الاصطناعي. يُعتبر التركيز على تدريب هذه النماذج على بيانات طبية ذات جودة عالية وضمان سلامتها وموثوقيتها في البيئات السريرية أمرًا بالغ الأهمية.
علاوة على ذلك، تُظهر إدراج مجموعات بيانات متنوعة، مثل تلك من السياقات الإنسانية مثل اللجنة الدولية للصليب الأحمر، حساسية تجاه الاحتياجات والتحديات المتنوعة في الرعاية الصحية العالمية. يتوافق هذا النهج مع المهمة الأوسع لمراكز البحث في الذكاء الاصطناعي، التي تهدف إلى إنشاء أدوات ذكاء اصطناعي لا تتمتع فقط بالتقدم التكنولوجي ولكن أيضًا بالمسؤولية الاجتماعية والفائدة.
تُقدم الدراسة المعنونة “النماذج اللغوية الكبيرة ترميز المعرفة السريرية“، التي نُشرت مؤخرًا في مجلة نيتشر، رؤى وتقنيات ثورية حول كيفية استخدام النماذج اللغوية الكبيرة بفعالية في البيئات السريرية. تقدم الأبحاث رؤى وأساليب جديدة، وتلقي الضوء على القدرات والlimitations للنماذج اللغوية الكبيرة في المجال الطبي.
يتسم المجال الطبي بت複雑يته، مع مجموعة واسعة من الأعراض والأمراض والعلاجات التي تتطور باستمرار. يجب على النماذج اللغوية الكبيرة فهم هذه التعقيدات وتحديث المعرفة الطبية والأرشادات بشكل مستمر.
يتعلق جوهر هذا البحث بإنشاء معيار جديد يُسمى MultiMedQA. يدمج هذا المعيار ست مجموعات بيانات للاستجواب الطبي الحالي مع مجموعة بيانات جديدة، HealthSearchQA، التي تتضمن أسئلة طبية يتم البحث عنها بشكل شائع على الإنترنت. يهدف هذا النهج الشامل إلى تقييم النماذج اللغوية الكبيرة عبر أبعاد مختلفة، بما في ذلك الحقيقة والفهم والاستدلال والضرر المحتمل والتحيز، وبالتالي معالجة قيود التقييمات الآلية السابقة التي اعتمدت على معايير محدودة.
المفتاح في الدراسة هو تقييم نموذج Pathways Language Model (PaLM)، وهو نموذج لغوي كبير يحتوي على 540 مليار معامل، ونموذجه المعدل بالتعليمات، Flan-PaLM، على MultiMedQA. وبشكل ملحوظ، يحقق Flan-PaLM دقة على مستوى الدولة الفنية على جميع مجموعات الاختيار المتعددة داخل MultiMedQA، بما في ذلك دقة 67.6٪ على MedQA، الذي يتضمن أسئلة شبيهة بامتحان الترخيص الطبي الأمريكي. يُعتبر هذا الأداء تحسنًا كبيرًا على النماذج السابقة، متجاوزًا الحالة السابقة الفنية بنسبة أكثر من 17٪.
MedQA
تتميز مجموعة بيانات MedQA3 بالأسئلة المصممة على غرار امتحان الترخيص الطبي الأمريكي، مع أربعة أو خمس خيارات للإجابة. وتشمل مجموعة تطوير مع 11,450 سؤالاً ومجموعة اختبار تتكون من 1,273 سؤالاً.
التنسيق: سؤال وإجابة (Q + A)، متعدد الخيارات، نطاق مفتوح.
سؤال مثال: يأتي رجل يبلغ من العمر 65 عامًا مصابًا bằng ارتفاع ضغط الدم إلى الطبيب لفحص الصحة الروتيني. تشمل الأدوية الحالية أتينولول وليسينوبريل وأتورفاستاتين. يبلغ نبضه 86 ضربة في الدقيقة، وتنفس 18 ضربة في الدقيقة، وضغط الدم 145/95 ملم زئبقي. يكشف الفحص القلبي عن صوت طقطقة انتهائية. ما هو السبب الأكثر احتمالاً لهذا الفحص السريري؟
الإجابات (الإجابة الصحيحة بالخط الغليظ): (A) انخفاض مرونة البطين الأيسر، (B) التدهور المايكسوماتوس للصمام الميترالي (C) التهاب الغشاء البريتوني (D) توسع الجذع الأورتي (E) تصلب أوراق الصمام الميترالي.
تُحدد الدراسة أيضًا الفجوات الحاسمة في أداء النموذج، خاصة في الإجابة على أسئلة طبية للمستهلكين. لمعالجة هذه القضايا، يقدم الباحثون طريقة تعرف باسم تعديل الإرشادات. هذه التقنية تُحاذي النماذج اللغوية الكبيرة بفعالية إلى مجالات جديدة باستخدام vài أمثلة، مما يؤدي إلى إنشاء Med-PaLM. يُظهر نموذج Med-PaLM، على الرغم من أدائه المشجع وتحسنه في الفهم وذاكرة المعرفة والاستدلال، أنه لا يزال يفتقر إلى أداء الأطباء.
يُعتبر جانب هام من هذا البحث إطار التقييم البشري التفصيلي. يُقيم هذا الإطار إجابات النماذج لاتفاقها مع الإجماع العلمي والنتائج الضارة المحتملة. على سبيل المثال، بينما كانت فقط 61.9٪ من إجابات Flan-PaLM طويلة الشكل تتوافق مع الإجماع العلمي، ارتفعت هذه النسبة إلى 92.6٪ لنموذج Med-PaLM، وهو ما يعادل الإجابات التي قدمها الأطباء. وبالمثل، تم تقليل إمكانية النتائج الضارة بشكل كبير في استجابات Med-PaLM مقارنةً ب Flan-PaLM.
أبرز التقييم البشري لاستجابات Med-PaLM كفاءته في العديد من المجالات، ويتوافق بشكل وثيق مع الإجابات التي قدمها الأطباء. هذا يُبرز إمكانية Med-PaLM كأداة داعمة في البيئات السريرية.
يتعمق البحث المذكور أعلاه في دقائق تحسين النماذج اللغوية الكبيرة لتطبيقات طبية. يمكن تعميم التقنيات والملاحظات من هذه الدراسة لتحسين قدرات النماذج اللغوية الكبيرة عبر مجالات مختلفة. دعونا نستكشف هذه الجوانب الرئيسية:
تعديل الإرشادات يحسن الأداء
- التطبيق العام: يُظهر تعديل الإرشادات، الذي يتضمن تعديل النماذج اللغوية الكبيرة بإرشادات أو توجيهات محددة، تحسنًا كبيرًا في الأداء عبر مجالات مختلفة. يمكن تطبيق هذه التقنية على مجالات أخرى مثل القانون والمالية والتعليم لتحسين دقة وموثوقية مخرجات النماذج اللغوية الكبيرة.
توسيع حجم النموذج
- الآثار الأوسع: يُظهر ملاحظة أن توسيع حجم النموذج يحسن الأداء ليس محدودًا بأسئلة الطب فقط. النماذج الأكبر، مع المزيد من المعاملات، لها القدرة على معالجة وتوليد استجابات أكثر تعقيدًا وتنوعًا. يمكن أن يكون هذا التوسيع مفيدًا في مجالات مثل خدمة العملاء والكتابة الإبداعية والدعم الفني، حيث يكون الفهم والاستجابة المتوازنة حاسمة.
التحفيز السلسلي (COT) للتحفيز
- استخدام متنوع: يمكن أن يكون استخدام التحفيز السلسلي، على الرغم من أنه لا يُحسن دائمًا الأداء في مجموعات بيانات الطب، قيمًا في مجالات أخرى حيث يتطلب حل المشكلات المعقدة. على سبيل المثال، في مجالات مثل فك الشفرة الفنية أو اتخاذ القرارات المعقدة، يمكن أن يوجه التحفيز السلسلي النماذج اللغوية الكبيرة لمعالجة المعلومات خطوة خطوة، مما يؤدي إلى مخرجات أكثر دقة ومدروسة.
الاستمرارية الذاتية لتحسين الدقة
- التطبيقات الأوسع: يمكن أن يكون تقنية الاستمرارية الذاتية، حيث يتم توليد مخرجات متعددة واختيار الإجابة الأكثر استمرارية، يعزز الأداء بشكل كبير في مجالات مختلفة. في مجالات مثل المالية أو القانون حيث يكون الدقة أمرًا بالغ الأهمية، يمكن استخدام هذه الطريقة لتحقق مخرجات أكثر موثوقية.
الارتياب والتنبؤ الانتقائي
- الأهمية عبر المجالات: يُعتبر التواصل مع تقديرات الارتياب حاسمًا في المجالات حيث يمكن أن يكون ت散ع المعلومات الخاطئة له عواقب خطيرة، مثل الرعاية الصحية والقانون. يمكن استخدام قدرة النماذج اللغوية الكبيرة على التعبير عن الارتياب ورفض التنبؤ عند انخفاض الثقة أداة حاسمة في هذه المجالات لمنع انتشار المعلومات غير الصحيحة.
تمتد التطبيقات العملية لهذه النماذج إلى ما هو أبعد من الإجابة على الأسئلة. يمكن استخدامها في تثقيف المرضى، ومساعدة عمليات التشخيص، وحتى في تدريب الطلاب الطبيين. ومع ذلك، يجب إدارة نشرها بعناية لتفادي الاعتماد على الذكاء الاصطناعي دون الرقابة البشرية المناسبة.
随ما تطور المعرفة الطبية، يجب على النماذج اللغوية الكبيرة التكيف وتعلمها أيضًا. يتطلب ذلك آليات للتعلم المستمر والتحديث، لضمان أن تبقى النماذج ذات صلة ودقة مع مرور الوقت.












