заглушки Революція в охороні здоров'я: вивчення впливу та майбутнього великих мовних моделей у медицині - Unite.AI
Зв'язатися з нами

Здоров'я

Революція в охороні здоров’я: вивчення впливу та майбутнього великих мовних моделей у медицині

mm

опублікований

 on

Великі мовні моделі в медицині

Інтеграція та застосування великих мовних моделей (LLM) у медицині та охороні здоров’я є темою, яка викликає значний інтерес і розвиток.

Як зазначалося в Всесвітня конференція Товариства систем управління інформацією та систем охорони здоров’я та інші значні події, такі компанії, як Google, лідирують у вивченні потенціалу генеративного ШІ в охороні здоров’я. Їхні ініціативи, такі як Med-PaLM 2, висвітлюють розвиток медичних рішень на основі ШІ, зокрема в таких сферах, як діагностика, догляд за пацієнтами та адміністративна ефективність.

Med-PaLM 2 від Google, новаторська програма LLM у сфері охорони здоров’я, продемонструвала вражаючі можливості, зокрема досягнувши «експертного» рівня в питаннях, подібних до іспиту з медичного ліцензування США. Ця модель та інші, подібні до неї, обіцяють кардинально змінити спосіб доступу та використання інформації медичними працівниками, потенційно підвищивши точність діагностики та ефективність догляду за пацієнтами.

Однак, поряд із цими досягненнями, виникло занепокоєння щодо практичності та безпеки цих технологій у клінічних умовах. Наприклад, опора на величезні джерела даних в Інтернеті для навчання моделі, хоча й корисна в деяких контекстах, не завжди може бути доречною чи надійною для медичних цілей. як Нігам Шах, PhD, MBBS, Chief Data Scientist for Стенфордська охорона здоров'я, зазначає, що ключові питання, які слід поставити, стосуються ефективності цих моделей у реальних медичних умовах та їх фактичного впливу на догляд за пацієнтами та ефективність охорони здоров’я.

Точка зору доктора Шаха підкреслює потребу в більш індивідуальному підході до використання LLMs у медицині. Замість моделей загального призначення, навчених на широких даних Інтернету, він пропонує більш цілеспрямовану стратегію, коли моделі навчаються на конкретних, відповідних медичних даних. Цей підхід нагадує підготовку лікаря-інтерна – надання їм конкретних завдань, нагляд за їхньою роботою та поступове надання більшої автономії, коли вони демонструють компетентність.

Відповідно до цього розвиток Meditron дослідниками EPFL представляє цікавий прогрес у цій галузі. Meditron, LLM з відкритим вихідним кодом, спеціально розроблений для медичних програм, є значним кроком вперед. Пройшовши навчання на основі підібраних медичних даних із таких авторитетних джерел, як PubMed і клінічних рекомендацій, Meditron пропонує більш цілеспрямований і потенційно надійніший інструмент для практикуючих лікарів. Його природа з відкритим вихідним кодом не лише сприяє прозорості та співпраці, але також дозволяє ширшому дослідницькому співтовариству безперервно вдосконалюватись і проводити стрес-тестування.

MEDITRON-70B-досягає-точності-70.2-на-питаннях-стилю-USMLE-в-наборі-даних-варіантів-MedQA-4

MEDITRON-70B-досягає-точності-70.2-на-питаннях-стилю-USMLE-в-наборі-даних-варіантів-MedQA-4

Розробка таких інструментів, як Meditron, Med-PaLM 2 та інших, відображає зростаюче визнання унікальних вимог сектору охорони здоров’я, коли мова заходить про застосування ШІ. Дуже важливим є наголос на навчанні цих моделей релевантними високоякісними медичними даними та забезпеченні їх безпеки та надійності в клінічних умовах.

Крім того, включення різноманітних наборів даних, таких як дані з гуманітарних контекстів, таких як Міжнародний комітет Червоного Хреста, демонструє чутливість до різноманітних потреб і викликів глобальної охорони здоров’я. Цей підхід узгоджується з ширшою місією багатьох дослідницьких центрів штучного інтелекту, які прагнуть створити інструменти штучного інтелекту, які є не лише технологічно передовими, але й соціально відповідальними та корисними.

Стаття під назвою «Великі мовні моделі кодують клінічні знання», нещодавно опублікованому в Nature, досліджує, як великі мовні моделі (LLM) можна ефективно використовувати в клінічних умовах. Дослідження представляє новаторські ідеї та методології, проливаючи світло на можливості та обмеження LLMs у сфері медицини.

Медична галузь характеризується своєю складністю, з величезним набором симптомів, захворювань і методів лікування, які постійно розвиваються. LLM повинні не тільки розуміти цю складність, але й йти в ногу з останніми медичними знаннями та рекомендаціями.

Основою цього дослідження є нещодавно розроблений тест під назвою MultiMedQA. Цей контрольний тест об’єднує шість наявних наборів даних із відповідями на медичні запитання з новим набором даних HealthSearchQA, який містить медичні запитання, які часто шукають в Інтернеті. Цей комплексний підхід спрямований на оцінку LLM за різними вимірами, включаючи фактичність, розуміння, міркування, можливу шкоду та упередженість, таким чином усуваючи обмеження попередніх автоматизованих оцінок, які спиралися на обмежені контрольні показники.

MultiMedQA, еталон для відповідей на медичні запитання, що охоплюють медичний огляд

MultiMedQA, еталон для відповідей на медичні запитання, що охоплюють медичний огляд

Ключовим моментом у дослідженні є оцінка мовної моделі Pathways Language Model (PaLM), LLM із 540 мільярдами параметрів, і її варіанта Flan-PaLM, налаштованого на інструкції, на MultiMedQA. Примітно, що Flan-PaLM забезпечує найсучаснішу точність у всіх наборах даних із множинним вибором у MultiMedQA, у тому числі точність 67.6% у MedQA, яка включає запитання в стилі іспиту з медичного ліцензування США. Ця продуктивність знаменує значне покращення в порівнянні з попередніми моделями, перевершуючи попередній рівень техніки більш ніж на 17%.

MedQA

Набір даних MedQA3 містить запитання, оформлені за USMLE, кожне з чотирма або п’ятьма варіантами відповідей. Він включає розвиваючий набір із 11,450 1,273 питань і тестовий набір із XNUMX XNUMX запитань.

Format: question and answer (Q + A), multiple choice, open domain.

Example question: A 65-year-old man with hypertension comes to the physician for a routine health maintenance examination. Current medications include atenolol, lisinopril, and atorvastatin. His pulse is 86 min−1, respirations are 18 min−1, and blood pressure is 145/95 mmHg. Cardiac examination reveals end diastolic murmur. Which of the following is the most likely cause of this physical examination?

Answers (correct answer in bold): (A) Decreased compliance of the left ventricle, (B) Myxomatous degeneration of the mitral valve (C) Inflammation of the pericardium (D) Dilation of the aortic root (E) Thickening of the mitral valve leaflets.

Дослідження також визначає критичні прогалини в продуктивності моделі, особливо у відповідях на медичні запитання споживачів. Щоб вирішити ці проблеми, дослідники запропонували метод, відомий як налаштування інструкцій. Ця техніка ефективно вирівнює LLM з новими доменами, використовуючи кілька зразків, що призвело до створення Med-PaLM. Хоча модель Med-PaLM працює надихаюче та демонструє покращення в розумінні, запам’ятовуванні знань і міркуванні, вона все одно поступається клініцистам.

Примітним аспектом цього дослідження є деталізована система оцінювання людини. Ця структура оцінює відповіді моделей на узгодження з науковим консенсусом і потенційні шкідливі наслідки. Наприклад, хоча лише 61.9% розгорнутих відповідей Flan-PaLM узгоджувалися з науковим консенсусом, ця цифра зросла до 92.6% для Med-PaLM, що можна порівняти з відповідями, отриманими клініцистами. Подібним чином, потенціал шкідливих наслідків був значно знижений у відповідях Med-PaLM порівняно з Flan-PaLM.

Людська оцінка відповідей Med-PaLM підкреслила її майстерність у кількох сферах, що тісно співпадає з відповідями, отриманими клініцистами. Це підкреслює потенціал Med-PaLM як інструменту підтримки в клінічних умовах.

Дослідження, яке обговорювалося вище, заглиблюється в тонкощі вдосконалення великих мовних моделей (LLM) для медичних застосувань. Методи та спостереження з цього дослідження можна узагальнити для покращення можливостей LLM у різних областях. Давайте розглянемо ці ключові аспекти:

Налаштування інструкцій покращує продуктивність

  • Узагальнене застосування: Налаштування інструкцій, яке передбачає точне налаштування LLM за допомогою конкретних інструкцій або вказівок, продемонструвало значне підвищення продуктивності в різних областях. Цю техніку можна застосувати в інших галузях, таких як юридична, фінансова чи освітня сфери, щоб підвищити точність і релевантність результатів LLM.

Масштабування розміру моделі

  • Більш широкі наслідки: Спостереження про те, що масштабування розміру моделі покращує продуктивність, не обмежується відповідями на медичні запитання. Великі моделі з більшою кількістю параметрів мають здатність обробляти та генерувати детальніші та складніші відповіді. Таке масштабування може бути корисним у таких областях, як обслуговування клієнтів, творче написання та технічна підтримка, де детальне розуміння та формування відповідей є вирішальними.

Ланцюг думок (COT).

  • Використання різноманітних доменів: використання підказок COT, хоча не завжди покращує продуктивність медичних наборів даних, може бути цінним в інших областях, де потрібне вирішення складних проблем. Наприклад, під час усунення технічних несправностей або складних сценаріїв прийняття рішень підказки COT можуть скеровувати LLM до обробки інформації крок за кроком, що призводить до більш точних і аргументованих результатів.

Самоузгодженість для підвищеної точності

  • Широке застосування: Техніка самоузгодженості, коли генерується кілька вихідних даних і вибирається найбільш узгоджена відповідь, може значно підвищити продуктивність у різних сферах. У таких областях, як фінанси чи право, де точність має першорядне значення, цей метод можна використовувати для перехресної перевірки згенерованих результатів для підвищення надійності.

Невизначеність і вибіркове передбачення

  • Міждоменна релевантність: Повідомлення оцінок невизначеності має вирішальне значення в сферах, де дезінформація може мати серйозні наслідки, як-от охорона здоров’я та право. Використання здатності LLM виражати невизначеність і вибірково відкладати прогнози, коли впевненість низька, може бути ключовим інструментом у цих областях для запобігання поширенню неточної інформації.

Застосування цих моделей у реальному світі виходить за рамки відповідей на запитання. Їх можна використовувати для навчання пацієнтів, допомоги в діагностичних процесах і навіть для навчання студентів-медиків. Однак їх розгортанням потрібно ретельно керувати, щоб не покладатися на штучний інтелект без належного нагляду з боку людини.

Оскільки медичні знання розвиваються, LLM також повинні адаптуватися та вчитися. Для цього потрібні механізми для безперервного навчання та оновлення, що гарантує, що моделі залишатимуться актуальними та точними протягом тривалого часу.

Останні п’ять років я провів, занурюючись у захоплюючий світ машинного та глибокого навчання. Моя пристрасть і досвід допомогли мені внести свій внесок у понад 50 різноманітних проектів розробки програмного забезпечення, зосередивши особливу увагу на ШІ/ML. Моя постійна цікавість також привела мене до обробки природної мови, галузі, яку я хочу досліджувати далі.