Зв'язатися з нами

Med-Gemini: трансформація медичного ШІ за допомогою мультимодальних моделей наступного покоління

Штучний Інтелект

Med-Gemini: трансформація медичного ШІ за допомогою мультимодальних моделей наступного покоління

mm

Штучний інтелект (ШІ) протягом останніх кількох років наробив хвиль у медичній галузі. Він покращує точність діагностики медичних зображень, допомагає створювати персоналізовані методи лікування за допомогою аналізу геномних даних та пришвидшує розробку ліків шляхом вивчення біологічних даних. Однак, незважаючи на ці вражаючі досягнення, більшість застосувань ШІ сьогодні обмежуються конкретними завданнями, що використовують лише один тип даних, наприклад, комп'ютерну томографію або генетичну інформацію. Цей одномодальний підхід досить сильно відрізняється від того, як працюють лікарі, інтегруючи дані з різних джерел для діагностики захворювань, прогнозування результатів та створення комплексних планів лікування.

Щоб справді підтримувати клініцистів, дослідників і пацієнтів у таких завданнях, як створення радіологічних звітів, аналіз медичних зображень і прогнозування захворювань на основі геномних даних, штучний інтелект повинен вирішувати різноманітні медичні завдання, обґрунтовуючи складні мультимодальні дані, включаючи текст, зображення, відео й електронні дані. медичні записи (EHR). Однак будівництво цих мультимодальний медичний ШІ системи були складними через обмежені можливості штучного інтелекту керувати різноманітними типами даних та дефіцит комплексних біомедичних наборів даних.

Потреба в мультимодальному медичному ШІ

Охорона здоров'я – це складна мережа взаємопов'язаних джерел даних, від медичних зображень до генетичної інформації, яку медичні працівники використовують для розуміння та лікування пацієнтів. Однак традиційні системи штучного інтелекту часто зосереджуються на окремих завданнях з одним типом даних, що обмежує їхню здатність надавати комплексний огляд стану пацієнта. Ці унімодальні системи штучного інтелекту вимагають величезної кількості маркованих даних, отримання яких може бути дорогим, що забезпечує обмежений спектр можливостей, а також стикаються з труднощами інтеграції інформації з різних джерел.

Мультимодальний ШІ може подолати проблеми існуючих медичних систем штучного інтелекту, забезпечуючи цілісну перспективу, яка поєднує інформацію з різних джерел, пропонуючи більш точне та повне розуміння стану здоров’я пацієнта. Цей інтегрований підхід підвищує діагностичну точність шляхом виявлення закономірностей і кореляцій, які можна пропустити під час аналізу кожної модальності окремо. Крім того, мультимодальний штучний інтелект сприяє інтеграції даних, дозволяючи медичним працівникам отримувати доступ до єдиного перегляду інформації про пацієнтів, що сприяє співпраці та прийняттю обґрунтованих рішень. Його адаптивність і гнучкість дозволяють вчитися на різних типах даних, пристосовуватися до нових викликів і розвиватися разом із досягненнями медицини.

Представляємо Med-Gemini

Останні досягнення у великих мультимодальних моделях штучного інтелекту спровокували рух у розробці складних медичних систем штучного інтелекту. Провідниками цього руху є Google і DeepMind, які представили свою передову модель, Мед-Близнюки. Ця мультимодальна медична модель штучного інтелекту продемонструвала виняткову продуктивність 14 галузевих тестів, перевершуючи конкурентів, як OpenAI GPT-4. Мед-Близнюки побудований на Gemini сім'я с великі мультимодальні моделі (LMM) від Google DeepMind, призначений для розуміння та створення вмісту в різних форматах, включаючи текст, аудіо, зображення та відео. На відміну від традиційних мультимодальних моделей, Gemini може похвалитися унікальністю Суміш експертів (МЗ) архітектури, зі спеціал моделі трансформаторів навички обробки конкретних сегментів даних або завдань. У сфері медицини це означає, що Gemini може динамічно залучати найбільш підходящого експерта на основі вхідного типу даних, незалежно від того, чи то рентгенологічне зображення, генетична послідовність, історія пацієнта чи клінічні записи. Ця установка відображає мультидисциплінарний підхід, який використовують клініцисти, підвищуючи здатність моделі вивчати та ефективно обробляти інформацію.

Тонка настройка Gemini для мультимодального медичного ШІ

Щоб створити Med-Gemini, дослідники налаштовані Близнюки на анонімізованих медичних наборах даних. Це дозволяє Med-Gemini успадкувати власні можливості Gemini, включаючи мовну розмову, міркування з мультимодальними даними та керування довшими контекстами для медичних завдань. Дослідники навчили три власні версії кодера зору Gemini для 2D-модальностей, 3D-модальностей та геноміки. Це схоже на навчання спеціалістів у різних галузях медицини. Навчання призвело до розробки трьох специфічних варіантів Med-Gemini: Med-Gemini-2D, Med-Gemini-3D та Med-Gemini-Polygenic.

  • Мед-Близнюки-2D

Med-Gemini-2D навчений обробляти звичайні медичні зображення, такі як рентген грудної клітки, зрізи КТ, патологічні плями та знімки з камери. Ця модель чудово справляється з такими завданнями, як класифікація, візуальне надання відповідей на запитання та генерація тексту. Наприклад, маючи рентген грудної клітки та інструкцію «Чи показав рентген будь-які ознаки, які можуть вказувати на карциному (ознаки ракових новоутворень)?», Med-Gemini-2D може надати точну відповідь. Дослідники виявили, що вдосконалена модель Med-Gemini-2D покращила генерацію звітів за допомогою штучного інтелекту для рентгенівських знімків грудної клітки на 1-12%, створюючи звіти, «еквівалентні або кращі», ніж звіти рентгенологів.

  • Мед-Близнюки-3D

Розширюючи можливості Med-Gemini-2D, Med-Gemini-3D навчено інтерпретувати тривимірні медичні дані, такі як КТ і МРТ. Ці сканування забезпечують комплексне уявлення про анатомічні структури, що вимагає глибшого рівня розуміння та досконаліших аналітичних методів. Можливість аналізувати 3D-сканування за допомогою текстових інструкцій знаменує значний стрибок у діагностиці медичних зображень. Оцінки показали, що більше половини звітів, створених Med-Gemini-3D, призвели до тих самих рекомендацій щодо догляду, які надали радіологи.

  • Мед-Близнюки-Полігенний

На відміну від інших варіантів Med-Gemini, які зосереджені на медичній візуалізації, Med-Gemini-Polygenic розроблено для прогнозування захворювань і наслідків для здоров’я на основі геномних даних. Дослідники стверджують, що Med-Gemini-Polygenic є першою моделлю такого роду, яка аналізує геномні дані за допомогою текстових інструкцій. Експерименти показують, що модель перевершує попередні лінійні полігенні оцінки в прогнозуванні восьми наслідків для здоров’я, включаючи депресію, інсульт і глаукому. Примітно, що він також демонструє нульові можливості, передбачаючи додаткові результати для здоров’я без спеціального навчання. Цей прогрес має вирішальне значення для діагностики таких захворювань, як ішемічна хвороба серця, ХОЗЛ і діабет 2 типу.

Розбудова довіри та забезпечення прозорості

Окрім вражаючих досягнень у обробці мультимодальних медичних даних, інтерактивні можливості Med-Gemini мають потенціал для вирішення... фундаментальні виклики у прийнятті штучного інтелекту в медичній сфері, як-от «чорна скринька» ШІ та занепокоєння щодо заміни роботи. На відміну від типових систем штучного інтелекту, які працюють наскрізно та часто служать інструментами заміни, Med-Gemini функціонує як допоміжний інструмент для медичних працівників. Покращуючи їхні можливості аналізу, Med-Gemini зменшує страх перед переміщенням з роботи. Його здатність надавати детальні пояснення своїх аналізів і рекомендацій підвищує прозорість, дозволяючи лікарям розуміти та перевіряти рішення ШІ. Така прозорість створює довіру серед медичних працівників. Крім того, Med-Gemini підтримує нагляд з боку людини, забезпечуючи перевірку та перевірку експертами інформації, отриманої за допомогою штучного інтелекту, сприяючи створенню середовища для співпраці, де штучний інтелект і медичні працівники працюють разом для покращення догляду за пацієнтами.

Шлях до застосування в реальному світі

Хоча Med-Gemini демонструє вражаючі досягнення, він все ще перебуває на стадії дослідження та потребує ретельної медичної перевірки перед застосуванням у реальних умовах. Ретельні клінічні випробування та масштабне тестування є важливими для забезпечення надійності, безпеки та ефективності моделі в різних клінічних умовах. Дослідники повинні перевірити ефективність Med-Gemini за різних медичних станів та демографічних показників пацієнтів, щоб забезпечити його надійність та узагальнюваність. Для гарантування дотримання медичних стандартів та етичних рекомендацій необхідні схвалення регуляторних органів охорони здоров'я. Спільні зусилля розробників штучного інтелекту, медичних працівників та регуляторних органів матимуть вирішальне значення для вдосконалення Med-Gemini, усунення будь-яких обмежень та зміцнення впевненості в його клінічній корисності.

Bottom Line

Med-Gemini являє собою значний крок у розвитку медичного штучного інтелекту, інтегруючи мультимодальні дані, такі як текст, зображення та геномна інформація, для надання комплексних діагностичних та лікувальних рекомендацій. На відміну від традиційних моделей штучного інтелекту, обмежених окремими завданнями та типами даних, вдосконалена архітектура Med-Gemini відображає міждисциплінарний підхід медичних працівників, підвищуючи точність діагностики та сприяючи співпраці. Незважаючи на свій багатообіцяючий потенціал, Med-Gemini вимагає ретельної перевірки та схвалення регуляторних органів перед реальним застосуванням. Його розробка сигналізує про майбутнє, де штучний інтелект допомагатиме медичним працівникам, покращуючи догляд за пацієнтами завдяки складному, інтегрованому аналізу даних.

Доктор Техсін Зія є штатним доцентом Університету COMSATS Ісламабад, має ступінь доктора філософії зі штучного інтелекту у Віденському технологічному університеті, Австрія. Спеціалізуючись на штучному інтелекті, машинному навчанні, науці про дані та комп’ютерному зорі, він зробив значний внесок публікаціями в авторитетних наукових журналах. Доктор Техсін також керував різними промисловими проектами як головний дослідник і працював консультантом зі штучного інтелекту.