Интервью
Джош Миллер, генеральный директор Gradient Health – Серия интервью

Джош Миллер является генеральным директором Gradient Health, компании, основанной на идее о том, что автоматизированная диагностика должна существовать для того, чтобы здравоохранение было справедливым и доступным для всех. Gradient Health стремится ускорить автоматизированную диагностику ИИ с данными, которые организованы, помечены и доступны.
Не могли бы вы рассказать историю создания Gradient Health?
Мой сооснователь Ouwen и я только что покинули наш первый стартап, FarmShots, который использовал компьютерное зрение для помощи в снижении количества пестицидов, используемых в сельском хозяйстве, и мы искали наш следующий вызов.
Мы всегда были мотивированы желанием найти сложную проблему, которую можно решить с помощью технологий, которая а) имеет возможность сделать много хорошего в мире и б) приводит к солидному бизнесу. Ouwen работал над своей медицинской степенью, и с нашим опытом в компьютерном зрении медицинская визуализация была для нас естественным выбором. Из-за разрушительного воздействия рака груди мы выбрали маммографию в качестве потенциального первого применения. Итак, мы сказали: “Ладно, где начать? Нам нужно данные. Нам нужно тысячу маммограмм. Где можно получить такие данные?” и ответ был “Нигде”. Мы сразу поняли, что найти данные очень трудно. После месяцев эта проблема выросла в философскую проблему для нас, и мы подумали: “Любой, кто пытается сделать что-то хорошее в этой области, не должен бороться и трудиться, чтобы получить данные, которые ему нужны для создания алгоритмов, спасающих жизни”. И поэтому мы сказали: “Эй, может быть, это на самом деле наша проблема, которую нужно решить”.
Каковы текущие риски на рынке с нерепрезентативными данными?
Из бесчисленных исследований и реальных примеров мы знаем, что если мы построим алгоритм, используя только данные с западного побережья, и вы принесете его на юго-восток, он просто не будет работать. Время от времени мы слышим истории об ИИ, который работает отлично в северо-восточном госпитале, где он был создан, и затем, когда они развертывают его в другом месте, точность падает до менее 50%.
Я считаю, что фундаментальная цель ИИ на этическом уровне заключается в том, чтобы уменьшить различия в здравоохранении. Цель состоит в том, чтобы сделать качественную помощь доступной и доступной для всех. Но проблема заключается в том, что когда вы строите его на плохих данных, вы фактически увеличиваете различия. Мы терпим неудачу в миссии ИИ в здравоохранении, если мы позволим ему работать только для белых парней с побережья. Люди из недопредставленных слоев населения будут фактически страдать больше от дискриминации, а не меньше.
Не могли бы вы рассказать, как Gradient Health получает данные?
Да, мы сотрудничаем со всеми видами систем здравоохранения по всему миру, чьи данные в противном случае хранятся, что стоит им денег и не приносит никакой пользы. Мы тщательно деидентифицируем их данные в источнике, а затем тщательно организуем их для исследователей.
Как Gradient Health обеспечивает, чтобы данные были необоснованными и как можно более разнообразными?
Есть много способов. Например, когда мы собираем данные, мы убедились, что включаем много клиник сообщества, где вы часто имеете более репрезентативные данные, а также большие госпитали. Мы также получаем наши данные из большого количества клинических сайтов. Мы пытаемся получить как можно больше сайтов из как можно более широкого спектра населения. Итак, не только имея большое количество сайтов, но и имея их географически и социально-экономически разнообразными. Потому что если все ваши сайты находятся в городских госпиталях, это все равно не репрезентативные данные, не так ли?
Чтобы проверить все это, мы запускаем статистику по всем этим наборам данных и настраиваем ее для клиента, чтобы убедиться, что они получают данные, которые разнообразны с точки зрения технологий и демографии.
Почему этот уровень контроля данных так важен для проектирования прочных алгоритмов ИИ?
Есть много переменных, с которыми ИИ может столкнуться в реальном мире, и наша цель – обеспечить, чтобы алгоритм был как можно более прочным. Чтобы упростить вещи, мы думаем о пяти ключевых переменных в наших данных. Первая переменная, о которой мы думаем, – это “производитель оборудования”. Это очевидно, но если вы строите алгоритм только с использованием данных от сканеров GE, он не будет работать так же хорошо на Hitachi, скажем.
Аналогично переменной “модель оборудования”. Это на самом деле довольно интересно с точки зрения неравенства в здравоохранении. Мы знаем, что большие, хорошо финансируемые исследовательские госпитали имеют последние и лучшие версии сканеров. И если они только обучают свой ИИ на своих собственных моделях 2022 года, он не будет работать так же хорошо на более старой модели 2010 года. Эти более старые системы находятся именно в тех районах, где люди менее состоятельны и живут в сельской местности. Итак, используя данные только из более новых моделей, они непреднамеренно вводят дальнейший предвзятость против людей из этих сообществ.
Другие ключевые переменные – это пол, этническая принадлежность и возраст, и мы прилагаем большие усилия, чтобы убедиться, что наши данные пропорционально сбалансированы во всех этих переменных.
Каковы некоторые из регуляторных препятствий, с которыми сталкиваются компании MedTech?
Мы начинаем видеть, как FDA действительно расследует предвзятость в наборах данных. У нас были исследователи, которые приходили к нам и говорили: “FDA отклонила наш алгоритм, потому что в нем не хватало 15% афроамериканского населения” (приблизительно 15% афроамериканцев, которые являются частью населения США). Мы также слышали о разработчике, которому было сказано, что ему нужно включить 1% тихоокеанских гавайцев в свои тренировочные данные.
Итак, FDA начинает понимать, что эти алгоритмы, которые были обучены только в одном госпитале, не работают в реальном мире. Факт заключается в том, что если вы хотите получить маркировку CE и разрешение FDA, вам нужно прийти с набором данных, который представляет население. Это, справедливо, больше не принимается, когда вы обучаете ИИ на небольшой или нерепрезентативной группе.
Риск для MedTech заключается в том, что они инвестируют миллионы долларов в то, чтобы получить свою технологию до места, где они думают, что они готовы к регуляторному одобрению, и затем, если они не могут пройти его, они никогда не получат возмещения или дохода. В конечном итоге путь к коммерциализации и путь к тому, чтобы иметь тот вид полезного воздействия на здравоохранение, который они хотят иметь, требует от них заботиться о предвзятости данных.
Каковы некоторые из вариантов преодоления этих препятствий с точки зрения данных?
За последние годы методы управления данными эволюционировали, и разработчики ИИ теперь имеют больше вариантов, чем когда-либо прежде. От посредников данных и партнеров до федеративного обучения и синтетических данных есть новые подходы к этим препятствиям. Какой бы метод они ни выбрали, мы всегда призываем разработчиков учитывать, являются ли их данные действительно репрезентативными для населения, которое будет использовать продукт. Это, безусловно, наиболее трудный аспект поиска данных.
Одно из решений, которое предлагает Gradient Health, – это Gradient Label, что это за решение и как оно позволяет помечать данные в масштабе?
ИИ медицинской визуализации требует не только данных, но и экспертных аннотаций. И мы помогаем компаниям получить эти экспертные аннотации, включая от радиологов.
Каково ваше видение будущего ИИ и данных в здравоохранении?
Уже существует тысячи инструментов ИИ, которые смотрят на все, от кончиков ваших пальцев до кончиков ваших пальцев ног, и я думаю, что это будет продолжаться. Я думаю, что будет как минимум 10 алгоритмов для каждого состояния в медицинской книге. Каждый из них будет иметь несколько, вероятно, конкурирующих инструментов, чтобы помочь клиницистам предоставить лучшую помощь.
Я не думаю, что мы, скорее всего, увидим стиль трикордер Star Trek, который сканирует кого-то и решает каждую возможную проблему от головы до ног. Вместо этого у нас будут специализированные приложения для каждого подмножества.
Есть ли что-то еще, что вы хотели бы поделиться о Gradient Health?
Я взволнован будущим. Я думаю, что мы движемся к месту, где здравоохранение является дешевым, равным и доступным для всех, и я хочу, чтобы Gradient получил шанс сыграть фундаментальную роль в том, чтобы это произошло. Вся команда здесь действительно верит в эту миссию, и есть объединенная страсть среди них, которую вы не получаете в каждой компании. И я люблю это!
Спасибо за отличный интервью, читатели, которые хотят узнать больше, должны посетить Gradient Health.












