Интервью
Эрик Ландау, сооснователь и CEO Encord – Интервью

Эрик Ландау является CEO и сооснователем Encord, активной платформы обучения для компьютерного зрения. Эрик был ведущим квантовым исследователем на глобальном эквити дельта-один столе, запуская тысячи моделей в производство. До Encord он провел почти десятилетие в высокочастотной торговле в DRW. Он имеет степень магистра в области прикладной физики в Гарвардском университете, степень магистра в области электротехники и степень бакалавра в области физики в Стэнфордском университете.
В свободное время Эрик любит играть с ChatGPT и большими языковыми моделями, а также создавать коктейли.
Что вдохновило вас на создание Encord, и как ваш опыт в физике частиц и количественной финансе сформировал ваш подход к решению проблемы «данных» в ИИ?
Я впервые начал думать о машинном обучении, работая в физике частиц и имея дело с очень большими наборами данных во время моего пребывания в Стэнфордском линейном ускорителе (SLAC). Я использовал программное обеспечение, разработанное для физиков физиками, что означает, что было многое, чего не хватало в плане приятного пользовательского опыта. С более простыми инструментами я смог бы запускать анализ намного быстрее.
Позже, работая в количественной финансе в DRW, я был ответственным за создание тысяч моделей, которые были развернуты в производство. Аналогично моему опыту в физике, я обнаружил, что высококачественные данные были критически важны для создания точных моделей, и что управление сложными, крупномасштабными данными было сложным. Ульрик имел подобный опыт визуализации больших изображений для компьютерного зрения.
Когда я услышал о его первоначальной идее для Encord, я сразу же согласился и понял важность. Вместе Ульрик и я увидели огромную возможность создать платформу для автоматизации и оптимизации процесса разработки данных ИИ, что сделало бы проще для команд получить лучшие данные в модели и создать надежные системы ИИ.
Можете ли вы подробнее рассказать о видении за Encord и о том, как оно сравнивается с ранними днями вычислений или интернета в плане потенциала и проблем?
Видение Encord заключается в том, чтобы быть основной платформой, на которую предприятия будут полагаться для преобразования своих данных в функциональные модели ИИ. Мы являемся слоем между данными компании и их ИИ.
Во многих отношениях ИИ отражает предыдущие парадигмальные сдвиги, такие как персональные компьютеры и интернет, в том, что он станет неотъемлемой частью рабочих процессов для каждого человека, бизнеса, нации и отрасли. В отличие от предыдущих технологических революций, которые были в основном ограничены законом Мура о составном вычислительном росте в 30 раз каждые 10 лет, развитие ИИ выиграло от одновременных инноваций. Таким образом, оно движется с гораздо более быстрой скоростью. По словам Дженсена Хуана из NVIDIA: «Впервые мы видим составные экспоненты… Мы составляем миллион раз каждые десять лет. Не сто раз, не тысячу раз, а миллион раз». Без преувеличения мы свидетели самой быстроразвивающейся технологии в истории человечества.
Потенциал здесь огромен: автоматизируя и масштабируя управление высококачественными данными для ИИ, мы решаем проблему, которая мешает более широкому внедрению ИИ. Проблемы напоминают ранние проблемы в предыдущих технологических эрах: разрозненные данные, отсутствие лучших практик, ограничения для неквалифицированных пользователей и нехватка хорошо определенных абстракций.
Encord Index позиционируется как ключевой инструмент для управления и курирования данных ИИ. Как он отличается от других платформ управления данными, доступных в настоящее время?
Есть несколько способов, которыми Encord Index выделяется:
Индекс масштабируем: Позволяет пользователям управлять миллиардами, а не миллионами, данных. Другие инструменты сталкиваются с проблемами масштабируемости для неструктурированных данных и ограничены в консолидации всех релевантных данных в организации.
Индекс гибок: Интегрируется напрямую с частным хранилищем данных и облачными провайдерами хранения, такими как AWS, GCP и Azure. В отличие от других инструментов, которые ограничены одним облачным провайдером или внутренней системой хранения, Индекс агностичен к месту расположения данных. Он позволяет вам управлять данными из многих источников с надлежащим управлением и контролем доступа, что позволяет разработать безопасные и соответствующие приложения ИИ.
Индекс многомодальный: Поддерживает многомодальный ИИ, управляя данными в виде изображений, видео, аудио, текста, документов и т. д. Индекс не ограничен одним типом данных, как многие инструменты LLM сегодня. Человеческое восприятие многомодально, и мы считаем, что многомодальный ИИ будет в центре следующей волны достижений ИИ, которая заменит чат-боты и LLM.
Каким образом Encord Index улучшает процесс выбора правильных данных для моделей ИИ, и какой эффект это оказывает на производительность модели?
Encord Index улучшает выбор данных, автоматизируя курирование больших наборов данных, помогая командам выявить и сохранить только наиболее релевантные данные, удалив неинформативные или предвзятые данные. Этот процесс не только уменьшает размер наборов данных, но также значительно улучшает качество данных, используемых для обучения моделей ИИ. Наши клиенты увидели до 20% улучшения в своих моделях, достигнув 35% сокращения размера набора данных и сэкономив сотни тысяч долларов на вычислительных и человеческих затратах на аннотацию.
С учетом быстрой интеграции передовых технологий, таких как модель Meta Segment Anything, как Encord остается впереди в быстро меняющемся ландшафте ИИ?
Мы намеренно построили платформу, чтобы она могла быстро адаптироваться к новым технологиям. Мы фокусируемся на предоставлении масштабируемого, программного подхода, который легко включает в себя достижения, такие как SAM, гарантируя, что наши пользователи всегда оснащены последними инструментами, чтобы оставаться конкурентоспособными.
Мы планируем оставаться впереди, фокусируясь на многомодальном ИИ. Платформа Encord уже может управлять сложными типами данных, такими как изображения, видео и текст, поэтому, когда появляются новые достижения в многомодальном ИИ, мы готовы.
Какие наиболее распространенные проблемы компании сталкиваются при управлении данными ИИ, и как Encord помогает решить эти проблемы?
Существует три основных проблемы, с которыми сталкиваются компании:
- Плохая организация и контроль данных: Когда предприятия готовятся реализовать решения ИИ, они часто сталкиваются с реальностью разрозненных и неорганизованных данных, которые не готовы к ИИ. Эти данные часто не имеют сильного управления вокруг них, ограничивая возможность использования большей части данных в системах ИИ.
- Отсутствие человеческих экспертов: Когда модели ИИ решают все более сложные проблемы, скоро будет не хватать человеческих экспертов для подготовки и проверки данных. По мере увеличения спроса на ИИ компании сталкиваются с трудностями в масштабировании человеческой рабочей силы.
- Немасштабируемое инструментирование: Производительные модели ИИ очень требовательны к данным для тонкой настройки, проверки, RAG и других рабочих процессов. Предыдущее поколение инструментов не способно управлять количеством и типами данных, необходимыми для современных моделей производственного класса.
Encord решает эти проблемы, автоматизируя процесс курирования данных в масштабе, делая его легко выявить воздействующие данные из проблемных данных и гарантируя создание эффективных обучающих и проверочных наборов данных. Он использует программный подход, который легко масштабируется вверх или вниз по мере изменения потребностей в управлении данными. Наши инструменты ИИ-помощника аннотации позволяют человеческим экспертам максимизировать эффективность рабочего процесса. Этот процесс особенно важен в отраслях, таких как финансовые услуги и здравоохранение, где тренеры ИИ дороги. Мы делаем легко управлять и понимать все неструктурированные данные организации, уменьшая потребность в ручном труде.
Как Encord решает проблему предвзятости данных и недопредставленных областей в наборах данных, чтобы гарантировать справедливые и сбалансированные модели ИИ?
Решение проблемы предвзятости данных является критически важным для нас в Encord. Наша платформа автоматически выявляет и выделяет области, где данные могут быть предвзятыми, позволяя командам ИИ решить эти проблемы до того, как они повлияют на производительность модели. Мы также гарантируем, что недопредставленные области в наборах данных правильно включены, что помогает в разработке более справедливых и сбалансированных моделей ИИ. Используя наши инструменты курирования, команды могут быть уверены, что их модели обучаются на разнообразных и представительных данных.
Encord недавно получил 30 миллионов долларов в рамках финансирования серии B. Как это финансирование ускорит вашу дорожную карту продукта и планы расширения?
30 миллионов долларов в рамках финансирования серии B будут использованы для значительного увеличения размера наших команд продукта, инженерии и исследований ИИ в течение следующих шести месяцев и ускорения разработки Encord Index и других новых функций. Мы также расширяем свое присутствие в Сан-Франциско с новым офисом, и это финансирование поможет нам масштабировать операции, чтобы поддержать наш растущий базу клиентов.
Как самый молодой ИИ-компания из Y Combinator, получившая финансирование серии B, что вы приписываете быстрому росту и успеху Encord?
Одной из причин, по которой мы смогли расти быстро, является то, что мы приняли крайне клиенто-ориентированный фокус во всех областях компании. Мы постоянно общаемся с клиентами, внимательно слушаем их проблемы и «обнимаем их», чтобы прийти к решениям. Фокусируясь на потребностях клиентов, а не на хайпе, мы создали платформу, которая резонирует с лучшими командами ИИ по различным отраслям. Наши клиенты были инструментальными в том, чтобы привести нас к тому, где мы находимся сегодня. Наша способность быстро масштабироваться и эффективно управлять сложностью данных ИИ сделала нас привлекательным решением для предприятий.
Мы также обязаны нашему успеху нашим коллегам, партнерам и инвесторам, которые все работали неустанно, чтобы поддержать Encord. Работа с мировыми командами продукта, инженерии и выхода на рынок оказала огромное влияние на наш рост.
Учитывая растущую важность данных в ИИ, как вы видите эволюцию роли платформ данных ИИ, таких как Encord, в течение следующих пяти лет?
По мере роста сложности приложений ИИ потребность в эффективных и масштабируемых решениях управления данными будет только увеличиваться. Я считаю, что каждое предприятие в конечном итоге будет иметь отдел ИИ, как и отделы ИТ существуют сегодня. Encord будет единственной платформой, необходимой им для управления огромными объемами данных, необходимых для ИИ, и быстрого вывода моделей в производство.
Спасибо за отличное интервью. Читателям, которые хотят узнать больше, следует посетить Encord.












