Интервью
Денас Грябаускас, главный специалист по управлению и стратегии в Oxylabs – Интервью-серия

Денас Грябаускас является главным специалистом по управлению и стратегии в Oxylabs, глобальном лидере в области сбора веб-интеллекта и премиальных решений для прокси.
Основанная в 2015 году, Oxylabs предоставляет одну из крупнейших этически полученных сетей прокси в мире – охватывающую более 177 миллионов IP-адресов в 195 странах – а также продвинутые инструменты, такие как Web Unblocker, Web Scraper API и OxyCopilot, помощник скрапинга на основе ИИ, который преобразует естественный язык в структурированные запросы данных.
У вас была впечатляющая юридическая и управленческая карьера в области юридической технологии Литвы. Что лично мотивировало вас решить одну из самых поляризующих проблем ИИ – этику и авторское право – в вашей роли в Oxylabs?
Oxylabs всегда был флагманом ответственной инновации в отрасли. Мы были первыми, кто выступал за этичное получение прокси и отраслевые стандарты веб-скрапинга. Теперь, когда ИИ развивается так быстро, мы должны убедиться, что инновации сбалансированы с ответственностью.
Мы увидели эту проблему как огромную проблему, с которой сталкивается отрасль ИИ, и мы также увидели решение. Предоставляя эти наборы данных, мы ermögаем компаниям ИИ и создателям быть на одной странице в отношении справедливого развития ИИ, что полезно для всех участников. Мы знали, насколько важно сохранить права создателей на переднем плане, но также предоставить контент для разработки будущих систем ИИ, поэтому мы создали эти наборы данных как нечто, что может удовлетворить требования сегодняшнего рынка.
Великобритания находится в разгаре жаркой битвы за авторское право, с сильными голосами с обеих сторон. Как вы интерпретируете текущее состояние дебатов между инновациями ИИ и правами создателей?
Хотя важно, чтобы правительство Великобритании отдало приоритет продуктивным технологическим инновациям, важно, чтобы создатели чувствовали себя усиленными и защищенными ИИ, а не украденными. Юридическая база, которая в настоящее время обсуждается, должна найти золотую середину между содействием инновациям и, в то же время, защитой создателей, и я надеюсь, что в ближайшие недели мы увидим, как они найдут способ найти баланс.
Oxylabs только что запустила первый в мире этический набор данных YouTube, который требует согласия создателей для обучения ИИ. Как именно работает этот процесс согласия – и насколько он масштабируем для других отраслей, таких как музыка или издательство?
Все миллионы оригинальных видео в наборах данных имеют явное согласие создателей на использование для обучения ИИ, соединяя создателей и инноваторов этично. Все наборы данных, предлагаемые Oxylabs, включают видео, транскрипты и богатые метаданные. Хотя такие данные имеют много потенциальных вариантов использования, Oxylabs усовершенствовал и подготовил их специально для обучения ИИ, что является использованием, на которое создатели контента осознанно согласились.
Многие лидеры технологий утверждают, что требование явного согласия от всех создателей может “убить” отрасль ИИ. Какой ваш ответ на это утверждение, и как подход Oxylabs доказывает обратное?
Требование того, чтобы для каждого использования материала для обучения ИИ было предварительное явное согласие, представляет значительные операционные проблемы и будет иметь значительную стоимость для инноваций ИИ. Вместо защиты прав создателей это может непреднамеренно стимулировать компании перенести деятельность по разработке в юрисдикции с менее строгим соблюдением или различными режимами авторского права. Однако это не означает, что нет середины, где развитие ИИ поощряется, а авторское право уважается. Напротив, нам нужны действенные механизмы, которые упрощают отношения между компаниями ИИ и создателями.
Эти наборы данных предлагают один подход к движению вперед. Модель опт-аут, в соответствии с которой контент может быть использован, если владелец авторского права не явно отказался, – это другой. Третий способ – облегчение заключения сделок между издателями, создателями и компаниями ИИ через технологические решения, такие как онлайн-платформы.
В конечном итоге любое решение должно действовать в рамках применимых законов об авторском праве и защите данных. В Oxylabs мы считаем, что инновации ИИ должны проводиться ответственно, и нашей целью является вклад в законные, практические рамки, которые уважают создателей, а также ermögляют прогресс.
Какие были самые большие препятствия, которые ваша команда должна была преодолеть, чтобы сделать наборы данных на основе согласия жизнеспособными?
Путь для нас был открыт YouTube, который ermögлил создателям контента легко и удобно лицензировать свою работу для обучения ИИ. После этого наша работа была в основном технической, включая сбор данных, очистку и структурирование их для подготовки наборов данных, а также создание всей технической установки для компаний, чтобы получить доступ к необходимым данным. Но это нечто, что мы делали в течение многих лет, так или иначе. Конечно, каждый случай представляет свою собственную серию проблем, особенно когда вы имеете дело с чем-то таким огромным и сложным, как многомодальный данные. Но у нас были как знания, так и техническая возможность сделать это. Учитывая это, как только авторы YouTube получили возможность дать согласие, все остальное было просто вопросом времени и ресурсов.
За пределами контента YouTube вы представляете себе будущее, в котором другие основные типы контента – такие как музыка, письмо или цифровое искусство – также могут быть систематически лицензированы для использования в качестве обучающих данных?
В течение некоторого времени мы указывали на необходимость системного подхода к предоставлению согласия и лицензированию контента, чтобы ermögнить инновации ИИ, сбалансированные с правами создателей. Только когда есть удобный и кооперативный способ для обеих сторон достичь своих целей, будет взаимная выгода.
Это только начало. Мы считаем, что предоставление наборов данных, таких как наши, в различных отраслях, может предложить решение, которое наконец-то приведет дебаты об авторском праве к мирному завершению.
Важно ли предложения, такие как этические наборы данных Oxylabs, варьируются в зависимости от различных подходов к управлению ИИ в ЕС, Великобритании и других юрисдикциях?
С одной стороны, наличие наборов данных на основе явного согласия выравнивает поле для компаний ИИ, базирующихся в юрисдикциях, где правительства склоняются к более строгому регулированию. Основная проблема этих компаний заключается в том, что вместо поддержки создателей, строгие правила для получения согласия дадут несправедливое преимущество разработчикам ИИ в других юрисдикциях. Проблема не в том, что эти компании не заботятся о согласии, а в том, что без удобного способа получить его они обречены отстать.
С другой стороны, мы считаем, что если предоставление согласия и доступ к лицензированным данным для обучения ИИ упростятся, нет причины, почему этот подход не должен стать предпочтительным способом глобально. Наши наборы данных, построенные на основе лицензированного контента YouTube, являются шагом к этому упрощению.
С растущим недоверием общества к тому, как обучается ИИ, как вы думаете, прозрачность и согласие могут стать конкурентными преимуществами для технологических компаний?
Хотя прозрачность часто рассматривается как препятствие для конкурентного преимущества, это также наше величайшее оружие в борьбе с недоверием. Чем больше прозрачности могут предоставить компании ИИ, тем больше доказательств есть для этического и полезного обучения ИИ, тем больше доверие к отрасли ИИ восстанавливается. И, в свою очередь, создатели, видя, что они и общество могут получить выгоду от инноваций ИИ, будут иметь больше причин дать согласие в будущем.
Oxylabs часто ассоциируется с скрапингом данных и веб-интеллектом. Как эта новая этическая инициатива вписывается в более широкую видение компании?
Выпуск этически полученных наборов данных YouTube продолжает нашу миссию в Oxylabs по установлению и продвижению этических отраслевых практик. Как часть этого, мы стали сооснователями инициативы по этическому сбору веб-данных (EWDCI) и ввели прозрачную многоуровневую структуру для получения прокси. Мы также запустили проект 4β в рамках нашей миссии по ermögлению исследователям и академикам максимизировать влияние их исследований и улучшить понимание критических публичных веб-данных.
Глядя вперед, считаете ли вы, что правительства должны обязать согласие по умолчанию для обучающих данных, или это должно остаться добровольной инициативой отрасли?
В рыночной экономике обычно лучше всего позволить рынку исправить себя. Позволяя инновациям развиваться в ответ на рыночные потребности, мы不断но изобретаем и обновляем нашу процветание. Тяжелоручное законодательство никогда не является хорошим первым выбором и должно использоваться только тогда, когда все другие пути обеспечения справедливости, позволяя инновациям, были исчерпаны.
Похоже, мы еще не достигли этой точки в обучении ИИ. Варианты лицензирования YouTube для создателей и наши наборы данных демонстрируют, что эта экосистема активно ищет способы адаптироваться к новым реалиям. Таким образом, хотя ясные правила, конечно, необходимы для обеспечения того, чтобы все действовали в рамках своих прав, правительства могут хотеть действовать осторожно. Вместо требования явного согласия в каждом случае они могут хотеть изучить способы, которыми отрасли могут разработать механизмы для решения текущих напряжений и взять сигналы от этого при законодательстве, чтобы поощрять инновации, а не препятствовать им.
Какой совет вы дадите стартапам и разработчикам ИИ, которые хотят уделять приоритетное внимание этическому использованию данных без торможения инноваций?
Одним из способов, которыми стартапы могут помочь облегчить этическое использование данных, является разработка технологических решений, которые упрощают процесс получения согласия и получения выгоды для создателей. Поскольку появляются варианты приобретения прозрачных данных, компании ИИ не должны идти на компромисс со скоростью; поэтому я советую им держать глаза открытыми для таких предложений.
Спасибо за отличное интервью, читателям, которые хотят узнать больше, следует посетить Oxylabs.












