Отчёты
ROI высококачественных данных для обучения ИИ: выводы из отчета LXT за 2025 год

Искусственный интеллект развивается с исторической скоростью, и отчет ROI высококачественных данных для обучения ИИ 2025 компании LXT подчеркивает мощный сдвиг, происходящий в крупных организациях США. ИИ больше не является изолированным инновационным проектом – он стал структурным компонентом того, как крупные организации работают, принимают решения и обслуживают клиентов. То, что наиболее четко выходит из отчета, – это универсальное осознание: высококачественные, проверенные человеком данные для обучения теперь являются наиболее важным фактором, определяющим успех или провал инициатив ИИ.
Эра зрелости ИИ вступила в новую фазу
По всей стране организации быстро поднялись по кривой зрелости ИИ. В традиционном ИИ 83% предприятий сейчас работают на операционном, системном или трансформационном уровне. Только 17% остаются на стадии экспериментов. Генеративный ИИ, несмотря на свою относительную молодость, развивается еще быстрее. Полные 76% компаний сообщают, что они уже используют генеративные модели в операционных или системных возможностях, и 19% достигли трансформационной зрелости – то есть генеративный ИИ вплетен直接 в их основные бизнес-процессы.
То, что делает этот сдвиг так значимым, – это то, что предприятия больше не экспериментируют просто для изучения потенциала. Они развертывают ИИ с ожиданием измеримого результата: повышения эффективности, снижения ошибок, улучшения опыта клиентов и новых источников дохода. По мере того, как ИИ становится более специализированным и высокорисковым, основа за этими системами – а именно данные для обучения – имеет значение больше, чем когда-либо.
Бюджеты ИИ растут, и данные являются приоритетом номер один для инвестиций
Отчет показывает изменение того, как организации инвестируют в искусственный интеллект. Более половины компаний тратят от 1 миллиона до 75 миллионов долларов в год на ИИ, в то время как 30% тратят более 75 миллионов долларов. Это уже не исследовательские бюджеты; это корпоративные обязательства, предназначенные для трансформации основных операций.
Самое главное, данные для обучения теперь составляют самую большую долю расходов на ИИ – 19%. Программное обеспечение следует за ним на 15%, а разработка продукта – на 13%, в то время как категории, такие как оборудование, аналитика, стратегия ИИ и таланты, составляют от 8% до 12%. Этот сдвиг в сторону инвестиций, ориентированных на данные, сигнализирует о более широком понимании отрасли: даже самая сильная архитектура модели будет работать неэффективно, если она обучена на низкокачественных, устаревших или нерепрезентативных данных.
Как организации получают данные для своих систем ИИ
Предприятия собирают свою инфраструктуру данных ИИ, используя несколько источников. Внутренние организационные данные являются наиболее распространенным источником, используемым 70% респондентов. Кроме того, 62% создают свои собственные отобранные наборы данных, и 56% включают данные клиентов или заказчиков в свои потоки обучения. Несмотря на сильную зависимость от внутренних источников, 59% организаций также обращаются к внешним поставщикам – это признание того, что специализированные навыки, крупномасштабная коллекция, многоплановое покрытие и наборы данных, контролируемые предвзятостью, часто требуют внешней поддержки. Общественные наборы данных используются 44% организаций, но проблемы вокруг качества, лицензирования и соблюдения требований, кажется, ограничивают их использование.
ROI, который предприятия ожидают от высококачественных данных для обучения
Отчет очерчивает основные выгоды, которые организации наблюдают, когда они инвестируют в высококачественные данные для обучения:
- Более высокий уровень успеха в программах ИИ, сообщенный 55% предприятий
- Повышение удовлетворенности клиентов, упомянутое 54%
- Улучшение операционной эффективности, также на уровне 54%
- Рост дохода, связанный с ИИ, выделенный 53%
- Экономия средств, связанная со снижением ошибок и более точным выводом модели
- Более сильные практики соблюдения нормативных требований
- Усиление репутации бренда из-за более надежных систем ИИ
- Низкие общие показатели ошибок в прогнозах модели
- Более быстрое время выхода на рынок новых продуктов и инструментов, управляемых ИИ
- Улучшенный контроль предвзятости и более безопасный вывод
Эти показатели отражают сдвиг от приоритетов ранней адопции – таких, как спешка с развертыванием генеративного ИИ – к более устойчивому подходу, сосредоточенному на надежности, справедливости, соблюдении требований и создании долгосрочной ценности.
Потребность в данных для обучения ИИ растет во всех секторах
Спрос на данные для обучения ИИ увеличивается с беспрецедентной скоростью. Согласно отчету, 94% организаций ожидают, что их потребность в данных для обучения увеличится в течение следующих двух-пяти лет. Почти четверть ожидают, что спрос вырастет резко. Только 5% считают, что их потребности останутся прежними, и никто не ожидает снижения.
Этот рост обусловлен несколькими тенденциями: ростом систем ИИ с несколькими модальностями, расширением случаев использования в регулируемых отраслях, быстрым развертыванием специализированных помощников ИИ и необходимостью локализации моделей ИИ по регионам и языкам. Организации на высших уровнях зрелости ИИ ожидают наибольшего увеличения потребности в данных, что указывает на то, что более продвинутые развертывания ИИ требуют экспоненциально больше – и лучше – данных.
Качество данных стало основным требованием для предприятий
Когда их спросили, что им нужно больше всего в своих потоках обучения, организации ответили подавляюще: 80% говорят, что высококачественные, точные данные являются их приоритетом номер один. Дatasets, соответствующие нормативным требованиям, следуют за ними на 52%, отражая растущий нормативный контроль над ИИ. Половина респондентов подчеркивает необходимость экономически эффективных способов приобретения этих данных, в то время как 47% подчеркивают важность данных, созданных или проверенных экспертами в соответствующей области, такими как врачи, юристы, инженеры и финансовые аналитики. Этическая закупка и широкий объем данных нужны каждой на 42%, в то время как 36% организаций требуют высокоспециализированных наборов данных, адаптированных к нишевым случаям использования. Регионные данные также становятся важным требованием, с 31% компаний, подчеркивающих их важность.
Эти ответы показывают четкий сдвиг отрасли: предприятия переходят от подхода “больших данных” к подходу “высокосигнальных данных”. Точность, контекст и экспертиза в области теперь перевешивают сырую емкость.
Внешние поставщики данных стали необходимыми партнерами
Только 5% организаций говорят, что они не используют внешних поставщиков услуг данных. Остальные 95% полагаются на них, чтобы заполнить критические пробелы в масштабе, экспертизе или операционной емкости. Эти поставщики поддерживают все – от сбора и структуризации данных до обнаружения предвзятости, фильтрации персональных данных, оценки модели, генерации синтетических данных и тонкой настройки в конкретной области. По мере того, как системы ИИ охватывают больше языков и модальностей, и по мере того, как нормативная среда вокруг ИИ ужесточается, внешние партнеры стали необходимыми для построения наборов данных, которые точны, соответствуют требованиям и отражают реальную сложность.
Заключение: высококачественные данные теперь являются двигателем ROI ИИ
Отчет LXT ROI высококачественных данных для обучения ИИ 2025 делает одну истину неоспоримой: организации, которые рассматривают высококачественные данные для обучения как стратегический актив – а не технический после мыслей – будут лидировать в следующем десятилетии трансформации ИИ. По мере того, как системы ИИ, как генеративные, так и традиционные, становятся встроенными в отрасли, качество, разнообразие и проверка человеком данных для обучения будут определять точность, справедливость, безопасность и долгосрочную бизнес-ценность. Предприятия, которые инвестируют в специализированные, адаптированные к области данные, позиционируют себя для разблокировки最高 ROI, самого сильного конкурентного преимущества и наибольшей устойчивости в быстро меняющемся ландшафте ИИ.












