інтерв'ю

Керолін Гарві, операційний директор LXT – Серія інтерв’ю

оновлений on 27 Лютого, 2024

Керолін Гарві має великий досвід керівництва та розвитку глобальних операцій у сфері релевантність пошуку ранжування та анотації для даних ML. Зараз Керолін є головним операційним директором (COO) компанії LXT де вона очолює глобальний операційний підрозділ компанії, забезпечуючи послідовну реалізацію всіх програм і проектів даних ШІ. Вона зосереджена на високоякісних даних у масштабі, підвищенні ефективності довгострокових програм і масштабуванні у великій кількості глобальних локалізацій.

Як головний операційний директор LXT, Керолін надає свій багатий досвід, щоб створити найкращу у своєму класі організацію.

Чи можете ви коротко описати, чим займається LXT, і вашу роль як головного операційного директора?

Штучний інтелект покладається на дані, щоб існувати, і LXT є новим лідером у наданні точних, етичних даних, які дають змогу інноваціям штучного інтелекту. Як головний операційний директор, моя роль полягає в нагляді, керівництві та розширенні нашої глобальної діяльності за допомогою стратегій, структури та процесів, які дозволяють нам надавати нашим клієнтам дані ШІ найвищої якості. Я запевняю, що ми виконуємо своєчасну роботу в широкому діапазоні випадків використання, від генеративного штучного інтелекту до релевантності пошуку та безпілотних автомобілів тощо.

Як розвивалася місія LXT з моменту заснування в 2010 році?

Наша місія полягає в тому, щоб розвивати технології майбутнього за допомогою генерації та вдосконалення даних для всіх мов, культур і модальностей. Наша мета — допомогти компаніям будь-якого розміру отримати вигоду від неймовірних переваг штучного інтелекту завдяки забезпеченню своїх моделей високоякісними даними. Зі зміною місії компанії обсяг наших послуг розширився від мовної транскрипції та збору мовлення до широкого спектру рішень, включаючи збір даних і анотації для тексту, зображень і відео, генеративні послуги AI тощо. Ми також розширили наш глобальний коло об’єктів, сертифікованих за стандартом ISO 27001, щоб задовольнити зростаючі потреби наших клієнтів у безпечних службах передачі даних.

Які ключові чинники сприяли його зростанню в секторі навчальних даних ШІ?

Постійні інвестиції в ШІ з боку організацій будь-якого розміру сприяли нашому зростанню. Компанії тепер знають, що штучний інтелект є основним фактором, щоб вони залишалися конкурентоспроможними, а дані живлять штучний інтелект. Але не всі дані однакові, і компанії, які досягають успіху в ШІ, знають, що високоякісні дані є критично важливими для створення більш точного ШІ.

Тепер, коли генеративний штучний інтелект у всіх на думці, ця тенденція відкрила для LXT ще більше можливостей для зростання. Люди мають вирішальне значення для того, щоб ці рішення були точними, етичними та відповідальними. Ми надаємо низку послуг генеративного штучного інтелекту в таких сферах, як тонке налаштування великих мовних моделей, оперативне створення тощо. Наші клієнти знають, що для встановлення довіри з кінцевими користувачами результати їхніх генеративних продуктів штучного інтелекту мають бути правдивими, представляти різноманітну аудиторію та не мати шкідливих слів. Ми можемо допомогти їм досягти цих цілей за допомогою наших послуг «людина в петлі».

Як вибух генеративного штучного інтелекту вплинув на LXT та його клієнтів?

LXT спостерігає зростаючий попит на навчальні дані ШІ через генеративний ШІ, як для основних мовно-орієнтованих даних, так і для нових аспектів, пов’язаних з аналізом, креативністю та критичним мисленням. Ми також спостерігаємо зростання попиту на предметні знання та спеціалізовані профілі для проектних працівників.

Запити клієнтів дедалі більше виходять за рамки вхідних даних машинного навчання мікрозавдань минулого до LLM і складніших наборів даних, необхідних для таких програм, як ChatGPT, Gemini та багатьох відгалужень. Зараз ми беремо участь у кількох інноваційних проектах, де ми пишемо підказки, спрямовані на те, щоб заплутати генеративний ШІ, щоб побачити, як він реагує, а потім створити правильну відповідь.

У майбутньому це може розвинутися в штучний загальний інтелект (AGI), де набори даних будуть відображатися для ще більш складних і витончених дій.

Ви маєте багаторічний досвід роботи з пошуком і персоналізацією, щоб допомогти покращити ці алгоритми. Якими способами провідні компанії покращують пошукову релевантність, щоб забезпечити кращий досвід користувача?

У світі, де дорогоцінний час, а інформація всюди, покращення релевантності пошуку може підвищити лояльність, підвищити коефіцієнт конверсії та зробити користувачів більш продуктивними.

Релевантність пошуку починається з очищення та впорядкування даних наших клієнтів, викорінення всього, що може генерувати хибні спрацьовування, і створення додаткових полів даних, які пошукові системи та системи рекомендацій можуть переглядати, щоб отримати точніші результати. За допомогою машинного навчання та обробки природної мови клієнти можуть надати своїй пошуковій системі змогу більш інтуїтивно визначати наміри користувачів і з часом дізнаватися про їхні вподобання. Результатом є швидший пошук, який веде до більш персоналізованих результатів.

Досягнення цієї мети потребує великих обсягів навчальних даних, з особливим акцентом на навчальні алгоритми, як розпізнавати, ранжувати та повертати відповідні об’єкти, а також як поводитися з друкарськими помилками, граматичними помилками та іншими аномаліями даних. Ми також рекомендуємо підхід до підсилення «людина в циклі» (HITL), щоб забезпечити точні дані, зменшити упередження та забезпечити кращий пошук для кінцевого користувача. Завдяки прогресу в ML за останні 10 років HITL посилено зосереджується на процесах перевірки якості, що спонукає до глибшого досвіду постачальників даних.

Чи можете ви детальніше розповісти про підхід LXT до анотації даних і про те, як він забезпечує якість і точність даних навчання ШІ?

Як операційна команда, ми повинні спочатку зрозуміти, як клієнти використовують дані, які ми надаємо, для розробки своїх продуктів і послуг, щоб переконатися, що вони відповідатимуть їхнім потребам. Щоб це сталося, нам потрібно знайти експертів як з управління проектами, так і з анотацій, які мають досвід роботи з типом необхідних даних.

З цього моменту мова йде переважно про підготовку та пошук відповідних ресурсів на початку кожного проекту. Це включає узгодження з клієнтами факторів успіху на етапі визначення обсягу, а також глибокі процеси кваліфікації та перевірки анотаторів проекту, які враховують такі важливі деталі, як освіта, особливі інтереси, демографічні показники та досвід. Ми також розробляємо докладні навчальні та довідкові матеріали як посібник, налаштований для кожного проекту. Ми застосовуємо зрілий контроль якості та управління процесами протягом усіх життєвих циклів проекту. Підхід, який ми використовуємо, узгоджується з найкращими галузевими практиками, гарантуючи, що результати відповідають очікуванням клієнтів.

І всі ці методології служать нашій обіцянці гарантованої якості даних.

Як LXT справляється з проблемою анотування неструктурованих даних, які складають понад 80% усіх даних?

LXT створив внутрішню платформу анотацій, яка автоматизує багато частин процесу анотацій і забезпечує структуру та узгоджений інтерфейс користувача для працівників. На етапі попередньої обробки ми зосереджуємося на підготовці даних, форматуванні вхідних файлів і видаленні дублікатів, а також на етапі постобробки адресне пакування даних, упорядкування та форматування для доставки клієнту.

Перед початком проекту ми створюємо інструкції, які переглядаємо разом із замовником і повторюємо протягом життєвого циклу проекту, коли все змінюється. Ми можемо розбити процес маркування даних на кілька завдань, щоб правильно зосередитися на кожному елементі проекту. Крім того, реалізовано методології контролю якості, щоб усунути масштабні помилки.

Нарешті, наша команда операційної досконалості відповідає за передове управління процесами, щоб забезпечити високу ефективність і масштабованість наших проектів у всьому світі.

З якими найбільшими проблемами стикається LXT під час збору даних у глобальному масштабі, і як ви їх долаєте?

Різноманітність і упередженість учасників і отриманих даних часто є одними з найбільших проблем, з якими зіткнеться LXT і будь-який постачальник даних для навчання ШІ. Інші виклики включають нещодавній попит на експертні знання в галузі та швидко мінливий ландшафт із переходом до LLM та генеративних даних ШІ.

Ми долаємо ці виклики за допомогою надзвичайно проактивного підходу до пошуку нашого резерву кандидатів, де ми переглядаємо знання, досвід, попередні ролі, інтереси та демографічні показники, щоб сформувати правильну різноманітність серед команд за статтю чи іншими аспектами, такими як аналітичне мислення чи творче письмо, освіта, серед іншого.

Після того, як ми знайшли потрібних кандидатів, ми докладаємо великих зусиль, щоб залучати працівників на регулярній основі, щоб створити більш досвідчену, лояльну та задоволену робочу силу в довгостроковій перспективі.

З точки зору оцінки штучного інтелекту, як LXT працює, щоб пом’якшити упередженість і забезпечити етичні результати в системах штучного інтелекту, які він допомагає навчати?

Як згадувалося раніше, забезпечення різноманітності є проблемою, яку мають вирішити багато постачальників навчальних даних ШІ, і це значною мірою допоможе пом’якшити упередженість і забезпечити етичні результати.

Я знову звернуся до наших найкращих практик взаємодії, які включають пошук різноманітних і репрезентативних анотаторів і дотримання вказівок і заходів контролю якості. У нас є стратегія пошуку джерел впливу, яка дозволяє нам передати роботу різноманітним і новим групам анотаторів, наприклад, у регіонах з довгими мовами.

Ми прагнемо дотримуватись етичних результатів, використовуючи найкращі галузеві практики, узгоджуючи очікування з нашими клієнтами та підвищуючи стандарти для наших менеджерів проектів і анотаторів. Комунікація є важливою, а також перевірки відповідності, аналіз упереджень і зобов’язання щодо регулювання даних і вимог конфіденційності.

Яке довгострокове бачення LXT і як ви бачите розвиток компанії в наступні п’ять років?

Наше бачення полягає в тому, щоб надавати точні дані, отримані з етичних джерел, щоб сприяти розгортанню штучного інтелекту та технологій майбутнього, які покращать і покращать досвід людей у всьому світі.

Хоча автоматизація та технології важливі для ШІ, є також важливий людський компонент, який доповнює технологію. Оскільки ми переходимо від простих автоматизованих завдань до великих мовних моделей (LLM) і від генеративного штучного інтелекту до загального штучного інтелекту (GAI), дуже важливо, щоб продукти штучного інтелекту вірно представляли людей, як тих, хто створює дані, так і наші глобальні спільноти в великий.

У LXT ми прагнемо забезпечити, щоб штучний інтелект використовувався в позитивний і трансформуючий спосіб, який відображає ці цінності.

Дякую за чудове інтерв’ю, читачі, які хочуть дізнатися більше, повинні відвідати LXT.