Изкуствен интелект

Какво е увеличаване на данните?

Обновено on Декември 9, 2022

Едно от най-честите предизвикателства за компаниите, които искат да внедрят решения за машинно обучение, е недостатъчните данни. Често събирането му е скъпо и отнема много време. В същото време производителността на моделите за машинно обучение и дълбоко обучение е силно зависима от качеството, количеството и уместността на данните за обучение.

Тук се намесва увеличаването на данните.

Увеличаването на данни може да се дефинира като набор от техники, които изкуствено увеличават количеството данни. Тези техники генерират нови точки от данни от съществуващи данни и могат да включват извършване на малки промени в данните или използване на модели за дълбоко обучение за генериране на нови данни.

Значение на увеличаването на данните

Популярността на техниките за увеличаване на данните непрекъснато нараства през последните няколко години. Има няколко причини за това. От една страна, подобрява производителността на моделите за машинно обучение и води до по-разнообразни набори от данни.

Много приложения за задълбочено обучение като откриване на обекти, класифициране на изображения, разпознаване на изображения, разбиране на естествен език и семантично сегментиране разчитат на методи за увеличаване на данните. Производителността и резултатите от моделите за дълбоко обучение се подобряват чрез генериране на нови и разнообразни набори от данни за обучение.

Увеличаването на данните също намалява оперативните разходи, свързани със събирането на данни. Например етикетирането и събирането на данни може да отнеме време и да е скъпо за компаниите, така че те разчитат на трансформиране на набори от данни чрез техники за увеличаване на данните, за да намалят разходите.

Една от основните стъпки при изготвянето на модел на данни е почистването на данните, което води до модели с висока точност. Този процес на почистване може да намали представителността на данните, правейки модела неспособен да предостави добри прогнози. Техниките за увеличаване на данни могат да се използват, за да помогнат на моделите за машинно обучение да бъдат по-стабилни чрез създаване на варианти, които моделът може да срещне в реалния свят.

Как работи увеличаването на данните?

Увеличаването на данни често се използва за класифициране и сегментиране на изображения. Обичайно е да се правят промени във визуални данни, а генеративните състезателни мрежи (GAN) се използват за създаване на синтетични данни. Някои от класическите дейности за обработка на изображения за увеличаване на данните включват подпълване, произволно завъртане, вертикално и хоризонтално обръщане, повторно мащабиране, превод, изрязване, мащабиране, промяна на контраста и други.

Има няколко усъвършенствани модела за увеличаване на данните:

Генеративни състезателни мрежи (GAN): GAN помагат да се научат модели от набори от входни данни и автоматично да се създават нови примери за данните за обучение.
Трансфер на невронен стил: Тези модели съчетават изображение на съдържание и изображение на стил, както и разделят стила от съдържанието.
Обучение за подсилване: Тези модели обучават агенти да постигат цели и да вземат решения във виртуална среда.

Друго основно приложение за увеличаване на данните е обработката на естествен език (NLP). Тъй като езикът е толкова сложен, може да бъде изключително предизвикателство да се добавят текстови данни.

Има няколко основни метода за NLP увеличаване на данни, включително лесни операции за увеличаване на данни (EDA), като замяна на синоним, вмъкване на дума и размяна на дума. Друг често срещан метод е обратният превод, който включва повторен превод на текст от целевия език обратно на оригиналния език.

Предимства и ограничения на увеличаването на данните

Важно е да се отбележи, че има както предимства, така и ограничения от увеличаването на данните.

Що се отнася до ползите, увеличаването на данните може да подобри точността на прогнозиране на модела чрез добавяне на повече данни за обучение, предотвратяване на недостига на данни, намаляване на пренастройването на данни, увеличаване на генерализацията и разрешаване на проблеми с класовия дисбаланс в класификацията.

Увеличаването на данните също намалява разходите, свързани със събирането и етикетирането на данни, позволява предвиждане на редки събития и укрепва поверителността на данните.

В същото време ограниченията на увеличаването на данните включват висока цена за осигуряване на качеството на разширените набори от данни. Той също така включва тежки изследвания и разработки за изграждане на синтетични данни с разширени приложения.

Ако използвате техники за увеличаване на данни като GAN, проверката може да се окаже трудна. Също така е предизвикателство да се обърне внимание на присъщото отклонение на оригиналните данни, ако то продължава да съществува в разширените данни.

Случаи на употреба за увеличаване на данните

Увеличаването на данни е един от най-популярните методи за изкуствено увеличаване на количествата данни за обучение на AI модели и се използва в широк спектър от домейни и индустрии.

Две от най-известните индустрии, използващи силата на увеличаването на данните, са автономните превозни средства и здравеопазването:

Автономни превозни средства: Увеличаването на данните е важно за разработването на автономни превозни средства. Симулационните среди, изградени с механизми за обучение с подсилване, помагат за обучение и тестване на AI системи с недостиг на данни. Симулационната среда може да се моделира въз основа на специфични изисквания за генериране на примери от реалния свят.
Здравеопазване: Индустрията на здравеопазването също използва увеличаване на данните. Често данните на пациента не могат да се използват за обучение на модел, което означава, че много от данните се филтрират, за да не бъдат обучени. В други случаи няма достатъчно данни за конкретна болест, така че данните могат да бъдат допълнени с варианти на съществуващата.

Как да увеличите данните

Ако търсите да увеличите данните, трябва да започнете с идентифициране на пропуски във вашите данни. Това може да включва например търсене на липсваща демографска информация. Всички дейности трябва също така да подкрепят мисията на вашата компания, така че е важно да дадете приоритет на пропуските въз основа на това как информацията ще подобри мисията.

Следващата стъпка е да определите къде ще получите липсващите данни, например чрез набор от данни на трета страна. Когато оценявате данните, трябва да разгледате цената, пълнотата и нивото на сложност и усилията, необходими за интегрирането.

Увеличаването на данните може да отнеме време, така че е важно да планирате времето и ресурсите. Много източници на данни от трети страни изискват инвестиции. Също така е от решаващо значение да се планира как данните ще бъдат събрани и получени и трябва да се оцени ROI на данните.

Последната стъпка е да определите къде ще се съхраняват данните, което може да включва добавянето им към поле във вашата AMS или друга система.

Разбира се, това е само основна схема за процеса на увеличаване на данните. Действителният процес ще включва много повече, поради което е изключително важно да имаме добре оборудван екип от учени по данни и други експерти. Но като планирате и изпълните процес на увеличаване на данните, можете да гарантирате, че вашата организация разполага с възможно най-добрите данни за точни прогнози.

Свързани теми:AI изкуствен интелект данни

Следва

Електричеството помага да се намерят материали, които могат да „учат“

Не пропускайте

Изследователите проправят път за материали от следващо поколение, вдъхновени от живота

Алекс Макфарланд

Алекс Макфарланд е AI журналист и писател, изследващ най-новите разработки в областта на изкуствения интелект. Той е сътрудничил с множество стартиращи фирми и публикации в областта на изкуствения интелект по целия свят.