부본 합성 데이터란 무엇입니까? - Unite.AI
Rescale 미팅 예약

AI 101

합성 데이터란 무엇입니까?

mm
업데이트 on

합성 데이터란 무엇입니까?

합성 데이터는 데이터 과학 분야에서 빠르게 확장되는 추세이자 새로운 도구입니다. 합성 데이터란 정확히 무엇입니까? 짧은 대답은 합성 데이터가 다음으로 구성되어 있다는 것입니다. 실제 현상이나 이벤트를 기반으로 하지 않는 데이터, 오히려 컴퓨터 프로그램을 통해 생성됩니다. 그런데 합성 데이터가 데이터 과학에서 왜 그렇게 중요해지고 있습니까? 합성 데이터는 어떻게 생성됩니까? 이러한 질문에 대한 답변을 살펴보겠습니다.

합성 데이터세트란 무엇입니까?

"합성"이라는 용어에서 알 수 있듯이 합성 데이터 세트는 실제 사건의 문서화를 통해 구성되는 대신 컴퓨터 프로그램을 통해 생성됩니다. 합성 데이터 세트의 주요 목적은 기계 학습 모델 교육에 유용할 만큼 다재다능하고 견고하게 만드는 것입니다.

기계 학습 분류기에 유용하려면 합성 데이터 특정 속성이 있어야 합니다. 데이터는 범주, 이진 또는 숫자일 수 있지만 데이터 세트의 길이는 임의적이어야 하며 데이터는 무작위로 생성되어야 합니다. 데이터를 생성하는 데 사용되는 무작위 프로세스는 제어 가능해야 하며 다양한 통계 분포를 기반으로 해야 합니다. 랜덤 노이즈가 데이터 세트에 배치될 수도 있습니다.

합성 데이터가 분류 알고리즘에 사용되는 경우 문제의 요구 사항에 따라 분류 문제를 더 쉽게 또는 더 어렵게 만들 수 있도록 클래스 분리 정도를 사용자 지정할 수 있어야 합니다. 한편, 회귀 작업의 경우 비선형 생성 프로세스를 사용하여 데이터를 생성할 수 있습니다.

합성 데이터를 사용하는 이유

TensorfFlow 및 PyTorch와 같은 기계 학습 프레임워크가 사용하기 쉬워지고 컴퓨터 비전 및 자연어 처리를 위해 사전 설계된 모델이 더욱 유비쿼터스화되고 강력해짐에 따라 데이터 과학자가 직면해야 하는 주요 문제는 데이터 수집 및 처리입니다. 기업은 주어진 시간 내에 정확한 모델을 교육하기 위해 많은 양의 데이터를 수집하는 데 어려움을 겪는 경우가 많습니다. 데이터에 직접 라벨을 붙이는 것은 데이터를 획득하는 데 비용이 많이 들고 느린 방법입니다. 그러나 합성 데이터를 생성하고 사용하면 데이터 과학자와 기업이 이러한 장애물을 극복하고 신뢰할 수 있는 기계 학습 모델을 더 빠르게 개발하는 데 도움이 될 수 있습니다.

합성 데이터를 사용하면 여러 가지 이점이 있습니다. 합성 데이터의 사용이 데이터 과학에 도움이 되는 가장 확실한 방법은 실제 이벤트에서 데이터를 캡처할 필요성을 줄이는 것입니다. 이러한 이유로 데이터에 의존하는 데이터 세트보다 훨씬 빠르게 데이터를 생성하고 데이터 세트를 구성할 수 있습니다. 실제 이벤트. 이는 짧은 시간 내에 많은 양의 데이터를 생성할 수 있음을 의미합니다. 거의 발생하지 않는 이벤트의 경우 특히 그렇습니다. 이벤트가 야생에서 거의 발생하지 않는 것처럼 일부 실제 데이터 샘플에서 더 많은 데이터를 모의할 수 있습니다. 그 외에도 데이터가 생성될 때 자동으로 레이블을 지정하여 데이터에 레이블을 지정하는 데 필요한 시간을 크게 줄일 수 있습니다.

합성 데이터는 드물게 발생할 수 있지만 AI의 성공에 중요한 인스턴스인 엣지 케이스에 대한 교육 데이터를 얻는 데 유용할 수도 있습니다. 에지 케이스는 AI의 기본 대상과 매우 유사하지만 중요한 방식에서 다른 이벤트입니다. 예를 들어, 부분적으로만 보이는 객체는 이미지 분류자를 설계할 때 엣지 케이스로 간주될 수 있습니다.

마지막으로 합성 데이터 세트 프라이버시 걱정을 최소화할 수 있습니다. 데이터를 익명화하려는 시도는 비효율적일 수 있습니다. 민감한/식별 변수가 데이터 세트에서 제거되더라도 다른 변수가 결합될 때 식별자 역할을 할 수 있기 때문입니다. 애초에 실제 사람이나 실제 사건을 기반으로 하지 않았기 때문에 이것은 합성 데이터의 문제가 아닙니다.

합성 데이터의 사용 사례

합성 데이터에는 다양한 사용, 거의 모든 기계 학습 작업에 적용할 수 있기 때문입니다. 일반적인 사용 사례 합성 데이터에는 자율 주행 차량, 보안, 로봇 공학, 사기 방지 및 의료가 포함됩니다.

합성 데이터의 초기 사용 사례 중 하나는 자율 주행 자동차였습니다. 합성 데이터는 도로에서 실제 훈련 데이터를 얻는 것이 어렵거나 위험한 상황에서 자동차에 대한 훈련 데이터를 만드는 데 사용되기 때문입니다. 합성 데이터는 감시 시스템과 같은 이미지 인식 시스템을 교육하는 데 사용되는 데이터를 생성하는 데에도 유용하며, 많은 교육 데이터를 수동으로 수집하고 레이블을 지정하는 것보다 훨씬 효율적입니다. 로보틱스 시스템은 전통적인 데이터 수집 및 훈련 방법으로 훈련 및 개발 속도가 느릴 수 있습니다. 합성 데이터를 통해 로봇 회사는 시뮬레이션을 통해 로봇 시스템을 테스트하고 엔지니어링할 수 있습니다. 사기 방지 시스템은 합성 데이터의 이점을 얻을 수 있으며 합성 데이터를 사용할 때 지속적으로 새로운 데이터로 새로운 사기 탐지 방법을 훈련하고 테스트할 수 있습니다. 의료 분야에서는 데이터가 실제 사람을 기반으로 하지 않기 때문에 합성 데이터를 사용하여 정확하면서도 사람들의 개인 정보를 보호하는 건강 분류자를 설계할 수 있습니다.

합성 데이터 과제

합성 데이터를 사용하면 많은 이점을 얻을 수 있지만 많은 어려움도 따릅니다.

합성 데이터가 생성될 때 종종 이상값이 부족합니다. 이상값은 데이터에서 자연스럽게 발생하며 교육 데이터 세트에서 종종 삭제되지만 진정으로 신뢰할 수 있는 기계 학습 모델을 교육하는 데 필요할 수 있습니다. 이 외에도 합성 데이터의 품질은 매우 다양할 수 있습니다. 합성 데이터는 종종 입력 또는 시드 데이터로 생성되므로 데이터의 품질은 입력 데이터의 품질에 따라 달라질 수 있습니다. 합성 데이터를 생성하는 데 사용된 데이터가 편향된 경우 생성된 데이터는 이러한 편향을 영속화할 수 있습니다. 합성 데이터에는 어떤 형태의 출력/품질 관리도 필요합니다. 사람이 주석을 단 데이터와 비교하여 확인해야 합니다. 그렇지 않으면 인증 데이터가 어떤 형식입니다.

합성 데이터는 어떻게 생성됩니까?

합성 데이터는 기계 학습 기술을 사용하여 프로그래밍 방식으로 생성됩니다. 결정 트리와 같은 고전적인 기계 학습 기술을 사용할 수 있습니다. 딥러닝 기술과 마찬가지로. 합성 데이터에 대한 요구 사항은 데이터를 생성하는 데 사용되는 알고리즘 유형에 영향을 미칩니다. 의사 결정 트리 및 유사한 머신 러닝 모델을 통해 회사는 실제 데이터의 예에서 훈련된 비고전적 다중 모달 데이터 분포를 생성할 수 있습니다. 이러한 알고리즘으로 데이터를 생성하면 원래 학습 데이터와 높은 상관 관계가 있는 데이터가 제공됩니다. 일반적인 데이터 분포가 알려진 경우 회사는 Monte Carlo 방법을 사용하여 합성 데이터를 생성할 수 있습니다.

합성 데이터를 생성하는 딥 러닝 기반 방법은 일반적으로 다음 중 하나를 사용합니다. VAE(변형 오토인코더) or 생성적 적대 신경망(GAN). VAE는 인코더와 디코더를 사용하는 감독되지 않은 기계 학습 모델입니다. VAE의 인코더 부분은 데이터를 원래 데이터 세트의 더 단순하고 압축된 버전으로 압축하는 역할을 합니다. 그런 다음 디코더는 이를 분석하고 기본 데이터의 표현을 생성하는 데 사용합니다. VAE는 입력 데이터와 출력 데이터가 매우 유사한 입력 데이터와 출력 간에 최적의 관계를 갖는 것을 목표로 훈련됩니다.

GAN 모델에 관해서는 GAN이 실제로 서로 경쟁하는 두 개의 네트워크라는 사실 때문에 "적대적" 네트워크라고 합니다. 생성자는 합성 데이터 생성을 담당하고 두 번째 네트워크(판별자)는 생성된 데이터를 실제 데이터 세트와 비교하여 작동하며 어떤 데이터가 가짜인지 판별하려고 시도합니다. Discriminator가 가짜 데이터를 포착하면 Generator에 이를 알리고 Discriminator가 새로운 데이터 배치를 가져오도록 변경합니다. 결과적으로 판별자는 가짜를 더 잘 감지하게 됩니다. 두 네트워크는 서로에 대해 훈련되며 가짜는 항상 더욱 생생해집니다.

전문 분야의 블로거 및 프로그래머 기계 학습 깊은 학습 주제. 다니엘은 다른 사람들이 사회적 이익을 위해 AI의 힘을 사용하도록 돕기를 희망합니다.