사상 리더
딥러닝을 작은 데이터로 사용하는 방법 – 사고 지도자

사이버 보안의 새로운 트렌드를 따라가려면 최근의 개발을 따라가기 위한 과정은 khá 귀찮을 수 있습니다. 왜냐하면 따라가야 할 뉴스가 많기 때문입니다. 그러나 요즘에는 상황이 크게 변했습니다. 사이버 보안 영역은 두 단어가 중심이 된 것처럼 보입니다 – 딥러닝.
우리는 처음에 딥러닝이 받은 거대한 관심에 놀랐지만, 곧 딥러닝이 받은 관심이 합당한 것으로 판명되었습니다. 인간의 뇌와 유사한 방식으로, 딥러닝은 텍스트, 이미지, 오디오 신호에서 직접 작업을 수행하여 매우 정확한 결과를 달성할 수 있는 인공지능 모델을 가능하게 합니다.
이제까지 딥러닝은 구글이나 페이스북과 같은 실리콘 밸리의 거대 기업이 보유한 데이터의 규모와 유사한大量의 데이터에 의존한다고 широко 믿어졌습니다. 그러나 일반적인 믿음과는 달리, 기업은 제한된 데이터 풀에 접근할 수 있더라도 딥러닝의 힘을 활용할 수 있습니다.
기업이 딥러닝의 이점을 활용할 수 있도록 필요한 지식을 제공하기 위해, 우리는 딥러닝을 제한된 또는 ‘작은’ 데이터로 사용하는 몇 가지 방법에 대한 글을 작성했습니다.
그러나 이 글의 본론에 들어가기 전에, 우리는 작은 nhưng 매우 중요한 제안을 하고 싶습니다 – 간단하게 시작하세요. 그러나 신경망을 구성하기 전에, 복잡한 신경망을 구성하는 대신에 간단한 모델(예: 랜덤 포레스트)로 시작하여 소프트웨어를 사용하는 방법을 익히세요.
이제 기업이 제한된 데이터에 접근할 수 있는 상황에서 딥러닝 기술을 결합하는 몇 가지 방법을 살펴보겠습니다.
#1- 베이스라인 모델의 세부 설정:
위에서 언급한 대로, 기업이 간단한 베이스라인 딥러닝 모델을 구성한 후에 취해야 할 첫 번째 단계는 특정 문제에 맞게 모델을 세부 설정하는 것입니다.
그러나 베이스라인 모델을 세부 설정하는 것은 실제로보다 더 어려워 보입니다. 대량의 데이터를 특정 기업의 요구에 맞게 세부 설정하는 기본적인 아이디어는 간단합니다. 즉, 해당 도메인과 비슷한 대량의 데이터를 가져온 다음, 해당 데이터 세트의 세부 정보를 제한된 데이터로 세부 설정합니다.
대량의 데이터 세트를 얻는 방법으로는 ImageNet을 사용할 수 있습니다. ImageNet은 또한 이미지 분류 문제를 쉽게 해결할 수 있는 방법을 제공합니다. ImageNet에서 호스팅되는 데이터 세트는 여러 이미지 클래스로 나뉘어진 수백만 개의 이미지를 제공하며, 이는 동물 이미지 등 다양한 도메인의 기업에서 유용할 수 있습니다.
만약 미리 훈련된 모델을 세부 설정하는 과정은 여전히 너무 많은 작업으로 보인다면, 우리는 인터넷에서 도움을 받는 것을 권장합니다. 간단한 구글 검색으로 모델을 세부 설정하는 방법에 대한 수백 개의 튜토리얼을 찾을 수 있습니다.
#2- 더 많은 데이터 수집:
우리의 목록에 있는 두 번째 항목은 일부 독자에게는 쓸모없게 보일 수 있지만, 딥러닝의 경우 사실은 데이터 세트가 클수록 더 정확한 결과를 달성할 가능성이 더 높습니다.
이 글의 본질은 제한된 데이터 세트를 가진 기업을 위한 것입니다. 그러나 우리는 데이터 수집에 시간과 노력을 투자하는 것을 죄악으로 여기는 “상층”을 너무 많이 만났습니다.
기업이 딥러닝의 이점을 제공하는 것을 간과하는 이유는 데이터를 수집하는 데 시간과 노력을 투자하는 것을 꺼려하기 때문입니다. 만약 기업이 수집해야 할 데이터의 양에 대해 불확실하다면, 모델에 추가 데이터를 통합함에 따라 학습 곡선을 플로팅하고 모델 성능의 변화를 관찰하는 것을 권장합니다.
대부분의 CSO와 CISO가持하는 일반적인 믿음과는 달리, 때때로 문제를 해결하는 가장好的 방법은 관련 데이터를 더 수집하는 것입니다. CSO와 CISO의 역할은 매우 중요합니다. 왜냐하면 사이버 공격의 위험이 항상存在하기 때문입니다. 2019년에 사이버 보안에 대한 총 글로벌 지출은 1031억 달러에 달했으며, 이 숫자는 계속 증가하고 있습니다. 이를 이해하기 위해 간단한 예를 들어보겠습니다. 만약 희귀한 다이아몬드를 분류해야 하는데, 제한된 데이터 세트만 있다면, 가장明顯한 해결책은 베이스라인 모델을 사용하는 것이 아니라, 더 많은 데이터를 수집하는 것입니다!
#3- 데이터 증강:
위에서 논의한 첫 번째 두 가지 항목은 기업이 제한된 데이터 세트를 가진 상황에서 딥러닝을 구현하는 문제에 대한 쉬운 해결책을 제공하지만, 두 가지 모두에는 운이 많이 필요합니다.
만약 미리 훈련된 데이터 세트를 세부 설정하는 것이 성공적이지 않다면, 우리는 데이터 증강을 시도하는 것을 권장합니다. 데이터 증강의 방법은 간단합니다. 입력 데이터 세트를 변경하거나 증강하여 새로운 출력을 생성하지만, 레이블 값을 실제로 변경하지는 않습니다.
데이터 증강의 아이디어를 이해하기 위해 예를 들어보겠습니다. 개의 이미지를 회전시키면, 이미지를 본 사람은 여전히 그것이 개의 이미지라는 것을 알 수 있습니다. 이것이 데이터 증강이 달성하고자 하는 것입니다. 즉, 이미지를 회전시키는 것과 같이, 이미지를 변경하여 새로운 출력을 생성하지만, 레이블 값을 변경하지는 않습니다.
이미지 분류 문제를 해결하는 경우, 데이터 증강은 주요 역할을 합니다. 다양한 이미지 분류 기술을 제공하여 딥러닝 모델이 이미지의 다양한 분류를 깊이 이해할 수 있습니다.
또한, 데이터를 증강하는 경우, 가능성은 거의 무한합니다. 기업은 다양한 방법으로 데이터 증강을 구현할 수 있습니다. 예를 들어, NLP와 GANs의 실험을 통해 알고리즘이 새로운 데이터를 생성할 수 있습니다.
#4- 앙상블 효과 구현:
딥러닝 기술은 네트워크가 여러 레이어로 구성되어 있습니다. 그러나 일반적인 믿음과는 달리, 각 레이어를 “늘어나는” 특징의 계층 구조로 보는 대신, 최종 레이어는 앙상블 메커니즘을 제공하는 역할을 합니다.
제한된 데이터 세트를 가진 기업이 네트워크를 깊게 구축해야 한다는 믿음은 NIPs 논문에서도 공유되었습니다. 제한된 데이터 세트를 가진 기업은 쉽게 앙상블 효과를 활용할 수 있습니다. 즉, 네트워크를 깊게 구축하여 세부 설정하거나 다른 방법을 사용합니다.
#5- 오토인코더 구현:
우리가 고려한 다섯 번째 항목은 상대적으로 성공을 거두었지만, 우리는 여전히 네트워크를 사전 훈련하고 초기화하는 데 오토인코더를 사용하는 것을 권장합니다.
기업이 딥러닝 기술을 통합하는 초기 장애물에 실패하는 이유 중 하나는 사이버 공격 외에 초기화가 잘못된 것입니다. 이는 오토인코더가 빛을 발하는 곳입니다.
신경망의 기본적인 아이디어는 입력 데이터 세트의 특성을 예측하는 신경망을 생성하는 것입니다. 만약 오토인코더를 사용하는 방법에 대해 불확실하다면, 온라인에 명확한 지침을 제공하는 여러 튜토리얼이 있습니다.
결론:
이 글의 끝에서, 우리는 이 글에서 언급한 모든 것을 요약하면서, 도메인 지식을 학습 과정에 통합하는 것을 추가로 언급하고 싶습니다. 도메인 지식을 통합하면 학습 과정을 가속화할 뿐만 아니라, 딥러닝 기술이 더 나은 결과를 생성할 수 있도록 합니다.












