Connect with us

Lãnh đạo tư tưởng

Làm thế nào chúng ta có thể sử dụng Deep Learning với Dữ liệu Nhỏ? – Thought Leaders

mm

Khi nói đến việc theo dõi các xu hướng an ninh mạng mới nhất, quá trình cập nhật các phát triển gần đây có thể trở nên khá繁 tạp vì có rất nhiều tin tức để theo dõi. Tuy nhiên, những ngày này, tình hình đã thay đổi đáng kể, vì các lĩnh vực an ninh mạng dường như đang xoay quanh hai từ – deep learning.

Mặc dù chúng tôi ban đầu bị sốc bởi sự phủ sóng rộng lớn mà deep learning đã nhận được, nhưng nhanh chóng trở nên rõ ràng rằng sự cường điệu xung quanh deep learning là hoàn toàn xứng đáng. Giống như bộ não con người, deep learning cho phép một mô hình AI đạt được kết quả chính xác cao, bằng cách thực hiện các nhiệm vụ trực tiếp từ văn bản, hình ảnh và âm thanh.

Cho đến thời điểm này, người ta thường tin rằng deep learning phụ thuộc vào một tập dữ liệu lớn, tương tự như mức độ dữ liệu được lưu trữ bởi các gã khổng lồ Thung lũng Silicon như Google và Facebook để giải quyết các vấn đề phức tạp nhất trong một tổ chức. Tuy nhiên, trái với niềm tin phổ biến, các doanh nghiệp có thể tận dụng sức mạnh của deep learning, ngay cả khi chỉ có quyền truy cập vào một tập dữ liệu nhỏ.

Trong một nỗ lực nhằm giúp các độc giả của chúng tôi có kiến thức cần thiết để trang bị cho tổ chức của họ với deep learning, chúng tôi đã biên soạn một bài viết đi sâu vào (không có ý định chơi chữ) một số cách mà các doanh nghiệp có thể tận dụng lợi ích của deep learning mặc dù chỉ có quyền truy cập vào dữ liệu nhỏ.

Nhưng trước khi chúng tôi có thể đi vào phần chính của bài viết, chúng tôi muốn đưa ra một gợi ý nhỏ nhưng rất quan trọng – hãy bắt đầu từ những điều đơn giản. Tuy nhiên, trước khi bạn bắt đầu xây dựng các mạng nơ-ron phức tạp đến mức có thể xuất hiện trong một bộ phim khoa học viễn tưởng, hãy bắt đầu bằng cách thử nghiệm với một số mô hình đơn giản và truyền thống, (ví dụ: rừng ngẫu nhiên) để làm quen với phần mềm.

Với điều đó được nói, hãy đi thẳng vào một số cách mà các doanh nghiệp có thể kết hợp công nghệ deep learning trong khi chỉ có quyền truy cập vào dữ liệu nhỏ.

#1- Tinh chỉnh mô hình cơ sở:

Như chúng tôi đã đề cập ở trên, bước đầu tiên mà các doanh nghiệp cần thực hiện sau khi đã xây dựng một mô hình deep learning cơ bản đơn giản là tinh chỉnh chúng cho vấn đề cụ thể tại hand.

Tuy nhiên, việc tinh chỉnh một mô hình cơ sở nghe có vẻ khó hơn trên giấy so với thực tế. Ý tưởng cơ bản đằng sau việc tinh chỉnh một tập dữ liệu lớn để đáp ứng nhu cầu cụ thể của một doanh nghiệp là đơn giản – bạn lấy một tập dữ liệu lớn, có một số điểm tương đồng với lĩnh vực bạn hoạt động, và sau đó tinh chỉnh các chi tiết của tập dữ liệu ban đầu với dữ liệu nhỏ của bạn.

Về việc thu được tập dữ liệu lớn, các chủ doanh nghiệp có thể dựa vào ImageNet, cung cấp một giải pháp dễ dàng cho các vấn đề phân loại hình ảnh. Tập dữ liệu được lưu trữ bởi ImageNet cho phép các tổ chức truy cập vào hàng triệu hình ảnh, được chia thành nhiều lớp hình ảnh, có thể hữu ích cho các doanh nghiệp từ nhiều lĩnh vực khác nhau, bao gồm nhưng không giới hạn ở hình ảnh động vật, v.v.

Nếu quá trình tinh chỉnh một mô hình đã được đào tạo trước để phù hợp với nhu cầu cụ thể của tổ chức của bạn vẫn còn quá khó, chúng tôi khuyên bạn nên tìm kiếm sự giúp đỡ từ internet, vì một tìm kiếm đơn giản trên Google sẽ cung cấp cho bạn hàng trăm hướng dẫn về cách tinh chỉnh một tập dữ liệu.

#2- Thu thập thêm dữ liệu:

Mặc dù điểm thứ hai trong danh sách của chúng tôi có thể có vẻ thừa thãi đối với một số độc giả hoài nghi của chúng tôi, nhưng thực tế vẫn còn – khi nói đến deep learning, tập dữ liệu của bạn càng lớn, bạn càng có nhiều khả năng đạt được kết quả chính xác hơn.

Mặc dù bản chất của bài viết này nằm ở việc cung cấp cho các doanh nghiệp với một tập dữ liệu nhỏ, chúng tôi đã gặp phải quá nhiều “người đứng đầu”, những người coi việc đầu tư vào việc thu thập dữ liệu tương đương với việc phạm một tội lỗi.

Thật không may, các doanh nghiệp thường bỏ qua lợi ích của deep learning chỉ vì họ không muốn đầu tư thời gian và công sức vào việc thu thập dữ liệu. Nếu doanh nghiệp của bạn không chắc chắn về số lượng dữ liệu cần thu thập, chúng tôi khuyên bạn nên vẽ các đường cong học tập, khi dữ liệu bổ sung được tích hợp vào mô hình, và quan sát sự thay đổi trong hiệu suất của mô hình.

Trái với niềm tin phổ biến được nhiều CSO và CISO nắm giữ, đôi khi cách tốt nhất để giải quyết vấn đề là thông qua việc thu thập thêm dữ liệu liên quan. Vai trò của CSO và CISO rất quan trọng trong trường hợp này vì luôn có nguy cơ bị tấn công mạng. Người ta đã phát hiện ra rằng vào năm 2019, tổng chi tiêu toàn cầu cho an ninh mạng lên tới 103,1 tỷ đô la, và con số này tiếp tục tăng. Để đưa ra một ví dụ đơn giản – hãy tưởng tượng bạn đang cố gắng phân loại kim cương hiếm, nhưng chỉ có quyền truy cập vào một tập dữ liệu nhỏ. Như giải pháp rõ ràng nhất cho vấn đề này, thay vì chơi với mô hình cơ sở, hãy thu thập thêm dữ liệu!

#3- Tăng cường dữ liệu:

Mặc dù hai điểm đầu tiên chúng tôi đã thảo luận ở trên đều rất hiệu quả trong việc cung cấp một giải pháp dễ dàng cho hầu hết các vấn đề xung quanh việc triển khai deep learning vào các doanh nghiệp với một tập dữ liệu nhỏ, chúng phụ thuộc rất nhiều vào may mắn để giải quyết công việc.

Nếu bạn không thể thành công với việc tinh chỉnh một tập dữ liệu đã tồn tại, chúng tôi khuyên bạn nên thử tăng cường dữ liệu. Cách tăng cường dữ liệu rất đơn giản. Thông qua quá trình tăng cường dữ liệu, tập dữ liệu đầu vào được thay đổi, hoặc tăng cường, theo cách mà nó cung cấp một đầu ra mới, mà không thực sự thay đổi giá trị nhãn.

Để đưa ra ý tưởng về tăng cường dữ liệu cho các độc giả của chúng tôi, hãy xem xét một bức ảnh của một con chó. Khi xoay, người xem ảnh sẽ vẫn có thể nhận ra đó là một bức ảnh của một con chó. Đây chính xác là những gì tăng cường dữ liệu tốt hy vọng đạt được, so với một bức ảnh của một con đường được xoay, thay đổi góc độ và để lại nhiều không gian cho thuật toán deep learning đi đến một kết luận không chính xác, và thất bại trong việc triển khai deep learning.

Khi nói đến việc giải quyết các vấn đề liên quan đến phân loại hình ảnh, tăng cường dữ liệu đóng vai trò quan trọng trong lĩnh vực này và tổ chức nhiều kỹ thuật tăng cường dữ liệu giúp mô hình deep learning có được sự hiểu biết sâu sắc về các phân loại hình ảnh khác nhau.

Hơn nữa, khi nói đến việc tăng cường dữ liệu – các khả năng gần như vô tận. Các doanh nghiệp có thể triển khai tăng cường dữ liệu theo nhiều cách, bao gồm NLP, và thử nghiệm GAN, cho phép thuật toán tạo ra dữ liệu mới.

#4- Triển khai hiệu ứng ensemble:

Công nghệ đằng sau deep learning quy định rằng mạng được xây dựng trên nhiều lớp. Tuy nhiên, trái với niềm tin phổ biến được nhiều người nắm giữ, thay vì xem mỗi lớp như một “hàng tăng dần” của các tính năng, lớp cuối cùng phục vụ mục đích cung cấp một cơ chế ensemble.

Niềm tin rằng các doanh nghiệp có quyền truy cập vào một tập dữ liệu nhỏ nên chọn xây dựng mạng của họ sâu cũng được chia sẻ trong một bài viết NIPs, phản ánh niềm tin chúng tôi đã thể hiện ở trên. Các doanh nghiệp với dữ liệu nhỏ có thể dễ dàng thao túng hiệu ứng ensemble để có lợi, bằng cách xây dựng mạng deep learning của họ sâu, thông qua việc tinh chỉnh hoặc một số phương pháp thay thế.

#5- Kết hợp autoencoder:

Mặc dù điểm thứ năm chúng tôi đã xem xét có nhận được một mức độ thành công tương đối – chúng tôi vẫn ủng hộ việc sử dụng autoencoder để tiền huấn luyện một mạng và khởi tạo mạng một cách chính xác.

Một trong những lý do lớn nhất, ngoài các cuộc tấn công mạng, tại sao các doanh nghiệp không thể vượt qua các rào cản ban đầu của việc tích hợp deep learning là do khởi tạo kém, và nhiều điểm yếu của nó. Huấn luyện không giám sát thường dẫn đến việc thực hiện kém, hoặc không chính xác, công nghệ deep learning, nơi autoencoder có thể tỏa sáng.

Ý tưởng cơ bản đằng sau một mạng nơ-ron quy định việc tạo ra một mạng nơ-ron dự đoán bản chất của tập dữ liệu đầu vào. Nếu bạn không chắc chắn về cách sử dụng autoencoder, có nhiều hướng dẫn trực tuyến cung cấp hướng dẫn rõ ràng.

Kết luận:

Vào cuối bài viết, chúng tôi muốn nhắc lại những gì chúng tôi đã nói trong suốt bài viết, với một bổ sung – kết hợp kiến thức lĩnh vực cụ thể vào quá trình học! Không chỉ việc kết hợp kiến thức quý giá giúp tăng tốc quá trình học, mà nó cũng cho phép công nghệ deep learning tạo ra kết quả tốt hơn và chính xác hơn.

Rebecca là một nhà báo an ninh mạng nhiệt tình, một người lãnh đạo đội sáng tạo và biên tập của PrivacyCrypts.