Connect with us

Lãnh đạo tư tưởng

Kích hoạt Triển khai Trí tuệ Nhân tạo trong Thế giới Thực trên Quy mô Lớn

mm

By Brad King, field CTO, Scality

Các công cụ của AI/ML và dữ liệu lớn có một điểm chung – chúng cần dữ liệu, và chúng cần rất nhiều dữ liệu. Sự khôn ngoan thông thường cho rằng càng nhiều càng tốt. Các nhà phân tích dự đoán rằng việc tạo ra dữ liệu toàn cầu sẽ tăng lên hơn 180 zettabytes vào năm 2025 – và vào năm 2020, lượng dữ liệu được tạo ra và sao chép đã đạt mức cao mới là 64,2 zettabytes.

Dữ liệu này cực kỳ có giá trị – thường không thể thay thế và đôi khi đại diện cho các sự kiện một lần hoặc một lần trong đời. Dữ liệu này cần được lưu trữ an toàn và bảo mật; và trong khi người ta ước tính rằng chỉ một tỷ lệ nhỏ dữ liệu mới được tạo ra này được giữ lại, nhu cầu về dung lượng lưu trữ vẫn tiếp tục tăng. Trên thực tế, cơ sở cài đặt dung lượng lưu trữ dự kiến sẽ tăng với tốc độ tăng trưởng hàng năm hợp chất là 19,2% giữa năm 2020 và 2025, theo các nhà nghiên cứu tại Statista.

Với nhiều dữ liệu được tạo ra – đặc biệt là bởi các công việc AI/ML – các tổ chức cần nhiều lưu trữ hơn, nhưng không tất cả các giải pháp lưu trữ đều có thể xử lý các công việc nặng và khổng lồ này. Điều cần thiết là một cách tiếp cận mới để lưu trữ. Hãy xem cách các tổ chức đang vượt qua những thách thức này thông qua ống kính của ba trường hợp sử dụng.

Ngành công nghiệp du lịch

Trong khi nhiều người trong chúng ta chỉ mới quen với việc đi du lịch lại sau hơn một năm bị khóa, ngành công nghiệp du lịch đang tìm cách trở lại thời kỳ trước đại dịch một cách lớn. Và điều này làm cho tầm quan trọng của dữ liệu – đặc biệt là ứng dụng và sử dụng dữ liệu có liên quan – trở nên quan trọng hơn.

Hãy tưởng tượng những gì bạn có thể làm với kiến thức về nơi mà đa số du khách hàng không trên thế giới sẽ đi du lịch tiếp theo hoặc nơi họ sẽ đi vào ngày mai. Đối với một cơ quan du lịch, chẳng hạn, điều đó sẽ rất lớn.

Nhưng các tổ chức du lịch này đang phải đối mặt với rất nhiều dữ liệu mà việc phân loại chúng để tìm ra những gì có ý nghĩa là một viễn cảnh áp đảo. Khoảng một petabyte dữ liệu được tạo ra mỗi ngày, và một số dữ liệu được sao chép bởi các trang web như Kayak. Dữ liệu này rất nhạy cảm với thời gian, và các công ty du lịch cần nhanh chóng phát hiện ra những dữ liệu nào có ý nghĩa. Họ cần một công cụ để có thể quản lý mức độ quy mô này một cách hiệu quả hơn.

Ngành công nghiệp ô tô

Một ví dụ khác đến từ ngành công nghiệp ô tô, chắc chắn là một trong những trường hợp sử dụng được nói đến nhiều nhất. Ngành công nghiệp này đã làm việc chăm chỉ trong một thời gian dài với các công cụ hỗ trợ như giữ làn đường, tránh va chạm và các công cụ khác. Tất cả các cảm biến này đang đưa vào lượng dữ liệu khổng lồ. Và,当然, họ đang phát triển, thử nghiệm và xác minh các thuật toán tự lái.

Điều mà ngành công nghiệp cần là một cách tốt hơn để hiểu dữ liệu được lưu trữ này để họ có thể sử dụng nó để phân tích các sự cố nơi mà điều gì đó đã đi sai, thu thập đầu ra cảm biến như một trường hợp thử nghiệm, thử nghiệm thuật toán chống lại dữ liệu cảm biến và hơn thế nữa. Họ cần thử nghiệm QA để tránh suy giảm, và họ cần ghi lại các trường hợp thất bại.

Đường huyết học số

Một trường hợp sử dụng khác thú vị cho AI/ML cũng đang vật lộn với lũ lụt dữ liệu và nhu cầu sử dụng dữ liệu tốt hơn là đường huyết học số. Giống như các ví dụ khác, những gì họ thực sự cần là khả năng sử dụng tốt hơn dữ liệu này để họ có thể làm những việc như tự động phát hiện bệnh lý trong các mẫu mô, thực hiện chẩn đoán từ xa và như vậy.

Nhưng lưu trữ ngày nay đang hạn chế việc sử dụng. Các hình ảnh có độ phân giải hữu ích quá lớn để lưu trữ một cách kinh tế. Tuy nhiên, lưu trữ đối tượng nhanh sẽ cho phép các khả năng mới – như ngân hàng hình ảnh có thể được sử dụng như một nguồn đào tạo chính và sử dụng các đường cong lấp đầy không gian để đặt tên/lưu trữ và lấy lại hình ảnh đa phân giải trong một cửa hàng đối tượng. Nó cũng cho phép gắn thẻ siêu dữ liệu có thể mở rộng và linh hoạt, điều này làm cho việc tìm kiếm và hiểu thông tin này trở nên dễ dàng hơn.

Công việc AI yêu cầu một cách tiếp cận mới

Như chúng ta đã thấy trong ba trường hợp trên, điều quan trọng là phải có thể tổng hợp và điều phối lượng dữ liệu khổng lồ liên quan đến công việc AI/ML. Các tập dữ liệu thường đạt đến quy mô đa petabyte, với nhu cầu hiệu suất có thể làm cho toàn bộ cơ sở hạ tầng bị bão hòa. Khi xử lý các tập dữ liệu đào tạo và thử nghiệm lớn như vậy, việc vượt qua các nút thắt lưu trữ (vấn đề độ trễ và/hoặc thông lượng) và các hạn chế về dung lượng là những yếu tố quan trọng cho thành công.

Công việc AI/ML/DL yêu cầu một kiến trúc lưu trữ có thể giữ cho dữ liệu chảy qua đường ống, với cả hiệu suất I/O thô tuyệt vời và khả năng mở rộng dung lượng. Cơ sở hạ tầng lưu trữ phải theo kịp với các yêu cầu ngày càng đòi hỏi trên tất cả các giai đoạn của đường ống AI/ML/DL. Giải pháp là một cơ sở hạ tầng lưu trữ được xây dựng đặc biệt cho tốc độ và quy mô không giới hạn.

Trích xuất giá trị

Không một tuần nào trôi qua mà không có những câu chuyện về tiềm năng của AI và ML để thay đổi các quy trình kinh doanh và cuộc sống hàng ngày. Có nhiều trường hợp sử dụng rõ ràng chứng minh lợi ích của việc sử dụng những công nghệ này. Thực tế của AI trong doanh nghiệp ngày nay, tuy nhiên, là một tập hợp dữ liệu lớn và các giải pháp lưu trữ không thể quản lý các công việc nặng này. Các đổi mới trong ô tô, chăm sóc sức khỏe và nhiều ngành công nghiệp khác không thể tiến hành cho đến khi vấn đề lưu trữ được giải quyết. Lưu trữ đối tượng nhanh vượt qua thách thức của việc giữ lại dữ liệu lớn để các tổ chức có thể trích xuất giá trị từ dữ liệu này và đưa doanh nghiệp của họ tiến về phía trước.

Với vai trò là CTO phụ trách lĩnh vực, Brad King chịu trách nhiệm thiết kế các hệ thống lớn nhất mà Scality triển khai trên toàn thế giới. Những hệ thống này bao gồm các hệ thống đa petabyte, đa địa điểm với hàng trăm máy chủ. Brad là một trong những người đồng sáng lập của Scality. Ông bắt đầu sự nghiệp đa dạng của mình với vai trò kiến trúc sư hải quân trong hải quân Pháp, thực hiện mô phỏng số về việc lật tàu và sóng xung quanh các tàu lớn. Sau đó, ông gia nhập một phòng thí nghiệm nghiên cứu của Schlumberger tại Paris trong vài năm, nơi ông làm việc về động lực học chất lỏng xoáy, tự động hóa phòng thí nghiệm, mô phỏng số song song quy mô lớn và các công nghệ internet mới, bao gồm cả việc giám sát các dự án NCSA (như Mosaic) được tài trợ bởi Schlumberger.