Phỏng vấn
Dr. Mike Flaxman, VP của Sản phẩm tại HEAVY.AI – Loạt Phỏng vấn

Dr. Mike Flaxman hiện là VP của Sản phẩm tại HEAVY.AI, trước đó từng là Quản lý Sản phẩm và lãnh đạo Thực hành Khoa học Dữ liệu Không gian trong Dịch vụ Chuyên nghiệp. Ông đã dành 20 năm qua làm việc trong lĩnh vực quy hoạch môi trường không gian. Trước khi gia nhập HEAVY.AI, ông đã thành lập Geodesign Technologies, Inc và đồng sáng lập GeoAdaptive LLC, hai công ty khởi nghiệp áp dụng công nghệ phân tích không gian vào quy hoạch. Trước khi tham gia vào khởi nghiệp, ông là giáo sư quy hoạch tại MIT và Quản lý Ngành tại ESRI.
HEAVY.AI là một nền tảng tăng tốc phần cứng cho phân tích dữ liệu thời gian thực, tác động cao. Nó tận dụng cả xử lý GPU và CPU để truy vấn các tập dữ liệu lớn nhanh chóng, với hỗ trợ cho SQL và dữ liệu không gian. Nền tảng này bao gồm các công cụ phân tích trực quan cho bảng điều khiển tương tác, lọc chéo và trực quan hóa dữ liệu có thể mở rộng, cho phép phân tích dữ liệu lớn hiệu quả trên các ngành công nghiệp khác nhau.
Bạn có thể cho chúng tôi biết về nền tảng chuyên môn và điều gì đã dẫn bạn đến với HEAVY.AI?
Trước khi gia nhập HEAVY.AI, tôi đã dành nhiều năm trong lĩnh vực học thuật, cuối cùng là giảng dạy phân tích không gian tại MIT. Tôi cũng đã điều hành một công ty tư vấn nhỏ, với nhiều khách hàng thuộc lĩnh vực công. Tôi đã tham gia vào các dự án GIS trên 17 quốc gia. Công việc của tôi đã đưa tôi từ tư vấn cho các tổ chức như Ngân hàng Phát triển Liên Mỹ đến quản lý công nghệ GIS cho kiến trúc, kỹ thuật và xây dựng tại ESRI, nhà phát triển GIS lớn nhất thế giới.
Tôi nhớ rõ lần đầu tiên tôi gặp gỡ HEAVY.AI, khi tôi là một nhà tư vấn và chịu trách nhiệm lập kế hoạch kịch bản cho Chương trình Bảo tồn Habitats Bãi biển Florida. Đồng nghiệp của tôi và tôi đã gặp khó khăn trong việc xây dựng mô hình栖息地 của rùa biển bằng cách sử dụng dữ liệu Landsat 30m và một người bạn đã chỉ cho tôi một số dữ liệu mới và rất liên quan – LiDAR 5cm. Đó chính xác là những gì chúng tôi cần về mặt khoa học, nhưng điều đó giống như lớn hơn 3600 lần so với những gì chúng tôi đã lên kế hoạch sử dụng. Không ai sẽ tăng ngân sách của tôi lên thậm chí một phần nhỏ của số đó. Vì vậy, vào ngày đó, tôi đã đặt xuống các công cụ tôi đã sử dụng và dạy trong vài thập kỷ và đi tìm kiếm điều gì đó mới. HEAVY.AI đã cắt qua và hiển thị dữ liệu đó một cách mượt mà và không cần thiết, vì vậy tôi đã bị thu hút ngay lập tức.
Tăng tốc một vài năm, và tôi vẫn nghĩ những gì HEAVY.AI làm là khá độc đáo và đặt cược sớm vào phân tích GPU là chính xác nơi ngành công nghiệp vẫn cần đi. HEAVY.AI tập trung vững chắc vào việc dân chủ hóa quyền truy cập vào dữ liệu lớn. Điều này có thành phần về khối lượng dữ liệu và tốc độ xử lý, về cơ bản cung cấp cho mọi người siêu máy tính của riêng họ. Nhưng một khía cạnh ngày càng quan trọng với sự ra đời của các mô hình ngôn ngữ lớn là làm cho mô hình không gian trở nên dễ tiếp cận hơn với nhiều người. Những ngày này, thay vì dành nhiều năm để học một giao diện phức tạp với hàng nghìn công cụ, bạn chỉ cần bắt đầu một cuộc trò chuyện với HEAVY.AI bằng ngôn ngữ của con người. Chương trình không chỉ tạo ra các lệnh cần thiết mà còn trình bày các trực quan hóa liên quan.
Đằng sau những cảnh, việc cung cấp sự dễ sử dụng là rất khó. Hiện tại, với tư cách là VP Quản lý Sản phẩm tại HEAVY.AI, tôi tham gia sâu vào việc xác định các tính năng và khả năng mà chúng tôi ưu tiên cho sản phẩm của mình. Nền tảng chuyên môn rộng lớn của tôi trong GIS cho phép tôi thực sự hiểu nhu cầu của khách hàng và hướng dẫn lộ trình phát triển của chúng tôi theo đó.
Làm thế nào kinh nghiệm trước đây của bạn trong quy hoạch môi trường không gian và khởi nghiệp đã ảnh hưởng đến công việc của bạn tại HEAVY.AI?
Quy hoạch môi trường là một lĩnh vực đặc biệt thách thức vì bạn cần phải tính đến cả nhu cầu của con người và thế giới tự nhiên. Giải pháp chung tôi đã học được là kết hợp một phương pháp gọi là quy hoạch tham gia, với công nghệ cảm biến từ xa và GIS. Trước khi quyết định một kế hoạch hành động, chúng tôi sẽ tạo ra nhiều kịch bản và mô phỏng tác động tích cực và tiêu cực của chúng trên máy tính bằng cách sử dụng trực quan hóa. Sử dụng quy trình tham gia cho phép chúng tôi kết hợp các hình thức chuyên môn khác nhau và giải quyết các vấn đề rất phức tạp.
Mặc dù chúng tôi không thường làm quy hoạch môi trường tại HEAVY.AI, nhưng mẫu này vẫn hoạt động rất tốt trong môi trường kinh doanh. Vì vậy, chúng tôi giúp khách hàng xây dựng các bản sao số của các phần chính của doanh nghiệp và cho phép họ tạo và đánh giá các kịch bản kinh doanh nhanh chóng.
Tôi giả sử rằng kinh nghiệm giảng dạy của tôi đã mang lại cho tôi sự đồng cảm sâu sắc với người dùng phần mềm, đặc biệt là các hệ thống phức tạp. Ở nơi một sinh viên vấp ngã ở một điểm là ngẫu nhiên, nhưng nơi hàng chục hoặc hàng trăm người mắc lỗi tương tự, bạn biết bạn đã có một vấn đề thiết kế. Có lẽ phần yêu thích nhất của thiết kế phần mềm là lấy những hiểu biết này và áp dụng chúng vào thiết kế các hệ thống mới.
Bạn có thể giải thích cách HeavyIQ tận dụng xử lý ngôn ngữ tự nhiên để tạo điều kiện cho việc khám phá và trực quan hóa dữ liệu?
Những ngày này, dường như mọi người và anh em họ đều đang quảng cáo một mô hình AI mới, hầu hết trong số họ là những bản sao không đáng nhớ của nhau. Chúng tôi đã đi theo một con đường rất khác. Chúng tôi tin rằng độ chính xác, khả năng tái tạo và quyền riêng tư là các đặc điểm thiết yếu cho bất kỳ công cụ phân tích kinh doanh nào, bao gồm cả những công cụ được tạo ra với các mô hình ngôn ngữ lớn (LLM). Vì vậy, chúng tôi đã xây dựng những điều này vào trong sản phẩm của mình ở mức cơ bản. Ví dụ, chúng tôi hạn chế nghiêm ngặt đầu vào của mô hình chỉ cho các cơ sở dữ liệu doanh nghiệp và cung cấp tài liệu bên trong hàng rào bảo mật của doanh nghiệp. Chúng tôi cũng hạn chế đầu ra chỉ cho HeavySQL và Charts mới nhất. Điều đó có nghĩa là bất kể câu hỏi bạn đặt ra, chúng tôi sẽ cố gắng trả lời bằng dữ liệu của bạn và chúng tôi sẽ hiển thị chính xác cách chúng tôi suy dẫn ra câu trả lời đó.
Với những bảo đảm này, điều đó không quan trọng lắm đối với khách hàng của chúng tôi chính xác cách chúng tôi xử lý các truy vấn. Nhưng đằng sau những cảnh, một sự khác biệt quan trọng khác so với AI tiêu dùng là chúng tôi tinh chỉnh các mô hình rộng rãi chống lại các loại câu hỏi mà người dùng kinh doanh đặt ra cho dữ liệu kinh doanh, bao gồm cả dữ liệu không gian. Vì vậy, ví dụ, mô hình của chúng tôi rất giỏi trong việc thực hiện các phép kết hợp không gian và chuỗi thời gian, những thứ không có trong các chuẩn mực SQL cổ điển nhưng người dùng của chúng tôi sử dụng hàng ngày.
Chúng tôi đóng gói các khả năng cốt lõi này vào một giao diện Notebook mà chúng tôi gọi là HeavyIQ. IQ là về việc làm cho việc khám phá và trực quan hóa dữ liệu trở nên trực quan nhất có thể bằng cách sử dụng xử lý ngôn ngữ tự nhiên (NLP). Bạn đặt một câu hỏi bằng tiếng Anh – như “Các mẫu thời tiết ở California trong tuần qua là gì?” – và HeavyIQ dịch câu hỏi đó thành các truy vấn SQL mà cơ sở dữ liệu tăng tốc GPU của chúng tôi xử lý nhanh chóng. Kết quả được trình bày không chỉ dưới dạng dữ liệu mà còn dưới dạng trực quan hóa – bản đồ, biểu đồ, bất cứ thứ gì liên quan nhất. Điều đó là về việc cho phép truy vấn tương tác nhanh, đặc biệt là khi xử lý các tập dữ liệu lớn hoặc di chuyển nhanh.
Điều gì là lợi ích chính của việc sử dụng HeavyIQ so với các công cụ BI truyền thống cho các công ty viễn thông, tiện ích và cơ quan chính phủ?
HeavyIQ vượt trội trong các môi trường mà bạn đang xử lý dữ liệu quy mô lớn, tốc độ cao – chính xác là loại dữ liệu mà các công ty viễn thông, tiện ích và cơ quan chính phủ xử lý. Các công cụ kinh doanh thông minh truyền thống thường gặp khó khăn với khối lượng và tốc độ của dữ liệu này. Ví dụ, trong viễn thông, bạn có thể có hàng tỷ bản ghi cuộc gọi, nhưng đó là một phần nhỏ của các cuộc gọi bị rớt mà bạn cần tập trung vào. HeavyIQ cho phép bạn sàng lọc qua dữ liệu đó 10 đến 100 lần nhanh hơn nhờ vào cơ sở hạ tầng GPU của chúng tôi. Tốc độ này, kết hợp với khả năng truy vấn và trực quan hóa dữ liệu tương tác, làm cho nó vô giá cho phân tích rủi ro trong tiện ích hoặc lập kế hoạch kịch bản thời gian thực cho các cơ quan chính phủ.
Lợi thế khác đã được đề cập ở trên là các truy vấn SQL không gian và thời gian cực kỳ mạnh mẽ về mặt phân tích – nhưng có thể chậm hoặc khó viết bằng tay. Khi một hệ thống hoạt động ở mức chúng tôi gọi là “tốc độ tò mò”, người dùng có thể đặt cả câu hỏi nhiều hơn và câu hỏi tinh vi hơn. Vì vậy, ví dụ, một kỹ sư viễn thông có thể nhận thấy một sự tăng đột ngột về thời gian của các sự cố thiết bị từ một hệ thống giám sát, có trực giác rằng có điều gì đó sai trái tại một cơ sở cụ thể và kiểm tra điều này với một truy vấn không gian trả về một bản đồ.
Những biện pháp nào được thực hiện để ngăn chặn sự rò rỉ của siêu dữ liệu khi sử dụng HeavyIQ?
Như đã mô tả ở trên, chúng tôi đã xây dựng HeavyIQ với quyền riêng tư và bảo mật ở mức cốt lõi. Điều này bao gồm không chỉ dữ liệu mà còn nhiều loại siêu dữ liệu. Chúng tôi sử dụng siêu dữ liệu cấp cột và bảng rộng rãi trong việc xác định các bảng và cột chứa thông tin cần thiết để trả lời một truy vấn. Chúng tôi cũng sử dụng tài liệu nội bộ của công ty, nơi được cung cấp, để hỗ trợ trong việc tạo ra một mô hình được gọi là retrieval-augmented generation (RAG). Cuối cùng, các mô hình ngôn ngữ tự nhiên tạo ra siêu dữ liệu thêm. Tất cả những điều này, nhưng đặc biệt là hai điều cuối cùng, có thể có độ nhạy cao về kinh doanh.
Không giống như các mô hình của bên thứ ba, nơi dữ liệu của bạn thường được gửi đến các máy chủ bên ngoài, HeavyIQ chạy cục bộ trên cùng cơ sở hạ tầng GPU với phần còn lại của nền tảng của chúng tôi. Điều này đảm bảo rằng dữ liệu và siêu dữ liệu của bạn vẫn dưới sự kiểm soát của bạn, không có rủi ro về sự rò rỉ. Đối với các tổ chức yêu cầu mức bảo mật cao nhất, HeavyIQ thậm chí có thể được triển khai trong một môi trường hoàn toàn cách ly, đảm bảo rằng thông tin nhạy cảm không bao giờ rời khỏi thiết bị cụ thể.
Làm thế nào HEAVY.AI đạt được hiệu suất cao và khả năng mở rộng với các tập dữ liệu lớn bằng cách sử dụng cơ sở hạ tầng GPU?
Bí quyết cơ bản là tránh việc di chuyển dữ liệu phổ biến trong các hệ thống khác. Ở cốt lõi, điều này bắt đầu với một cơ sở dữ liệu được thiết kế từ đầu để chạy trên GPU của NVIDIA. Chúng tôi đã làm việc trên điều này trong hơn 10 năm và chúng tôi thực sự tin rằng chúng tôi có giải pháp hàng đầu về phân tích tăng tốc GPU.
Ngay cả các hệ thống dựa trên CPU tốt nhất cũng cạn kiệt hơi lâu trước khi một GPU tầm trung. Chiến lược một khi điều này xảy ra trên CPU đòi hỏi phân phối dữ liệu trên nhiều lõi và sau đó trên nhiều hệ thống (được gọi là “tăng quy mô ngang”). Điều này hoạt động tốt trong một số ngữ cảnh nơi mọi thứ ít quan trọng về thời gian, nhưng nói chung bắt đầu bị tắc nghẽn về hiệu suất mạng.
Ngoài việc tránh di chuyển dữ liệu trên các truy vấn, chúng tôi cũng tránh nó trên nhiều nhiệm vụ chung khác. Đầu tiên là chúng tôi có thể hiển thị đồ họa mà không cần di chuyển dữ liệu. Sau đó, nếu bạn muốn mô hình hóa suy luận ML, chúng tôi lại làm điều đó mà không cần di chuyển dữ liệu. Và nếu bạn hỏi dữ liệu bằng một mô hình ngôn ngữ lớn, chúng tôi một lần nữa làm điều đó mà không cần di chuyển dữ liệu. Thậm chí nếu bạn là một nhà khoa học dữ liệu và muốn hỏi dữ liệu từ Python, chúng tôi lại cung cấp các phương pháp để làm điều đó trên GPU mà không cần di chuyển dữ liệu.
Điều đó có nghĩa là trong thực tế, chúng tôi có thể thực hiện không chỉ các truy vấn mà còn việc hiển thị 10 đến 100 lần nhanh hơn so với các cơ sở dữ liệu và máy chủ bản đồ dựa trên CPU truyền thống. Khi bạn đang xử lý các tập dữ liệu lớn, tốc độ cao mà khách hàng của chúng tôi làm việc – như các mô hình thời tiết, hồ sơ cuộc gọi viễn thông hoặc hình ảnh vệ tinh – thì mức tăng hiệu suất như vậy là vô cùng quan trọng.
Làm thế nào HEAVY.AI duy trì lợi thế cạnh tranh trong cảnh quan phân tích dữ liệu lớn và AI đang thay đổi nhanh chóng?
Đó là một câu hỏi tuyệt vời và đó là điều chúng tôi nghĩ về liên tục. Cảnh quan của phân tích dữ liệu lớn và AI đang thay đổi với tốc độ cực kỳ nhanh, với những đột phá và đổi mới mới xảy ra mọi lúc. Điều này chắc chắn không gây hại khi chúng tôi có một lợi thế 10 năm về công nghệ cơ sở dữ liệu GPU.
Tôi nghĩ rằng chìa khóa cho chúng tôi là tập trung vào sứ mệnh cốt lõi – dân chủ hóa quyền truy cập vào dữ liệu lớn, không gian. Điều đó có nghĩa là liên tục đẩy ranh giới của những gì có thể với phân tích tăng tốc GPU và đảm bảo sản phẩm của chúng tôi cung cấp hiệu suất và khả năng không thể sánh được trong lĩnh vực này. Một phần lớn trong đó là khoản đầu tư liên tục của chúng tôi vào việc phát triển các mô hình ngôn ngữ tùy chỉnh, thực sự hiểu được sự tinh tế của SQL không gian và phân tích không gian.
Chúng tôi đã xây dựng một thư viện đào tạo rộng lớn, vượt ra ngoài các chuẩn mực chung, để đảm bảo các công cụ phân tích đối thoại của chúng tôi có thể tham gia với người dùng theo cách tự nhiên, trực quan. Nhưng chúng tôi cũng biết rằng công nghệ đơn thuần là không đủ. Chúng tôi phải gắn bó chặt chẽ với khách hàng và nhu cầu thay đổi của họ. Về cơ bản, lợi thế cạnh tranh của chúng tôi phụ thuộc vào việc chúng tôi tập trung không ngừng vào việc cung cấp giá trị chuyển đổi cho người dùng. Chúng tôi không chỉ theo kịp thị trường – chúng tôi đang đẩy ranh giới của những gì có thể với dữ liệu lớn và AI. Và chúng tôi sẽ tiếp tục làm như vậy, bất kể cảnh quan thay đổi nhanh như thế nào.
Làm thế nào HEAVY.AI hỗ trợ nỗ lực ứng phó khẩn cấp thông qua HeavyEco?
Chúng tôi đã xây dựng HeavyEco khi chúng tôi thấy một số khách hàng lớn nhất của mình gặp khó khăn đáng kể chỉ trong việc tiêu thụ các đầu ra mô hình thời tiết hiện tại, cũng như trực quan hóa chúng cho các so sánh chung. Đó là mất tới bốn giờ để chỉ tải dữ liệu và khi bạn đối mặt với các điều kiện thời tiết cực đoan di chuyển nhanh như lửa… điều đó không tốt.
HeavyEco được thiết kế để cung cấp thông tin theo thời gian thực trong các tình huống có hậu quả cao, như trong một đám cháy rừng hoặc lũ lụt. Trong những tình huống như vậy, bạn cần đưa ra quyết định nhanh chóng và dựa trên dữ liệu tốt nhất có thể. Vì vậy, HeavyEco trước hết là một đường ống dữ liệu được quản lý chuyên nghiệp cho các mô hình có thẩm quyền như những mô hình từ NOAA và USGS. Trên những điều đó, HeavyEco cho phép bạn chạy các kịch bản, xây dựng các tác động đến từng tòa nhà và trực quan hóa dữ liệu theo thời gian thực. Điều này cung cấp cho những người ứng phó đầu tiên thông tin quan trọng họ cần khi nó quan trọng nhất. Đó là về việc chuyển đổi các tập dữ liệu lớn, phức tạp thành thông tin có thể hành động, có thể hướng dẫn việc ra quyết định ngay lập tức.
Cuối cùng, mục tiêu của chúng tôi là cung cấp cho người dùng khả năng khám phá dữ liệu của họ với tốc độ suy nghĩ. Dù họ đang chạy các mô hình không gian phức tạp, so sánh dự báo thời tiết hay cố gắng xác định các mẫu trong chuỗi thời gian không gian, chúng tôi muốn họ có thể làm điều đó một cách mượt mà, không có rào cản kỹ thuật nào cản trở họ.
Điều gì phân biệt LLM độc quyền của HEAVY.AI với các LLM của bên thứ ba khác về độ chính xác và hiệu suất?
LLM độc quyền của chúng tôi được tinh chỉnh cụ thể cho các loại phân tích chúng tôi tập trung vào – như text-to-SQL và text-to-trực quan hóa. Chúng tôi ban đầu đã thử các mô hình truyền thống của bên thứ ba, nhưng phát hiện ra chúng không đáp ứng được các yêu cầu về độ chính xác cao của người dùng, những người thường đưa ra quyết định quan trọng. Vì vậy, chúng tôi đã tinh chỉnh một loạt các mô hình mã nguồn mở và kiểm tra chúng chống lại các chuẩn mực của ngành.
LLM của chúng tôi chính xác hơn nhiều cho các khái niệm SQL tiên tiến mà người dùng của chúng tôi cần, đặc biệt là trong dữ liệu không gian và thời gian. Ngoài ra, vì nó chạy trên cơ sở hạ tầng GPU của chúng tôi, nó cũng bảo mật hơn.
Ngoài các khả năng của mô hình tích hợp, chúng tôi cũng cung cấp một giao diện người dùng tương tác đầy đủ cho các quản trị viên và người dùng để thêm siêu dữ liệu liên quan đến lĩnh vực hoặc kinh doanh. Ví dụ, nếu mô hình cơ bản không hoạt động như mong đợi, bạn có thể nhập hoặc điều chỉnh siêu dữ liệu cấp cột, hoặc thêm thông tin hướng dẫn và nhận lại phản hồi ngay lập tức.
Làm thế nào HEAVY.AI hình dung vai trò của phân tích dữ liệu không gian và thời gian trong việc định hình tương lai của các ngành công nghiệp khác nhau?
Chúng tôi tin rằng phân tích dữ liệu không gian và thời gian sẽ vô cùng quan trọng cho tương lai của nhiều ngành công nghiệp. Điều chúng tôi tập trung vào thực sự là giúp khách hàng đưa ra quyết định tốt hơn, nhanh hơn. Dù bạn có đang ở trong lĩnh vực viễn thông, tiện ích hay chính phủ, hay các lĩnh vực khác – việc có khả năng phân tích và trực quan hóa dữ liệu theo thời gian thực có thể là một yếu tố thay đổi cuộc chơi.
Sứ mệnh của chúng tôi là làm cho loại phân tích mạnh mẽ này trở nên dễ tiếp cận với mọi người, không chỉ những người chơi lớn có tài nguyên khổng lồ. Chúng tôi muốn đảm bảo rằng khách hàng của chúng tôi có thể tận dụng dữ liệu mà họ có, để ở vị trí dẫn đầu và giải quyết vấn đề khi chúng phát sinh. Khi dữ liệu tiếp tục phát triển và trở nên phức tạp hơn, chúng tôi thấy vai trò của mình là đảm bảo rằng các công cụ của chúng tôi phát triển cùng với nó, vì vậy khách hàng của chúng tôi luôn được chuẩn bị cho những gì tiếp theo.
Cảm ơn vì cuộc phỏng vấn tuyệt vời, những người đọc muốn tìm hiểu thêm nên truy cập HEAVY.AI.












