Phỏng vấn
Xavier Conort, Đồng sáng lập và CPO của FeatureByte – Loạt phỏng vấn

Xavier Conort là một nhà khoa học dữ liệu có tầm nhìn với hơn 25 năm kinh nghiệm về dữ liệu. Ông bắt đầu sự nghiệp của mình với tư cách là một chuyên gia tính toán bảo hiểm trong ngành bảo hiểm trước khi chuyển sang lĩnh vực khoa học dữ liệu. Ông là một đối thủ cạnh tranh hàng đầu trên Kaggle và từng là Chief Data Scientist tại DataRobot trước khi đồng sáng lập FeatureByte.
FeatureByte đang trên một sứ mệnh để mở rộng trí tuệ nhân tạo doanh nghiệp, bằng cách đơn giản hóa và công nghiệp hóa dữ liệu AI. Nền tảng kỹ thuật và quản lý tính năng này cho phép các nhà khoa học dữ liệu tạo và chia sẻ các tính năng hiện đại và đường ống dữ liệu sẵn sàng sản xuất trong vài phút – thay vì vài tuần hoặc vài tháng.
Bạn bắt đầu sự nghiệp của mình với tư cách là một chuyên gia tính toán bảo hiểm trong ngành bảo hiểm trước khi chuyển sang lĩnh vực khoa học dữ liệu, điều gì gây ra sự thay đổi này?
Một khoảnh khắc quyết định là việc giành chiến thắng trong cuộc thi GE Flight Quest, một cuộc thi do GE tổ chức với giải thưởng 250.000 đô la, nơi các thí sinh phải dự đoán sự chậm trễ của các chuyến bay nội địa của Mỹ. Tôi nợ một phần thành công này cho một thực hành bảo hiểm quý giá: mô hình 2 giai đoạn. Cách tiếp cận này giúp kiểm soát thiên vị trong các tính năng thiếu đại diện đủ trong dữ liệu đào tạo có sẵn. Cùng với các chiến thắng khác trên Kaggle, thành tựu này đã thuyết phục tôi rằng nền tảng bảo hiểm của tôi đã mang lại cho tôi một lợi thế cạnh tranh trong lĩnh vực khoa học dữ liệu.
Trong hành trình Kaggle của tôi, tôi cũng có đặc quyền kết nối với các nhà khoa học dữ liệu khác, bao gồm Jeremy Achin và Tom De Godoy, những người sau này sẽ trở thành các nhà sáng lập của DataRobot. Chúng tôi chia sẻ một nền tảng chung trong ngành bảo hiểm và đã đạt được những thành công đáng kể trên Kaggle. Khi họ cuối cùng ra mắt DataRobot, một công ty chuyên về AutoML, họ đã mời tôi tham gia cùng họ với tư cách là Chief Data Scientist. Tầm nhìn của họ về việc kết hợp các phương pháp hay nhất từ ngành bảo hiểm với sức mạnh của học máy đã thu hút tôi, mang lại cơ hội tạo ra điều gì đó mới mẻ và có tác động.
Tại DataRobot và bạn đã đóng vai trò quan trọng trong việc xây dựng con đường khoa học dữ liệu của họ. Loại thách thức dữ liệu nào bạn đã đối mặt?
Thách thức lớn nhất chúng tôi đối mặt là chất lượng dữ liệu khác nhau được cung cấp làm đầu vào cho giải pháp AutoML của chúng tôi. Vấn đề này thường dẫn đến sự hợp tác tốn thời gian giữa nhóm của chúng tôi và khách hàng hoặc kết quả đáng thất vọng trong sản xuất nếu không được giải quyết đúng cách. Các vấn đề về chất lượng dữ liệu xuất phát từ nhiều nguồn khác nhau đòi hỏi sự chú ý của chúng tôi.
Một trong những thách thức chính phát sinh từ việc sử dụng các công cụ thông minh kinh doanh cho việc chuẩn bị và quản lý dữ liệu. Mặc dù các công cụ này rất quý giá để tạo ra thông tin, nhưng chúng thiếu khả năng đảm bảo tính chính xác tại thời điểm cho việc chuẩn bị dữ liệu học máy. Kết quả là, có thể xảy ra tình trạng rò rỉ trong dữ liệu đào tạo, dẫn đến việc học máy quá mức và hiệu suất mô hình không chính xác.
Sự không giao tiếp giữa các nhà khoa học dữ liệu và kỹ sư dữ liệu là một thách thức khác ảnh hưởng đến độ chính xác của mô hình trong quá trình sản xuất. Sự không nhất quán giữa giai đoạn đào tạo và sản xuất, phát sinh từ sự không phù hợp giữa hai nhóm này, có thể ảnh hưởng đến hiệu suất mô hình trong môi trường thực tế.
Điều gì là một số kết luận chính từ kinh nghiệm này?
Kinh nghiệm của tôi tại DataRobot đã nhấn mạnh tầm quan trọng của việc chuẩn bị dữ liệu trong học máy. Bằng cách giải quyết các thách thức của việc tạo dữ liệu đào tạo mô hình, chẳng hạn như tính chính xác tại thời điểm, khoảng trống chuyên môn, kiến thức lĩnh vực, hạn chế công cụ và khả năng mở rộng, chúng tôi có thể tăng cường độ chính xác và tin cậy của các mô hình học máy. Tôi đã đi đến kết luận rằng việc đơn giản hóa quá trình chuẩn bị dữ liệu và tích hợp các công nghệ mới sẽ là điều cần thiết để mở khóa toàn bộ tiềm năng của AI và thực hiện các lời hứa của nó.
Chúng tôi cũng đã nghe từ Đồng sáng lập của bạn Razi Raziuddin về câu chuyện khởi nguồn đằng sau FeatureByte, bạn có thể chia sẻ phiên bản của mình về sự kiện?
Khi tôi thảo luận về những quan sát và thông tin của mình với Đồng sáng lập Razi Raziuddin, chúng tôi nhận ra rằng chúng tôi chia sẻ một sự hiểu biết chung về các thách thức trong việc chuẩn bị dữ liệu cho học máy. Trong quá trình thảo luận, tôi đã chia sẻ với Razi những thông tin của mình về những tiến bộ gần đây trong cộng đồng MLOps. Tôi có thể quan sát sự xuất hiện của các cửa hàng tính năng và nền tảng tính năng mà các công ty công nghệ đầu tiên áp dụng để giảm độ trễ của dịch vụ tính năng, khuyến khích tái sử dụng tính năng hoặc đơn giản hóa việc vật chất hóa tính năng vào dữ liệu đào tạo trong khi đảm bảo tính nhất quán giữa đào tạo và phục vụ. Tuy nhiên, rõ ràng với chúng tôi rằng vẫn còn một khoảng trống trong việc đáp ứng nhu cầu của các nhà khoa học dữ liệu. Razi đã chia sẻ với tôi những thông tin của mình về cách ngăn xếp dữ liệu hiện đại đã cách mạng hóa BI và phân tích, nhưng không được tận dụng đầy đủ cho AI.
Điều này đã trở nên rõ ràng với cả Razi và tôi rằng chúng tôi có cơ hội tạo ra một tác động đáng kể bằng cách đơn giản hóa quá trình kỹ thuật tính năng một cách cơ bản và cung cấp cho các nhà khoa học dữ liệu và kỹ sư ML các công cụ và trải nghiệm người dùng phù hợp cho việc thí nghiệm tính năng và phục vụ tính năng không ngừng.
Điều gì là một số thách thức lớn nhất của bạn trong việc chuyển đổi từ nhà khoa học dữ liệu sang doanh nhân?
Quá trình chuyển đổi từ một nhà khoa học dữ liệu sang một doanh nhân đòi hỏi tôi phải thay đổi từ một quan điểm kỹ thuật sang một tư duy kinh doanh rộng lớn hơn. Mặc dù tôi đã có một nền tảng vững chắc trong việc hiểu các điểm đau, tạo ra một lộ trình, thực hiện kế hoạch, xây dựng một đội ngũ và quản lý ngân sách, nhưng tôi đã tìm thấy rằng việc tạo ra thông điệp phù hợp真正 phù hợp với đối tượng mục tiêu của chúng tôi là một trong những chướng ngại vật lớn nhất của tôi.
Là một nhà khoa học dữ liệu, sự tập trung chính của tôi luôn là phân tích và giải thích dữ liệu để suy ra những thông tin quý giá. Tuy nhiên, với tư cách là một doanh nhân, tôi cần phải chuyển hướng suy nghĩ của mình sang thị trường, khách hàng và toàn bộ doanh nghiệp.
May mắn thay, tôi đã có thể vượt qua thách thức này bằng cách tận dụng kinh nghiệm của người như Đồng sáng lập Razi của tôi.
Chúng tôi đã nghe từ Razi về lý do tại sao kỹ thuật tính năng lại khó khăn, theo quan điểm của bạn, điều gì khiến nó trở nên thách thức?
Kỹ thuật tính năng có hai thách thức chính:
- Chuyển đổi các cột hiện có: Điều này liên quan đến việc chuyển đổi dữ liệu thành định dạng phù hợp cho các thuật toán học máy. Các kỹ thuật như mã hóa một nóng, tỷ lệ tính năng và các phương pháp tiên tiến như chuyển đổi văn bản và hình ảnh được sử dụng. Việc tạo ra các tính năng mới từ các tính năng hiện có, như các tính năng tương tác, có thể tăng cường đáng kể hiệu suất mô hình. Các thư viện phổ biến như scikit-learn và Hugging Face cung cấp hỗ trợ rộng rãi cho loại kỹ thuật tính năng này. Các giải pháp AutoML cũng nhằm mục đích đơn giản hóa quá trình này.
- Trích xuất các cột mới từ dữ liệu lịch sử: Dữ liệu lịch sử là rất quan trọng trong các lĩnh vực vấn đề như hệ thống khuyến nghị, tiếp thị, phát hiện gian lận, định giá bảo hiểm, điểm tín dụng, dự báo nhu cầu và xử lý dữ liệu cảm biến. Việc trích xuất các cột thông tin từ dữ liệu này là một thách thức. Ví dụ bao gồm thời gian kể từ sự kiện cuối cùng, tổng hợp trên các sự kiện gần đây và các bản nhúng từ các chuỗi sự kiện. Loại kỹ thuật tính năng này đòi hỏi chuyên môn lĩnh vực, thí nghiệm, kỹ năng mã hóa và kỹ thuật dữ liệu mạnh mẽ, cũng như kiến thức khoa học dữ liệu sâu sắc. Các yếu tố như rò rỉ thời gian, xử lý các tập dữ liệu lớn và thực thi mã hiệu quả cũng cần được xem xét.
Tổng thể, kỹ thuật tính năng đòi hỏi chuyên môn, thí nghiệm và xây dựng các đường ống dữ liệu phức tạp ad-hoc trong sự vắng mặt của các công cụ được thiết kế đặc biệt cho nó.
Bạn có thể chia sẻ cách FeatureByte trao quyền cho các chuyên gia khoa học dữ liệu trong khi đơn giản hóa các đường ống tính năng?
FeatureByte trao quyền cho các chuyên gia khoa học dữ liệu bằng cách đơn giản hóa toàn bộ quá trình trong kỹ thuật tính năng. Với SDK Python trực quan, nó cho phép tạo và trích xuất tính năng nhanh chóng từ Bảng Sự kiện và Mặt hàng XLarge. Việc tính toán được xử lý hiệu quả bằng cách tận dụng khả năng mở rộng của các nền tảng dữ liệu như Snowflake, DataBricks và Spark. Các notebook hỗ trợ thí nghiệm, trong khi việc chia sẻ và tái sử dụng tính năng giúp tiết kiệm thời gian. Việc kiểm toán đảm bảo độ chính xác của tính năng, trong khi việc triển khai ngay lập tức loại bỏ các vấn đề quản lý đường ống.
Ngoài các khả năng được cung cấp bởi thư viện mã nguồn mở của chúng tôi, giải pháp doanh nghiệp của chúng tôi cung cấp một khuôn khổ toàn diện cho việc quản lý và tổ chức các hoạt động AI ở quy mô lớn, bao gồm các quy trình công việc quản trị và giao diện người dùng cho danh mục tính năng.
Điều gì là tầm nhìn của bạn cho tương lai của FeatureByte?
Tầm nhìn cuối cùng của chúng tôi cho FeatureByte là cách mạng hóa lĩnh vực khoa học dữ liệu và học máy bằng cách trao quyền cho người dùng để giải phóng toàn bộ tiềm năng sáng tạo của họ và trích xuất giá trị chưa từng có từ tài sản dữ liệu của họ.
Chúng tôi đặc biệt hào hứng về tiến bộ nhanh chóng trong Trí tuệ nhân tạo sinh và các mô hình chuyển đổi, điều này mở ra một thế giới cơ hội cho người dùng của chúng tôi. Hơn nữa, chúng tôi cam kết dân chủ hóa kỹ thuật tính năng. Trí tuệ nhân tạo sinh có tiềm năng giảm thiểu rào cản gia nhập cho kỹ thuật tính năng sáng tạo, làm cho nó dễ tiếp cận hơn với một đối tượng rộng lớn hơn.
Tóm lại, tầm nhìn của chúng tôi cho tương lai của FeatureByte xoay quanh sự đổi mới liên tục, tận dụng sức mạnh của Trí tuệ nhân tạo sinh và dân chủ hóa kỹ thuật tính năng. Chúng tôi nhằm mục đích trở thành nền tảng được lựa chọn để cho phép các chuyên gia dữ liệu chuyển đổi dữ liệu thô thành đầu vào có thể hành động cho học máy, thúc đẩy các đột phá và tiến bộ trên nhiều ngành.
Bạn có bất kỳ lời khuyên nào cho các doanh nhân AI đầy tham vọng?
Xác định không gian của bạn, tập trung và chào đón sự mới mẻ.
Bằng cách xác định không gian mà bạn muốn sở hữu, bạn có thể phân biệt mình và thiết lập một sự hiện diện mạnh mẽ trong lĩnh vực đó. Nghiên cứu thị trường, hiểu nhu cầu và điểm đau của khách hàng tiềm năng, và phấn đấu cung cấp một giải pháp độc đáo giải quyết hiệu quả những thách thức đó.
Xác định tầm nhìn dài hạn của bạn và đặt mục tiêu ngắn hạn rõ ràng phù hợp với tầm nhìn đó. Tập trung vào việc xây dựng một nền tảng vững chắc và cung cấp giá trị trong không gian đã chọn của bạn.
Cuối cùng, trong khi điều quan trọng là phải tập trung, đừng ngần ngại chấp nhận sự mới mẻ và khám phá các ý tưởng mới trong không gian của bạn. Lĩnh vực AI đang不断 phát triển, và các phương pháp sáng tạo có thể mở ra các cơ hội mới.
Cảm ơn bạn vì cuộc phỏng vấn tuyệt vời, những người đọc muốn tìm hiểu thêm nên truy cập FeatureByte.












