부본 Xavier Conort, FeatureByte 공동 설립자 겸 CPO - 인터뷰 시리즈 - Unite.AI
Rescale 미팅 예약

인터뷰

Xavier Conort, FeatureByte의 공동 설립자 겸 CPO - 인터뷰 시리즈

mm

게재

 on

자비에르 코노트 25년 이상의 데이터 경험을 가진 선구적인 데이터 과학자입니다. 그는 데이터 과학으로 전환하기 전에 보험 업계에서 계리사로 경력을 시작했습니다. 그는 최고의 Kaggle 경쟁자이며 FeatureByte를 공동 창립하기 전에는 DataRobot의 수석 데이터 과학자였습니다.

피쳐바이트 AI 데이터를 근본적으로 단순화하고 산업화하여 엔터프라이즈 AI를 확장하는 임무를 수행하고 있습니다. 기능 엔지니어링 및 관리 플랫폼을 통해 데이터 과학자는 몇 주 또는 몇 달이 아닌 몇 분 만에 최신 기능 및 프로덕션 준비 데이터 파이프라인을 만들고 공유할 수 있습니다.

데이터 과학으로 전환하기 전에 보험 업계에서 계리사로 경력을 시작했는데, 이러한 변화를 가져온 원인은 무엇입니까?

결정적인 순간은 참가자들이 미국 국내선의 지연을 예측해야 하는 250달러의 상금으로 GE가 주최한 대회인 GE Flight Quest에서 우승한 것입니다. 그 성공의 일부는 귀중한 보험 관행인 2단계 모델링 덕분입니다. 이 접근 방식은 사용 가능한 훈련 데이터에서 충분한 표현이 부족한 기능의 편향을 제어하는 ​​데 도움이 됩니다. Kaggle에서의 다른 승리와 함께 이 성과는 제 계리 배경이 데이터 과학 분야에서 경쟁 우위를 제공한다는 확신을 주었습니다.

Kaggle 여정 동안 저는 나중에 DataRobot의 창립자가 될 Jeremy Achin 및 Tom De Godoy를 비롯한 다른 열정적인 데이터 과학자들과 연결되는 특권도 가졌습니다. 우리는 보험에 대한 공통된 배경을 공유했고 Kaggle에서 주목할만한 성공을 거두었습니다. 결국 출시되었을 때 데이터로봇, AutoML 전문 회사에서 저를 수석 데이터 과학자로 초대했습니다. 보험 업계의 모범 사례와 기계 학습의 힘을 결합하려는 그들의 비전은 저를 흥분시켰고, 혁신적이고 영향력 있는 것을 만들 수 있는 기회를 제시했습니다.

DataRobot에서 데이터 과학 로드맵을 구축하는 데 중요한 역할을 했습니다. 어떤 유형의 데이터 문제에 직면했습니까?

우리가 직면한 가장 중요한 문제는 AutoML 솔루션에 대한 입력으로 제공되는 데이터의 다양한 품질이었습니다. 이 문제는 종종 우리 팀과 클라이언트 사이에 시간이 많이 걸리는 협업으로 이어지거나 적절하게 해결되지 않을 경우 프로덕션에서 실망스러운 결과를 초래했습니다. 품질 문제는 주의를 요하는 여러 출처에서 비롯되었습니다.

주요 과제 중 하나는 데이터 준비 및 관리를 위한 비즈니스 인텔리전스 도구의 일반적인 사용에서 발생했습니다. 이러한 도구는 인사이트를 생성하는 데 유용하지만 기계 학습 데이터 준비를 위한 특정 시점의 정확성을 보장하는 데 필요한 기능이 부족합니다. 결과적으로 훈련 데이터의 누출이 발생하여 과적합 및 부정확한 모델 성능으로 이어질 수 있습니다.

데이터 과학자와 데이터 엔지니어 간의 잘못된 의사 소통은 생산 중 모델의 정확성에 영향을 미치는 또 다른 문제였습니다. 이 두 팀 간의 불일치로 인해 발생하는 교육 및 생산 단계 간의 불일치는 실제 환경에서 모델 성능에 영향을 미칠 수 있습니다.

이 경험에서 얻은 주요 내용은 무엇입니까?

DataRobot에서의 제 경험은 기계 학습에서 데이터 준비의 중요성을 강조했습니다. 특정 시점의 정확성, 전문 지식 격차, 도메인 지식, 도구 제한 및 확장성과 같은 모델 교육 데이터 생성 문제를 해결함으로써 기계 학습 모델의 정확성과 신뢰성을 향상할 수 있습니다. 저는 데이터 준비 프로세스를 간소화하고 혁신적인 기술을 통합하는 것이 AI의 잠재력을 최대한 활용하고 약속을 이행하는 데 도움이 될 것이라는 결론에 도달했습니다.

공동 창립자인 Razi Raziuddin의 소식도 들었습니다. FeatureByte의 기원 이야기에 대해, 이벤트 버전을 알 수 있을까요?

공동 창립자인 Razi Raziuddin과 제가 관찰한 내용과 통찰력에 대해 논의했을 때, 우리는 기계 학습을 위한 데이터 준비의 문제에 대한 공통된 이해를 공유한다는 것을 깨달았습니다. 토론하는 동안 MLOps 커뮤니티의 최근 발전에 대한 통찰력을 Razi와 공유했습니다. AI 퍼스트 기술 회사가 기능 제공의 대기 시간을 줄이고, 기능 재사용을 장려하거나 기능 구체화를 교육 데이터로 단순화하면서 교육 제공 일관성을 보장하기 위해 배치한 기능 저장소 및 기능 플랫폼의 출현을 관찰할 수 있었습니다. 그러나 데이터 과학자의 요구 사항을 충족하는 데에는 여전히 격차가 있음이 분명했습니다. Razi는 최신 데이터 스택이 어떻게 BI 및 분석을 혁신했지만 AI에 완전히 활용되지 않는지에 대한 통찰력을 저와 공유했습니다.

기능 엔지니어링 프로세스를 근본적으로 단순화하고 데이터 과학자와 ML 엔지니어에게 원활한 기능 실험 및 기능 제공을 위한 올바른 도구와 사용자 경험을 제공함으로써 상당한 영향을 미칠 수 있는 기회가 Razi와 저에게 분명해졌습니다.

데이터 과학자에서 기업가로 전환하는 데 가장 큰 어려움은 무엇이었습니까?

데이터 과학자에서 기업가로 전환하려면 기술적 관점에서 더 넓은 비즈니스 지향 사고 방식으로 변경해야 했습니다. 문제점을 이해하고, 로드맵을 만들고, 계획을 실행하고, 팀을 구성하고, 예산을 관리하는 데 강력한 기반이 있었지만, 대상 고객에게 진정으로 공감하는 올바른 메시지를 작성하는 것이 가장 큰 장애물 중 하나라는 것을 알게 되었습니다.

데이터 과학자로서 저의 주요 초점은 항상 데이터를 분석하고 해석하여 귀중한 통찰력을 도출하는 것이었습니다. 그러나 기업가로서 저는 시장, 고객 및 전체 비즈니스에 대한 생각을 방향 전환해야 했습니다.

다행히 공동 창업자인 Razi와 같은 분의 경험을 살려 이 난관을 극복할 수 있었습니다.

우리는 Razi에게서 들었습니다 피처 엔지니어링이 왜 그렇게 어려운지, 무엇이 그렇게 어렵게 만드는지 생각하시나요?

기능 엔지니어링에는 두 가지 주요 과제가 있습니다.

  1. 기존 열 변환: 여기에는 데이터를 기계 학습 알고리즘에 적합한 형식으로 변환하는 작업이 포함됩니다. 원-핫 인코딩, 기능 스케일링, 텍스트 및 이미지 변환과 같은 고급 방법과 같은 기술이 사용됩니다. 상호 작용 기능과 같이 기존 기능에서 새로운 기능을 생성하면 모델 성능이 크게 향상될 수 있습니다. scikit-learn 및 Hugging Face와 같은 인기 있는 라이브러리는 이러한 유형의 기능 엔지니어링을 광범위하게 지원합니다. AutoML 솔루션도 프로세스를 단순화하는 것을 목표로 합니다.
  2. 기록 데이터에서 새 열 추출: 기록 데이터는 추천 시스템, 마케팅, 사기 탐지, 보험 가격 책정, 신용 평가, 수요 예측 및 센서 데이터 처리와 같은 문제 영역에서 매우 중요합니다. 이 데이터에서 유익한 열을 추출하는 것은 어려운 일입니다. 예를 들면 마지막 이벤트 이후 시간, 최근 이벤트에 대한 집계, 이벤트 시퀀스의 임베딩이 있습니다. 이러한 유형의 기능 엔지니어링에는 도메인 전문 지식, 실험, 강력한 코딩 및 데이터 엔지니어링 기술, 심층 데이터 과학 지식이 필요합니다. 시간 누출, 대규모 데이터 세트 처리, 효율적인 코드 실행과 같은 요소도 고려해야 합니다.

전반적으로 기능 엔지니어링에는 특별히 설계된 도구가 없는 경우 복잡한 임시 데이터 파이프라인의 전문 지식, 실험 및 구성이 필요합니다.

FeatureByte가 기능 파이프라인을 단순화하면서 데이터 과학 전문가의 역량을 강화하는 방법을 공유해 주시겠습니까?

FeatureByte는 기능 엔지니어링의 전체 프로세스를 단순화하여 데이터 과학 전문가의 역량을 강화합니다. 직관적인 Python SDK를 사용하면 XLarge 이벤트 및 항목 테이블에서 빠른 기능 생성 및 추출이 가능합니다. 계산은 Snowflake, DataBricks 및 Spark와 같은 데이터 플랫폼의 확장성을 활용하여 효율적으로 처리됩니다. 노트북은 실험을 용이하게 하며 기능 공유 및 재사용으로 시간을 절약합니다. 감사는 기능 정확성을 보장하는 동시에 즉각적인 배포로 파이프라인 관리 문제를 제거합니다.

오픈 소스 라이브러리에서 제공하는 이러한 기능 외에도 엔터프라이즈 솔루션은 거버넌스 워크플로 및 기능 카탈로그용 사용자 인터페이스를 포함하여 대규모 AI 작업을 관리하고 구성하기 위한 포괄적인 프레임워크를 제공합니다.

FeatureByte의 미래에 대한 비전은 무엇입니까?

FeatureByte에 대한 우리의 궁극적인 비전은 사용자가 창의력을 최대한 발휘하고 데이터 자산에서 전례 없는 가치를 추출할 수 있도록 지원하여 데이터 과학 및 기계 학습 분야를 혁신하는 것입니다.

우리는 특히 사용자에게 가능성의 세계를 열어주는 Generative AI 및 변환기의 급속한 발전에 대해 기쁘게 생각합니다. 또한 우리는 기능 엔지니어링을 민주화하는 데 전념하고 있습니다. 제너레이티브 AI는 창의적인 기능 엔지니어링의 진입 장벽을 낮추어 더 많은 청중이 접근할 수 있도록 할 수 있는 잠재력을 가지고 있습니다.

요약하면 FeatureByte의 미래에 대한 우리의 비전은 지속적인 혁신, 제너레이티브 AI의 힘 활용 및 기능 엔지니어링 민주화를 중심으로 이루어집니다. 우리는 데이터 전문가가 원시 데이터를 기계 학습을 위한 실행 가능한 입력으로 변환하여 산업 전반에 걸쳐 혁신과 발전을 주도할 수 있는 이동 플랫폼이 되는 것을 목표로 합니다.

인공지능 창업가를 꿈꾸는 이들에게 해주고 싶은 조언이 있다면?

당신의 공간을 정의하고, 집중하고, 참신함을 환영하세요.

소유하고 싶은 공간을 정의함으로써 자신을 차별화하고 해당 영역에서 강력한 존재감을 확립할 수 있습니다. 시장을 조사하고 잠재 고객의 요구 사항과 문제점을 이해하고 이러한 문제를 효과적으로 해결하는 고유한 솔루션을 제공하기 위해 노력합니다.

장기 비전을 정의하고 해당 비전과 일치하는 명확한 단기 목표를 설정합니다. 선택한 공간에서 강력한 기반을 구축하고 가치를 제공하는 데 집중하십시오.

마지막으로, 집중하는 것이 중요하지만 정의된 공간 내에서 참신함을 수용하고 새로운 아이디어를 탐구하는 것을 주저하지 마십시오. AI 분야는 끊임없이 진화하고 있으며 혁신적인 접근 방식으로 새로운 기회를 열 수 있습니다.

훌륭한 인터뷰 감사합니다. 자세한 내용을 알고 싶은 독자는 방문하세요. 피쳐바이트.

unite.AI의 창립 파트너이자 포브스 기술 위원회, 앙투안은 미래파 예술가 AI와 로봇공학의 미래에 열정을 갖고 있는 사람입니다.

그는 또한 증권.io, 파괴적인 기술에 대한 투자에 초점을 맞춘 웹사이트입니다.