Haastattelut
Xavier Conort, Co-Founder and CPO of FeatureByte – Interview Series

Xavier Conort on visionäärisen data scientist, jolla on yli 25 vuoden kokemus data-alalta. Hän aloitti uransa vakuutusalan aktuaarina, ennen siirtymistä data scienceen. Hän on korkeasti sijoittunut Kaggle-kilpailija ja toimi DataRobotin Chief Data Scientistina, ennen kuin perusti FeatureByte-yhtiön.
FeatureByte on tehtävänään skaalata yritysten tekoälyä radikaalisti yksinkertaistamalla ja teollistamalla tekoälyn datan. Feature engineering- ja hallintaplatfrom mahdollistaa data scientistien luoda ja jakaa valmiita ja valmiiksi tuotantovalmiita data-pipelineja minuuteissa – ei viikoissa tai kuukausissa.
Alkoit sinun urasi vakuutusalan aktuaarina ennen siirtymistä data scienceen, mikä aiheutti tämän muutoksen?
Määräävä hetki oli voitto GE Flight Quest -kilpailussa, jossa osallistujien piti ennustaa viivästykset Yhdysvaltain kotimaan lennoilla. Olen osittain kiitollinen tästä menestyksestä arvokkaasta vakuutusalan käytännöstä: 2-vaiheen mallinnus. Tämä lähestymistapa auttaa hallitsemaan harhan muuttujissa, joilla ei ole riittävää edustusta saatavilla olevassa koulutusdatasta. Yhdessä muiden Kaggle-voittojen kanssa tämä saavutus vakuutti minulle, että minun aktuaaritaustani antoi minulle kilpailuedun data science -alalla.
Kaggle-matkan aikana minulla oli myös etuoikeus yhdistää muiden innostuneiden data scientistien kanssa, mukaan lukien Jeremy Achin ja Tom De Godoy, jotka myöhemmin perustivat DataRobotin. Meillä oli yhteinen tausta vakuutusalan parissa ja olimme saavuttaneet merkittäviä voittoja Kagglessa. Kun he lopulta perustivat DataRobotin, yhtiön, joka erikoistui AutoML:ään, he kutsuivat minua liittymään heidän joukkoihinsa Chief Data Scientistina. Heidän visio heidän yhdistää parhaat käytännöt vakuutusalan parissa tekoälyn voiman kanssa, innoitti minua ja tarjosi mahdollisuuden luoda jotain uutta ja vaikuttavaa.
DataRobotissa ja olit merkittävässä roolissa heidän data science -tiensä rakentamisessa. Mitä tyyppisiä data-haasteita sinun täytyi kohdata?
Suurin haaste, jota me kohtasimme, oli syötteenä annetun datan laatu. Tämä aiheutti usein aikaa vievän yhteistyön asiakkaiden kanssa tai pettymyksiä tuotannossa, jos asiaa ei ollut asianmukaisesti käsitelty. Laatuongelmat johtuivat useista lähteistä, joihin meidän täytyi kiinnittää huomiota.
Yksi tärkeimmistä haasteista oli liiketoimintatiedon työkalujen yleinen käyttö datan esikäsittelyssä ja hallinnassa. Vaikka nämä työkalut ovat arvokkaita tietojen luomiseksi, niiden puute mahdollisuuksissa varmistaa kohdan aikaisuuden oikeellisuus tekoälydatan esikäsittelyssä. Tämän seurauksena koulutusdataan voi tulla vuotoja, joista seuraa ylioppiminen ja epätarkka mallin suorituskyky.
Data scientistien ja data-insinöörien välinen viestintäongelma oli toinen haaste, joka vaikutti mallien tarkin suorituskykyyn tuotannossa. Epäjohdonmukaisuudet koulutus- ja tuotantovaiheiden välillä, jotka johtuivat näiden kahden tiimin välistä epäjohdonmukaisuutta, voivat vaikuttaa mallin suorituskykyyn todellisessa maailmassa.
Mitkä olivat joitain tärkeimmistä opetuksista tästä kokemuksesta?
Kokemukseni DataRobotissa korosti datan esikäsittelyn merkitystä tekoälyssä. Käsittelemällä haasteita, joita liittyy mallin koulutusdataan, kuten kohdan aikaisuuden oikeellisuus, asiantuntemuksen aukot, toimialatietämys, työkalujen rajoitukset ja skaalautuvuus, voimme parantaa tekoälymallien tarkin ja luotettavuuden. Päättelin, että datan esikäsittelyprosessin sujuvoittaminen ja uusien teknologioiden käyttöönotto olisi avainasemassa tekoälyn lupausten toteuttamisessa ja sen täysimääräisessä hyödyntämisessä.
Me kuulimme sinun Co-Founder Razi Raziuddinilta FeatureByte:n alkuperäistarinaa, voisimmeko saada sinun version tapahtumista?
Kun keskustelin havaintojani ja näkemyksiäni Razi Raziuddinin kanssa, tajusimme, että meillä oli yhteinen ymmärrys haasteista, joita liittyy tekoälydatan esikäsittelyyn. Keskusteluissamme minulla oli mahdollisuus jakaa Razi Raziuddinin kanssa havaintojani MLOps-yhteisön viimeaikaisista edistysaskelista. Voin havaita feature-kauppojen ja feature-alustojen syntyä, joita AI-ensin teknologiayritykset ottavat käyttöön vähentääksesi feature-palvelun viivästystä, rohkaistaakseen feature-uudelleenkäyttöä tai yksinkertaistamaan feature-materiaalisen koulutusdataan siirtymistä varmistaa koulutus-palvelun johdonmukaisuus. Mutta oli selvää meille, että edelleen oli aukko data scientistien tarpeiden täyttymisessä. Razi Raziuddin jakoi minulle havaintojaan modernin data-rakenteen vallankumouksesta, joka on mullistanut BI:n ja analytiikan, mutta ei ole täysimääräisesti hyödynnetty tekoälyssä.
Tuli ilmi, että sekä Razi Raziuddinille että minulle, että meillä oli mahdollisuus tehdä merkittävä vaikutus radikaalisti yksinkertaistamalla feature-engineering-prosessia ja tarjoamalla data scientisteille ja ML-insinööreille oikeat työkalut ja käyttöliittymä sujuvan feature-kokeilun ja feature-palvelun mahdollistamiseksi.
Mitkä olivat sinun suurimmat haasteet siirtymisessä data scientistista yrittäjäksi?
Siirtymisessä data scientistista yrittäjäksi minun täytyi muuttaa lähestymistapani teknisestä näkökulmasta laajempaan liiketoimintalähestymistapaan. Vaikka minulla oli vankka perusta ymmärtääkseni kipupisteitä, luodakseni tiensä, suorittakseni suunnitelmia, rakentakseni tiimiä ja hallitakseni budjetteja, löysin, että oikean viestin luominen, joka todella resonoi kohderyhmämme kanssa, oli yksi suurimmista esteistäni.
Data scientistina minun päähuomioni oli aina ollut datan analysointi ja tulkinta arvokkaiden näkemyksien saamiseksi. Mutta yrittäjänä minun täytyi kohdistaa ajatukseni markkinoille, asiakkaille ja liiketoimintaan.
Onneksi minulla oli mahdollisuus hyödyntää jonkun sellaisen kokemusta kuin Razi Raziuddinin.
Kuulimme Razi Raziuddinilta siitä, miksi feature-engineering on niin vaikeaa, mitä sinun mielestäsi tekee siitä haastavan?
Feature-engineeringillä on kaksi päähaasteita:
- Olemassa olevien sarakkeiden muuntaminen: Tämä vaatii datan muuttamista sopivaan muotoon tekoälyalgoritmien käyttöön. Tekniikoita, kuten one-hot-koodaus, feature-skaalaus ja edistyneet menetelmät, kuten teksti- ja kuvamuunnokset, käytetään. Uusien featurejen luominen olemassa olevista featureistä, kuten interaktiofeatureistä, voi parantaa mallin suorituskykyä. Suositut kirjastot, kuten scikit-learn ja Hugging Face, tarjoavat laajaa tukea tälle tyypille feature-engineeringille. AutoML-ratkaisut pyrkivät yksinkertaistamaan prosessia.
- Uusien sarakkeiden poistaminen historiallisesta datasta: Historiallinen data on tärkeää ongelmien alueilla, kuten suositusjärjestelmissä, markkinoinnissa, petosilmoituksissa, vakuutus hinnoittelussa, luottoluokituksessa, kysyntäennustuksessa ja anturidatakäsittelyssä. Tiedollaisten sarakkeiden poistaminen tästä datasta on haastavaa. Esimerkkejä ovat viimeisen tapahtuman jälkeinen aika, aggregaatiot viimeaikaisista tapahtumista ja upottamiset tapahtumien sarjoista. Tällainen feature-engineering vaatii toimialatietämystä, kokeilua, vahvaa koodaustaitoa ja syvää data science -tietämystä. Tekijät, kuten aikaviive, suurten tietojoukkojen käsittely ja tehokas koodin suoritus, vaativat myös huomioon ottoa.
Kaiken kaikkiaan feature-engineering vaatii asiantuntemusta, kokeilua ja monimutkaisten ad-hoc -data-pipelinejen rakentamista työkalujen puutteen vuoksi.
Voitko jakaa, miten FeatureByte antaa valtuudet data science -ammattilaisille yksinkertaistamalla feature-pipelineja?
FeatureByte antaa valtuudet data science -ammattilaisille yksinkertaistamalla koko feature-engineering-prosessin. Intuitiivisen Python-SDK:n avulla se mahdollistaa nopean feature-luomisen ja poistamisen XLarge Event- ja Item-taulukoista. Laskenta käsitellään tehokkaasti hyödyntämällä data-alustojen, kuten Snowflaken, DataBricksin ja Sparkin, skaalautuvuutta. Muistikirjat mahdollistavat kokeilun, kun taas feature-jakaminen ja uudelleenkäyttö säästävät aikaa. Auditointi varmistaa featuren tarkin, kun taas välitön käyttöönotto poistaa pipeline-hallinnan päänvaivat.
Lisäksi avoimen lähdekoodin kirjastomme tarjoamat ominaisuudet, yritysratkaisumme tarjoaa kattavan kehyksen AI-toimintojen hallinnalle ja järjestämiselle suuressa mittakaavassa, mukaan lukien hallintoprosessit ja käyttöliittymä feature-luettelolle.
Mikä on sinun visiosi FeatureByte:n tulevaisuudelle?
Meidän lopullinen visiomme FeatureByte:lle on vallankumous data science – ja tekoälyalalla antamalla käyttäjille mahdollisuus vapauttaa täysimääräinen luovuttamiskyky ja saada ennenkokematon arvo heidän data-omaisuudestaan.
Olemme erityisen innoissamme nopeasta edistymisestä generatiivisessa tekoälyssä ja transformatoreissa, mikä avaa maailman mahdollisuuksia meille. Lisäksi olemme omistautuneita feature-engineeringin demokratisoimiseen. Generatiivinen tekoäly voi alentaa creative feature-engineeringin kynnystä, tehdä sen helpommin saataville laajemmalle yleisölle.
Yhteenvetona, visiomme FeatureByte:n tulevaisuudelle keskittyy jatkuvaan innovaatioon, generatiivisen tekoälyn voiman hyödyntämiseen ja feature-engineeringin demokratisoimiseen. Pyrimme olla käyttäjien luotettu alusta, joka mahdollistaa raaka-aineiden muuttamisen toimivaksi syötteeksi tekoälylle, ajamalla läpi murrot ja edistysaskeleet eri aloilla.
Onko sinulla neuvoja aloitteleville AI-yrittäjille?
Määrittele tilasi, pysy keskittyneenä ja ota vastaan uudet ideat.
Määrittelemällä tilan, jonka haluat omistaa, voit erottautua ja vakiinnuttaa vahvan läsnäolon siinä. Tutki markkinaa, ymmärtä asiakkaiden tarpeet ja kipupisteet ja pyri tarjoamaan ainutlaatuisen ratkaisun, joka ratkaisee nämä haasteet tehokkaasti.
Määrittele pitkän aikavälin visiosi ja aseta selkeät lyhyen aikavälin tavoitteet, jotka ovat linjassa visiosi kanssa. Keskity vahvan perustan rakentamiseen ja tarjoa arvoa valitsemallasi alueella.
Lopulta, vaikka on tärkeää pysyä keskittyneenä, älä kaihda uusien ideoiden omaksumista oman tilasi sisällä. Tekoälyala kehittyy jatkuvasti, ja innovatiiviset lähestymistavat voivat avata uusia mahdollisuuksia.
Kiitos haastattelusta, lukijat, jotka haluavat oppia lisää, voivat vierailla FeatureByte:lla.












