Rozhovory
Eric Landau, spoluzakladatel a CEO společnosti Encord – Interview Series

Eric Landau je CEO & spoluzakladatel společnosti Encord, aktivní platformy pro učení počítačového vidění. Eric byl vedoucím kvantitativním výzkumníkem na globálním equitu delta-one pultu, kde uváděl do provozu tisíce modelů. Předtím, než nastoupil do Encord, strávil téměř deset let v high-frequency tradingu ve společnosti DRW. Vystudoval aplikovanou fyziku na Harvardově univerzitě, magisterský titul v oboru elektrotechniky a bakalářský titul v oboru fyziky na Stanfordově univerzitě.
Ve svém volném čase se Eric rád baví s ChatGPT a velkými jazykovými modely a také se věnuje výrobě ručních koktejlů.
Co vás inspirovalo ke spoluzaložení Encord a jak vaše zkušenosti z částicové fyziky a kvantitativního financování ovlivnily váš přístup k řešení „problému dat“ v AI?
Poprvé jsem začal přemýšlet o strojovém učení, když jsem pracoval v částicové fyzice a měl jsem co do činění s velmi velkými datovými soubory během svého pobytu ve Stanford Linear Accelerator Center (SLAC). Používal jsem software navržený pro fyziky fyziky, což znamená, že nebyl příliš uživatelsky přívětivý. S lehčími nástroji bych mohl provádět analýzy mnohem rychleji.
Později, když jsem pracoval v kvantitativním financování ve společnosti DRW, jsem byl odpovědný za vytvoření tisíců modelů, které byly nasazeny do produkce. Podobně jako moje zkušenosti z fyziky, jsem zjistil, že vysoce kvalitní data jsou kritická pro vytváření přesných modelů a že správa komplexních, velkých dat je obtížná. Ulrik měl podobnou zkušenost s vizualizací velkých obrazových dat pro počítačové vidění.
Když jsem slyšel o jeho počáteční myšlence na Encord, okamžitě jsem byl na palubě a pochopil jsem důležitost. Společně, Ulrik a já, jsme viděli obrovskou příležitost postavit platformu, která automatizuje a zefektivňuje proces vývoje dat pro AI, aby týmy mohly snadno získat nejlepší data do modelů a budovat důvěryhodné AI systémy.
Můžete vysvětlit vizi za Encord a jak se porovnává s ranými dny počítačového výpočetního nebo internetu z hlediska potenciálu a výzev?
Vize Encord je být základní platformou, na kterou se společnosti spoléhají na transformaci svých dat do funkčních modelů AI. Jsme vrstva mezi daty společnosti a jejich AI.
Mnohými způsoby AI odráží předchozí technologické revoluce, jako je osobní počítač a internet, v tom, že se stane integrovanou součástí pracovních postupů pro každého jedince, podnik, národ a průmysl. Na rozdíl od předchozích technologických revolucí, které byly většinou omezovány Mooreovým zákonem složeného výpočetního růstu o 30x každé 10 let, vývoj AI profitoval z simultánních inovací. Pohybuje se tedy mnohem rychlejším tempem. Podle slov Jensena Huang z NVIDIA: „Poprvé vidíme složené exponentiály… Jsme složené o milionkrát každý deset let. Ne o sto, ne o tisíc, ale o milionkrát.“ Bez přehánění, svědky jsme nejrychleji se pohybující technologii v lidské historii.
Potenciál je zde obrovský: automatizací a škálováním správy vysoce kvalitních dat pro AI, řešíme úzké místo, které brání širšímu přijetí AI. Výzvy jsou podobné jako ty, které jsme viděli v raných dnech předchozích technologických ér: izolace, nedostatek osvědčených postupů, omezení pro ne-technické uživatele a nedostatek dobře definovaných abstrakcí.
Encord Index je позиcionován jako klíčový nástroj pro správu a kuraci dat AI. Jak se liší od ostatních platforem pro správu dat, které jsou aktuálně k dispozici?
Existuje několik způsobů, jak Encord Index vyniká:
Index je škálovatelný: Umožňuje uživatelům spravovat miliardy, ne miliony, datových bodů. Ostatní nástroje čelí problémům se škálovatelností pro nestrukturovaná data a jsou omezeny ve spojení všech relevantních dat v organizaci.
Index je flexibilní: Integruje se přímo s privátním úložištěm dat a cloudovými úložišti, jako jsou AWS, GCP a Azure. Na rozdíl od ostatních nástrojů, které jsou omezeny na jednoho cloudového poskytovatele nebo interní úložný systém, je Index agnostický k umístění dat. Umožňuje spravovat data z mnoha zdrojů s odpovídajícími kontrolami a přístupovými právy, aby mohly být vyvinuty zabezpečené a kompatibilní AI aplikace.
Index je multimodální: Podporuje multimodální AI, spravuje data ve formě obrázků, videí, zvuku, textu, dokumentů a dalšího. Index není omezen na jeden typ dat, jako mnoho LLM nástrojů dnes. Lidská kognice je multimodální a věříme, že multimodální AI bude v srdci další vlny AI pokroků, které nahradí chatboty a LLM.
Jakým způsobem Encord Index zlepšuje proces výběru správných dat pro modely AI a jaký je dopad na výkon modelu?
Encord Index zlepšuje výběr dat automatizací kurace velkých datových souborů, pomáhá týmům identifikovat a uchovat pouze nejrelevantnější data a odstranit neinformativní nebo zkreslená data. Tento proces nejen snižuje velikost datových souborů, ale také významně zlepšuje kvalitu dat používaných pro školení AI modelů. Naši zákazníci viděli až 20% zlepšení svých modelů a zároveň dosáhli 35% snížení velikosti datového souboru a ušetřili stovky tisíc dolarů na výpočetních a lidských nákladů na anotaci.
Jak Encord zůstává předním v rychlé integraci nejnovějších technologií, jako je Meta’s Segment Anything Model?
Úmyslně jsme postavili platformu tak, aby mohla rychle přizpůsobit nové technologie. Soustředíme se na poskytování škálovatelného, software-first přístupu, který snadno zahrnuje pokroky, jako je SAM, aby naši uživatelé byli vždy vybaveni nejnovějšími nástroji, aby zůstali konkurenceschopní.
Plánujeme zůstat předními, soustředěním se na multimodální AI. Platforma Encord již může spravovat komplexní typy dat, jako jsou obrázky, videa a text, takže jakmile přijdou další pokroky v multimodální AI, jsme připraveni.
Jaké jsou nejčastější výzvy, kterým čelí společnosti při správě dat AI, a jak Encord pomáhá řešit tyto problémy?
Existují tři hlavní výzvy, kterým čelí společnosti:
- Špatná organizace a kontrola dat: Když společnosti připravují implementaci řešení AI, často se setkávají s realitou izolovaných a neorganizovaných dat, která nejsou připravena pro AI. Tato data často postrádají silnou kontrolu, což omezuje jejich použití v AI systémech.
- Nedostatek lidských odborníků: Jak AI modely řeší stále složitější problémy, brzy bude nedostatek lidských odborníků, kteří připravují a validují data. Jakmile společnost zvyšuje své požadavky na AI, je obtížné a nákladné škálovat lidskou pracovní sílu.
- Neschopnost nástrojů škálovat: Výkonné AI modely jsou velmi náročné na data pro jemné ladění, validaci, RAG a další pracovní postupy. Předchozí generace nástrojů není vybavena k správě množství a typů dat vyžadovaných pro dnešní modely produkční třídy.
Encord řeší tyto problémy automatizací procesu kurace dat ve velkém měřítku, aby bylo snadné identifikovat účinná data od problémových dat a zajišťovat tvorbu účinných trénovacích a validačních datových souborů. Používá software-first přístup, který je snadno škálovatelný nahoru nebo dolů, podle potřeby správy dat. Naše AI-pomocné nástroje pro anotaci umožňují lidským odborníkům maximalizovat efektivitu pracovních postupů. Tento proces je zvláště kritický v odvětvích, jako jsou finanční služby a zdravotnictví, kde jsou AI trenéři drazí. Umožňujeme snadno spravovat a porozumět všem nestrukturovaným datům v organizaci, snižujeme tak potřebu manuálních prací.
Jak Encord řeší problém datových.biasů a nedostatečně zastoupených oblastí v datech, aby zajistil férové a vyvážené modely AI?
Řešení problému datových biasů je pro nás na Encord kritickým zaměřením. Naše platforma automaticky identifikuje a oznamuje oblasti, kde data mohou být zkreslená, aby AI týmy mohly tyto problémy řešit, než ovlivní výkon modelu. Zajišťujeme také, že nedostatečně zastoupené oblasti v datech jsou řádně zahrnuty, což pomáhá při vývoji férovějších a vyváženějších AI modelů. Používáním našich nástrojů pro kuraci, týmy mohou být jisté, že jejich modely jsou trénovány na rozmanitých a reprezentativních datech.
Encord nedávno získal 30 milionů dolarů v rámci Series B financování. Jak toto financování urychlí váš produktový roadmap a plány na expanzi?
30 milionů dolarů v rámci Series B financování bude použito k dramatickému zvýšení velikosti našich produktových, inženýrských a AI výzkumných týmů v průběhu následujících šesti měsíců a urychlení vývoje Encord Index a dalších nových funkcí. Rozšíříme také naši přítomnost v San Francisku s novým úřadem a toto financování nám pomůže škálovat naše operace, aby podporovaly naše rostoucí zákaznické základny.
Jako nejmladší AI společnost z Y Combinator, která získala Series B, co přisuzujete rychlému růstu a úspěchu Encord?
Jedním z důvodů, proč jsme mohli růst rychle, je, že jsme přijali extrémně zákaznicky orientovaný přístup ve všech oblastech společnosti. Jsme neustále v komunikaci se zákazníky, nasloucháme jejich problémům a „bear hugging“ je, abychom získali řešení. Soustředěním se na potřeby zákazníků místo hype, jsme vytvořili platformu, která rezonuje s nejlepšími AI týmy napříč různými odvětvími. Naši zákazníci byliinstrumentální při našich úspěších.
Dlužíme také mnoho našeho úspěchu našim kolegům, partnerům a investorům, kteří pracovali neúnavně, aby podpořili Encord. Práce se špičkovými produktovými, inženýrskými a go-to-market týmy měla enormní dopad na náš růst.
Dáno rostoucí důležitostí dat v AI, jak vidíte roli AI datových platforem, jako je Encord, v průběhu příštích pěti let?
Jak AI aplikace rostou v komplexitě, potřeba efektivní a škálovatelné správy dat bude pouze zvyšovat. Věřím, že každá společnost bude mít nakonec AI oddělení, stejně jako existují IT oddělení dnes. Encord bude jedinou platformou, kterou budou potřebovat, aby spravovali obrovské množství dat vyžadovaných pro AI a dostali modely do produkce rychle.
Děkuji za skvělý rozhovor, čtenáři, kteří chtějí se dozvědět více, by měli navštívit Encord.












