Rozhovory

Anand Kannappan, CEO & Co-founder of Patronus AI – Interview Series

mm

Anand Kannappan je spoluzakladatel a CEO společnosti Patronus AI, která je první automatizovanou platformou pro hodnocení a zabezpečení AI, která pomáhá podnikům odhalit chyby velkých jazykových modelů (LLM) ve velkém měřítku. Předtím vedl Anand úsilí o vysvětlení ML a pokročilé experimentování v Meta Reality Labs.

Co vás最初 přitáhlo k informatice?

Již od dětství jsem byl fascinován technologiemi a tím, jak lze použít k řešení reálných problémů. Nápad, že lze vytvořit něco z ničeho pomocí pouze počítače a kódu, mě velice lákal. Když jsem se více ponořil do informatiky, uvědomil jsem si, jaký obrovský potenciál má pro inovace a transformaci v různých odvětvích. Tato snaha o inovace a změnu je to, co mě původně přitáhlo k informatice.

Můžete sdílet příběh vzniku Patronus AI?

Příběh vzniku Patronus AI je khá zajímavý. Když OpenAI spustil ChatGPT, stal se nejrychleji rostoucím spotřebitelským produktem, který získal více než 100 milionů uživatelů během pouhých dvou měsíců. Tato masivní adopce ukázala potenciál generativní AI, ale také poukázala na váhavost podniků při nasazování AI tak rychlým tempem. Mnoho firem se obávalo potenciálních chyb a nepředvídatelného chování velkých jazykových modelů (LLM).

Rebecca a já jsme se znali již několik let, protože jsme společně studovali informatiku na Chicagské univerzitě. V Meta jsme oba čelili výzvám při hodnocení a interpretaci výstupů strojového učení – Rebecca z výzkumného hlediska a já z aplikačního hlediska. Když byl oznámen ChatGPT, oba jsme viděli transformační potenciál LLM, ale také jsme rozuměli opatrnosti, kterou podniky uplatňovaly.

Zlomovým okamžikem стало, když investiční banka mého bratra, Piper Sandler, rozhodla o zákazu přístupu k OpenAI uvnitř firmy. To nás vedlo k uvědomění, že zatímco AI pokročila významně, stále existuje mezera v adopci podniků kvůli obavám o spolehlivost a zabezpečení. Založili jsme Patronus AI, abychom tuto mezeru uzavřeli a zvýšili důvěru podniků v generativní AI poskytováním vrstvy hodnocení a zabezpečení pro LLM.

Můžete popsat základní funkčnost platformy Patronus AI pro hodnocení a zabezpečení LLM?

Naší misí je zvýšit důvěru podniků v generativní AI. Vyvinuli jsme první automatizovanou platformu pro hodnocení a zabezpečení speciálně pro LLM. Naše platforma pomáhá firmám detekovat chyby ve výstupech LLM ve velkém měřítku, umožňující jim nasadit produkty AI bezpečně a s důvěrou.

Naše platforma automatizuje několik klíčových procesů:

  • Hodnocení: Hodnotíme výkon modelu v reálných scénářích, se zaměřením na důležitá kritéria, jako jsou halucinace a bezpečnost.
  • Generování testů: Automaticky generujeme sadu testů pro přísné hodnocení schopností modelu.
  • Benchmarking: Porovnáváme různé modely, aby zákazníci mohli identifikovat nejlepší řešení pro své konkrétní použití.

Podniky preferují častá hodnocení, aby se přizpůsobily rozvíjejícím se modelům, datům a potřebám uživatelů. Naše platforma funguje jako důvěryhodný třetí stranický hodnotitel, poskytující nezaujatý pohled podobný Moody’s v oblasti AI. Naši první partneři zahrnují přední AI společnosti, jako jsou MongoDB, Databricks, Cohere a Nomic AI, a vedeme jednání s několika prominentními společnostmi z tradičních odvětví, aby otestovaly naši platformu.

Jaké typy chyb nebo „halucinací“ detekuje model Lynx Patronus AI ve výstupech LLM a jak řeší tyto problémy pro podniky?

LLM jsou skutečně mocnými nástroji, ale jejich pravděpodobnostní povaha je činí náchylnými k „halucinacím“, nebo chybám, kdy model generuje nepřesné nebo irelevantní informace. Tyto halucinace jsou problematické, zejména v podnikatelských prostředích, kde je přesnost kritická.

Tradičně se podniky spoléhaly na manuální kontrolu pro hodnocení výstupů LLM, proces, který je nejen časově náročný, ale také neskalovatelný. Abychom tento proces zjednodušili, Patronus AI vyvinul Lynx, specializovaný model, který vylepšuje schopnosti naší platformy automatizací detekce halucinací. Lynx, integrovaný v naší platformě, poskytuje komplexní testovací pokrytí a robustní záruky výkonu, se zaměřením na identifikaci kritických chyb, které by mohly mít významný dopad na podnikové operace, jako jsou chyby ve finančních výpočtech nebo chyby v revizi právních dokumentů.

S Lynx jsme zmírnili omezení manuální evaluace prostřednictvím automatizovaného adversářského testování, zkoumání širokého spektra potenciálních scénářů selhání. To umožňuje detekci problémů, které by mohly uniknout lidským hodnotitelům, nabízejícím podnikům zvýšenou spolehlivost a důvěru v nasazení LLM v kritických aplikacích.

FinanceBench je popsán jako první benchmark pro hodnocení výkonu LLM na finančních otázkách. Jaké výzvy v finančním sektoru vedly k vývoji FinanceBench?

FinanceBench byl vyvinut jako reakce na jedinečné výzvy, kterým čelí finanční sektor při adopci LLM. Finanční aplikace vyžadují vysokou míru přesnosti a spolehlivosti, protože chyby mohou vést k významným finančním ztrátám nebo regulatorním problémům. Navzdory slibům LLM při zpracování velkých objemů finančních dat naše výzkum ukázal, že špičkové modely, jako je GPT-4 a Llama 2, měly potíže s finančními otázkami, často selhávaly při získání přesných informací.

FinanceBench byl vytvořen jako komplexní benchmark pro hodnocení výkonu LLM ve finančních kontextech. Zahrnuje 10 000 otázek a odpovědí založených na veřejně dostupných finančních dokumentech, pokrývajících oblasti, jako je numerická logika, získávání informací, logická logika a znalosti světa. Poskytováním tohoto benchmarku jsme cílem pomoci podnikům lépe pochopit omezení stávajících modelů a identifikovat oblasti pro zlepšení.

Naše počáteční analýza odhalila, že mnoho LLM selhává při splnění vysokých standardů požadovaných pro finanční aplikace, zdůrazňujíc potřebu dalšího zdokonalování a cíleného hodnocení. S FinanceBench poskytujeme cenný nástroj pro podniky, aby vyhodnotily a vylepšily výkon LLM ve finančním sektoru.

Vaše výzkum ukázal, že přední AI modely, zejména OpenAI GPT-4, generují autorsky chráněný obsah při významných sazbách, když jsou podněcovány úryvky z populárních knih. Co si myslíte, že jsou dlouhodobé implikace těchto zjištění pro vývoj AI a širší technologický průmysl, zejména s ohledem na probíhající debaty o AI a autorském právu?

Problém AI modelů generujících autorsky chráněný obsah je složitou a naléhavou otázkou v AI průmyslu. Naše výzkum ukázal, že modely, jako je GPT-4, často reprodukují autorsky chráněný materiál, když jsou podněcovány úryvky z populárních knih. To vyvolává důležité otázky o autorských právech a právních implikacích používání AI generovaného obsahu.

V dlouhodobém horizontu tato zjištění zdůrazňují potřebu jasnějších pokynů a regulací kolem AI a autorského práva. Průmysl musí pracovat na vývoji AI modelů, které respektují autorská práva, zatímco zachovávají svou kreativní kapacitu. To by mohlo zahrnovat vylepšení trénovacích dat, aby vyloučily autorsky chráněný materiál, nebo implementaci mechanismů, které detekují a brání reprodukci chráněného obsahu.

Širší technologický průmysl potřebuje zapojit se do probíhajících diskusí s právníky, politiky a zúčastněnými stranami, aby vytvořil rámec, který vyvažuje inovace s respektem k existujícím zákonům. Jak AI pokračuje ve vývoji, je zásadní řešit tyto výzvy proaktivně, aby se zajistila odpovědná a etická vývoj AI.

Vzhledem k alarmující rychlosti, s jakou špičkové LLM reprodukují autorsky chráněný obsah, jaká kroky byste doporučili vývojářům AI a průmyslu jako celku, aby řešili tyto obavy? Navíc, jak Patronus AI plánuje přispět k vytváření více odpovědných a právně konformních AI modelů vzhledem k těmto zjištěním?

Řešení problému AI modelů reprodukujících autorsky chráněný obsah vyžaduje mnohostranný přístup. Vývojáři AI a průmysl jako celek potřebují priorizovat transparentnost a odpovědnost při vývoji AI modelů. To zahrnuje:

  • Vylepšení výběru dat: Zajištění, aby trénovací data byla pečlivě kurátorována, aby se vyhnula autorsky chráněnému materiálu, pokud nejsou získány příslušné licence.
  • Vyvinutí mechanismů detekce: Implementace systémů, které mohou identifikovat, kdy AI model generuje potenciálně autorsky chráněný obsah, a poskytují uživatelům možnosti upravit nebo odebrat takový obsah.
  • Stanovení odvětvových standardů: Spolupráce s právníky a odvětvovými stakeholdery, aby se vytvořily pokyny a standardy pro vývoj AI, které respektují autorská práva.

V Patronus AI se zavazujeme přispět k odpovědnému vývoji AI, zaměřením se na hodnocení a dodržování předpisů. Naše platforma zahrnuje produkty, jako je EnterprisePII, které pomáhají podnikům detekovat a spravovat potenciální problémy s ochranou osobních údajů ve výstupech AI. Poskytováním těchto řešení jsme cílem umožnit podnikům používat AI odpovědně a eticky, zatímco minimalizují právní rizika.

S nástroji, jako jsou EnterprisePII a FinanceBench, jaké posuny očekáváte v tom, jak podniky nasazují AI, zejména v citlivých oblastech, jako je finance a osobní data?

Tyto nástroje poskytují podnikům schopnost vyhodnotit a spravovat výstupy AI účinněji, zejména v citlivých oblastech, jako jsou finance a osobní data.

Ve finančním sektoru FinanceBench umožňuje podnikům vyhodnotit výkon LLM s vysokou přesností, zajišťuje, aby modely splňovaly přísné požadavky finančních aplikací. To umožňuje podnikům využívat AI pro úkoly, jako je analýza dat a rozhodování, s větší důvěrou a spolehlivostí.

Podobně nástroje, jako je EnterprisePII, pomáhají podnikům navigovat v komplexitě ochrany dat. Poskytováním přehledů o potenciálních rizicích a nabízejících řešení pro jejich zmírnění, tyto nástroje umožňují podnikům nasadit AI bezpečněji a odpovědněji.

Celkově tyto nástroje vytvářejí cestu pro informovaný a strategický přístup k adopci AI, pomáhají podnikům využívat výhody AI, zatímco minimalizují spojená rizika.

Jak Patronus AI spolupracuje se společnostmi na integraci těchto nástrojů do stávajících nasazení LLM a pracovních postupů?

V Patronus AI rozumíme důležitosti bezproblémové integrace, když jde o adopci AI. Pracujeme úzce s našimi klienty, aby zajistili, že naše nástroje jsou snadno začleněny do jejich stávajících nasazení LLM a pracovních postupů. To zahrnuje poskytování zákazníkům:

  • Přizpůsobené plány integrace: Spolupracujeme s každým klientem, aby vyvinuli přizpůsobené plány integrace, které odpovídají jejich konkrétním potřebám a cílům.
  • Komplexní podporu: Naše tým poskytuje pokračující podporu během procesu integrace, nabízející vedení a pomoc, aby zajistili hladký přechod.
  • Školení a vzdělávání: Nabízíme školicí sezení a vzdělávací zdroje, aby klienti mohli plně rozumět a využívat naše nástroje, umožňující jim maximalizovat své investice do AI.

Jaké rady byste poskytli vývojářům LLM a společnostem, které chtějí používat LLM, s ohledem na složitosti zajištění, aby výstupy AI byly zabezpečeny, přesné a dodržovaly různé zákony?

Prioritizací spolupráce a podpory jsme cílem učinit proces integrace co nejjednodušší a nejúčinnější, umožňující podnikům odemknout plný potenciál našich AI řešení.

Složitosti zajištění, aby výstupy AI byly zabezpečeny, přesné a dodržovaly různé zákony, představují významné výzvy. Pro vývojáře velkých jazykových modelů (LLM) je klíčové priorizovat transparentnost a odpovědnost během procesu vývoje.

Jedním z základních aspektů je kvalita dat. Vývojáři musí zajistit, aby trénovací data byla pečlivě kurátorována a free od autorsky chráněného materiálu, pokud nejsou získány příslušné licence. To nejen pomáhá předcházet potenciálním právním problémům, ale také zajišťuje, že AI generuje spolehlivé výstupy. Kromě toho je řešení.bias a spravedlnosti zásadní. Aktivně pracující na identifikaci a zmírnění bias a vyvíjející rozmanité a reprezentativní trénovací data, vývojáři mohou snížit bias a zajistit spravedlivé výsledky pro všechny uživatele.

Robustní procedury hodnocení jsou nezbytné. Implementace přísného testování a využití benchmarků, jako je FinanceBench, může pomoci vyhodnotit výkon a spolehlivost AI modelů, zajišťuje, aby splňovaly požadavky konkrétních použití. Kromě toho by měly být etické úvahy na předním místě. Zapojení do etických pokynů a rámců zajišťuje, aby AI systémy byly vyvinuty odpovědně a odpovídaly společenským hodnotám.

Pro společnosti, které chtějí využívat LLM, je důležité pochopit schopnosti AI. Je důležité nastavit realistické očekávání a zajistit, aby AI byla používána efektivně v rámci organizace. Bezproblémová integrace a podpora jsou také vitální. Pracováním s důvěryhodnými partnery mohou společnosti integrovat AI řešení do stávajících pracovních postupů a zajistit, aby jejich týmy byly školeny a podporovány, aby efektivní využívaly AI.

Dodržování předpisů a zabezpečení by mělo být prioritou, se zaměřením na dodržování relevantních regulací a zákonů o ochraně dat. Nástroje, jako je EnterprisePII, mohou pomoci monitorovat a spravovat potenciální rizika. Pravidelné monitorování a hodnocení výkonu AI jsou také nezbytná pro udržení přesnosti a spolehlivosti, umožňující úpravu podle potřeby.

Děkuji za skvělý rozhovor, čtenáři, kteří si chtějí dozvědět více, by měli navštívit Patronus AI.

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.