Rozhovory

Julien Salinas, zakladatel & CTO NLP Cloud – rozhovorová série

Published November 17, 2021

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Julien Salinas je zakladatel & CTO NLP Cloud. Platforma NLP Cloud poskytuje vysoce výkonné produkční modely NLP založené na spaCy a HuggingFace transformers, pro několik případů použití, včetně NER, sentimentální analýzy, textové klasifikace, sumarizace, otázek a odpovědí, generování textu, překladu, detekce jazyka, gramatické a pravopisné korekce, klasifikace záměrů a semantické podobnosti.

Co vás původně zaujalo o počítačových vědách?

Začal jsem programovat na… obchodní škole! Víte, že to zní překvapivě. Ve skutečnosti jsem si rychle uvědomil, že samotný obchod je nudný a že bych byl rychle omezen, pokud bych neměl technické dovednosti k realizaci svých projektů.

První projekt v té době byl malý web pro mého učitele hudby, pak další pro mou rodinu, pak jsem začal učit Python… a tak dále. Nyní jsem Python/Go vývojář a DevOps již 15 let.

Můžete sdílet příběh o vzniku NLP Cloud?

Začalo to před 2 lety, kdy jsem si uvědomil, že jako vývojář je obtížné správně nasadit modely strojového učení do produkce.

Byl jsem ohromen pokrokem, kterého dosáhly rámce jako Hugging Face Transformers a spaCy, a byl jsem schopen využít velmi pokročilé modely NLP ve svých projektech. Ale použití těchto modelů v produkci bylo něco jiného a překvapivě jsem nenašel na trhu žádný zajímavý No-Ops cloud pro NLP.

Takže jsem se rozhodl spustit svou vlastní platformu pro nasazení modelů NLP. Velmi rychle jsme měli skvělé zpětné vazby od zákazníků a přidali jsme mnoho funkcí na základě těchto zpětných vazeb (předtrénované modely, jemné ladění, playground…).

Platforma NLP Cloud podporuje open-source alternativu GPT-3 GPT-J. Co je GPT-J konkrétně?

GPT-J byl vydán týmem výzkumníků nazvaným EleutherAI v červnu tohoto roku. Věří, že GPT-3 by měl být open-source model, stejně jako jeho předchůdci (GPT a GPT-2). Tvrdí, že i když bychom měli všichni být znepokojení nad možným zneužíváním silných modelů AI, jako je GPT, není to důvod, proč by tyto modely neměly být open-source. Právě naopak: věří, že pokud modely AI zůstanou open-source, je to nejlepší způsob, jak komunita může pochopit, jak tyto modely fungují pod kapotou, a zajistit, aby tyto modely nefungovaly špatně (misogynie, rasismus, …).

GPT-J je přímým ekvivalentem GPT-3 Curie, protože oba jsou trénovány na více než 6 miliardách parametrů.

Oba lze téměř použít zaměnitelně.

Proč je GPT-J lepší alternativou než GPT-3?

GPT-3 patří Microsoftu a jediný způsob, jak jej lidé mohou použít, je prostřednictvím oficiálního API GPT-3.

Ale toto API je velmi drahé a extrémně restriktivní: musíte požádat o přístup k API a i když vaše aplikace získá přístup, váš přístup může být kdykoli ukončen, pokud se rozhodnou, že váš obchodní model nesplňuje jejich směrnice. Například nemůžete generovat “otevřený” text (dlouhý text složený z několika odstavců), protože to je proti jejich politice.

S GPT-J nejsou žádné takové omezení, protože je open-source a kdokoli jej může nainstalovat a použít.

Jaké byly některé z technických výzev při integraci GPT-J do NLP Cloud?

GPT-J je složitý na instalaci kvůli jeho vysoké spotřebě zdrojů (RAM, CPU, GPU…). Funkční je bez GPU, ale je to velmi nepohodlné.

Nakonec je hardware potřebný pro spuštění GPT-J velmi drahý, takže abychom snížili náklady, museli jsme pracovat na mnoha detailech implementace.

Také jsme museli pracovat na redundanci a strategiích selhání pro GPT-J, aby byla vhodná pro produkci, což může být docela náročné.

Můžete diskutovat o některých předtrénovaných modelech AI, které jsou nabízeny?

Snažíme se vybrat nejlepší předtrénovaný model AI pro každý případ použití.

Pro sumarizaci textu je nejlepší – podle našeho názoru – Facebookův Bart Large CNN, který poskytuje velmi dobré výsledky, ale může být docela pomalý bez GPU.

Pro textovou klasifikaci jsme implementovali Facebookův Bart Large MNLI (pro anglickou klasifikaci) a Joe Davisonův XLM Roberta Large XLNI (pro neanglické jazyky). Oba jsou rychlé a velmi přesné.

Pro otázku a odpověď používáme Deepsetův Roberta Base Squad 2. Je rychlý a přesný, ale pro pokročilejší otázku a odpověď můžete chtít použít GPT-J.

A mnoho dalších!

Jaké jsou některé z nejlepších případů použití pro NLP Cloud?

Případy použití, které se zdají být používány nejvíce, jsou sumarizace textu, textová klasifikace a generování textu pomocí GPT-J pro generování popisu produktů, parafráze, generování článků…

Ale případy použití, které můžeme vidět mezi našimi zákazníky, jsou extrémně rozmanité a je úžasné vidět tolik skvělých nápadů!

Je něco jiného, co byste chtěli sdílet o NLP Cloud?

Zdá se nám, že AI pro textové porozumění a generování textu je konečně používána “následně” v skutečných produktech nebo interních pracovních postupech, více a více společnostmi.

Je skvělé vidět, že NLP není již pouze čistým výzkumným oborem, ale že existují skutečné obchodní případy, které mohou využívat NLP.

V NLP Cloud budeme pokračovat v našich nejlepších snahách, aby bylo pro každého snadné testovat a používat NLP v produkci.

Děkuji za skvělý rozhovor, čtenáři, kteří chtějí se dozvědět více, by měli navštívit NLP Cloud.

Unite.AI

Julien Salinas, zakladatel & CTO NLP Cloud – rozhovorová série

You may like