Connect with us

Dani Cherkassky, CEO a spoluzakladatel Kardome – Interview Series

Rozhovory

Dani Cherkassky, CEO a spoluzakladatel Kardome – Interview Series

mm

Dani Cherkassky, CEO a spoluzakladatel Kardome, přináší více než dvě desetiletí zkušeností v oblasti akustiky, zpracování signálů a vývoje algoritmů do popředí inovací ve voice technologii. Před založením Kardome působil jako technický ředitel ve společnosti Silentium Ltd., kde vedl spolupráci výzkumu a vývoje s předními společnostmi a výzkumnými institucemi. S doktorským titulem v oboru zpracování mikrofonových polí na Bar-Ilanově univerzitě kombinuje Cherkassky hluboké technické znalosti s jasnou misí — eliminovat frustrace z moderní interakce hlasem vytvořením technologie, která skutečně naslouchá lidem, ne hluku kolem nich.

Kardome je průkopníkem v oblasti řešení prostorového sluchu poháněných umělou inteligencí, která poskytují jasnou, personalizovanou hlasovou interakci v jakémkoli prostředí — od automobilů a konferenčních místností po chytré domovy a veřejné prostory. Jeho proprietární technologie shlukování řeči rozděluje hlasy na základě polohy, umožňující zařízením rozumět každému mluvčímu, jako by byl jediným osobou, která mluví. Navrženo tak, aby bylo hardwarově nezávislé a připravené pro hraní, platforma Kardome zlepšuje přesnost rozpoznávání řeči, zabezpečení a uživatelský опыт, pohánějící další generaci komunikace mezi lidmi a stroji.

Co vás a Dr. Alona Slapaka inspirovalo ke založení Kardome?

Inspirace pro Kardome vyrostla z kombinace fascinace a frustrace. S našimi zkušenostmi v oblasti řeči a audio, både v akademické sféře a v průmyslu, byli jsme nadšeni pokrokem v rozpoznávání řeči, zejména když se na scéně objevily hluboké neuronové sítě.

V tiché laboratoři byla technologie fantastická. Ale okamžik, kdy jste vyšli do skutečného světa, ta magie zmizela. Pozorovali jsme, že v hlučném autě, busy kanceláři nebo chaotickém domě, byly nejmodernější, pokročilé systémy sotva lepší než technologie 90. let. To byla velká bariéra progresu.

Hlas je nejvíce přirozený způsob, jak interagovat s našimi zařízeními, skutečný nástupce dotykového displeje. Ale aby k tomu došlo, technologie musela překonat chaos skutečného života. Rozhodli jsme se, že to bude naše mise. Strávili jsme rok v garáži, zápasíme s rovnicemi šíření zvukových vln a testováním nových nápadů, až jsme dosáhli průlomu: první demonstraci toho, co je nyní známo jako technologie prostorového sluchu Kardome.

V tu chvíli jsme věděli, že máme klíč. Založili jsme Kardome ne pouze proto, aby jsme vytvořili produkt, ale abychom zahájili revoluci v tom, jak lidé a stroje komunikují.

Mnohé hlasové asistenty bojují a často frustrují uživatele, když se hlasy překrývají nebo převládá hluk na pozadí. Proč konvenční metody fungují tak špatně v těchto reálných podmínkách?

Konvenční hlasové rozhraní fungují špatně ve skutečném světě, protože jejich software spoléhá na příliš jednoduchou metodu pro pochopení zvuku. Většina systémů používá více mikrofonů pro určení směru příjezdu zvuku, přístup, který se zaměřuje pouze na úhel zvuku a ignoruje další kritické 3D prostorové informace. Tato metoda okamžitě selhává v jakémkoli reálném prostředí — jako je auto, kancelář nebo obývací pokoj — protože tyto prostředí jsou plná odrazů, kde se zvukové vlny odrážejí od každé reflexní povrchu. Pro systém, který chápe pouze směr, je každý z těchto odražených odrazů vnímán jako nový zvuk z jiného směru.

To vytváří dezorientující efekt, jako by zařízení bylo v hale “akustických zrcadel”, kde jeden hlas parece pocházet z stovek směrů současně. Neschopnost rozlišit rozlišné hlasy mluvčích od bouře odrazů, systém nemůže správně dekódovat zvukový obraz. Tato fundamentální omezení je přesně důvod, proč současné hlasové technologie mají tak špatné vnímání audio v reálných, chaotických scénářích a nakonec selhávají při spolehlivém výkonu.

Technologie Kardome zachází s každou osobou, jako by byla jediným mluvčím v místnosti. Jaký technický průlom to umožňuje a jak se liší od konvenční vzdálené hlasové rozpoznávání?

Náš technický průlom je proprietární technologie nazvaná Spatial Hearing AI, která překonává konvenční metody, které pouze detekují směr zvuku, a místo toho přesně určuje jeho polohu v trojrozměrném prostoru. Funkční analýzou celého odrazového vzoru, který hlas vytváří v místnosti, zachází s komplexním způsobem, jakým se zvuk odráží od povrchů, jako s jedinečným “akustickým otiskem” pro tuto konkrétní polohu. Naše AI okamžitě a pasivně odvozuje tento otisk pro každý zdroj zvuku, efektivní mapování prostředí. Tento přístup založený na poloze se fundamentálně liší od konvenčních směrových systémů, které se snadno zmátly samotnými odrazy, které my používáme jako cenná data. Zatímco oni slyší jednoho mluvčího jako dav echo, naše technologie využívá kompletní odrazový vzor pro určení skutečného zdroje. Praktickým výsledkem je, že zařízení s podporou Kardome může se zaměřit na jednu osobu v hlučném prostředí a slyšet ji, jako by mluvila sama v tiché místnosti. Kromě toho zajišťuje Cognition AI, že systém nejen slyší slova, ale také chápe, kdo je řekl a co znamenají v kontextu.

Hlasový AI má svůj “iPhone moment.” Z vašeho pohledu, co to znamená a jak blízko jsme k skutečnému mainstreamovému přijetí?

Pro mě “iPhone moment” znamená, že hlas je konečně připraven stát se standardním způsobem, jak interagujeme s výpočetními zařízeními.

Vidím, jak výrobci závodí, aby integrovali technologie hlasového AI napříč celou řadou produktů. Automobily se stávají hlasovými rozhraními z bezpečnostních důvodů. Chytré domy potřebují hlasová uživatelská rozhraní, protože není možné umístit dotykové obrazovky všude. Tradiční elektronika také přidává hlasové schopnosti, protože je často rychlejší než navigace v menu. Zatímco mnoho technologií pohání přijetí hlasu, skutečná revoluce bude diktována robotikou. Jakmile se roboti stanou součástí našich domovů a pracovišť, hlas se stane jediným skutečně účinným a přirozeným rozhraním pro interakci.

Pro tuto koexistenci, aby byla bezproblémová, roboti musí rozumět nám na lidské úrovni. Musí chápat kontext a nuance přirozené řeči, ne pouze klíčová slova. Potřebují prostorovou povědomí tak přesné, že to feels like magic — instinktivně vědět, že vy jste ten, kdo mluví s nimi, i v hlučném pokoji. Kriticky, tato inteligence musí fungovat na hraně pro okamžitou, soukromou a spolehlivou komunikaci.

To není inkrementální zlepšení; je to fundamentální posun v tom, jak lidé a stroje budou interagovat. Budujeme technologii, aby vedla tuto redefinici. Řekl bych, že jsme asi 24 měsíců od bodu inflexe, kdy se hlas stane očekávaným rozhraním spíše než funkcí, která je hezká mít.

V praktických termínech, jak vidíte prostorový sluch a kognitivní AI transformující každodenní zařízení — od automobilů a chytrých domovů po nositelná zařízení a veřejné prostory?

Transformace spočívá v umožnění přirozené interakce kdekoli jste, bez přizpůsobování vašeho chování, aby se přizpůsobilo technologii. V automobilech to znamená skutečně bezruční ovládání, které funguje během jízdy na dálnici s hudbou a pasažéry, kteří mluví. Chytré domy se stanou skutečně inteligentními, když budou rozumět, kdo mluví a odkud, zpracovávají současně požadavky bez zmatku.

Klíčovým poznatkem je, že prostorový sluch AI ne pouze zlepšuje rozpoznávání řeči — umožňuje zcela nové interakční paradigmy. Když zařízení mohou pochopit celý akustický scénář, mohou se účastnit přirozeného toku lidské komunikace, spíše než spoléhat se na umělé omezení. Nositelná zařízení se stanou mnohem užitečnějšími, když budou moci izolovat váš hlas od okolních konverzací, a veřejné prostory mohou nabízet personalizovanou, ale soukromou hlasovou asistenci. Jak jsem zmínil pro robotiku, tato změna představuje fundamentální posun v tom, jak lidé a stroje budou interagovat s roboty, které se stanou součástí našich životů.

Privátnost je rostoucí obavou s vždy naslouchajícími zařízeními. Jak Kardome vyvažuje poptávku po zpracování na zařízení s potřebou výkonu a přesnosti?

Velká většina dnešních řešení Voice AI funguje na hybridním modelu, složeného z komponenty na zařízení (hraně) a cloudové komponenty. Zatímco zpracování na hraně nepředstavuje žádné problémy s privátností, protože data nikdy neopouštějí zařízení uživatele, cloudové zpracování představuje významnou výzvu pro ochranu dat.

Kardome řeší tuto výzvu významně rozšiřujíc schopnosti komponenty na hraně. Zpracováváním více dat místně a snižováním závislosti na cloudu zajišťuje Kardome, že citlivá hlasová data nikdy neopouštějí zařízení, nabízející tak lepší ochranu privátnosti ve srovnání s ostatními systémy na trhu.

Velkou obavou s “vždy naslouchajícími” zařízeními není mikrofon, který zachycuje audio, ale spíše riziko, že toto audio bude nahráno do cloudu pro analýzu. V praxi je prohibitivní náklad na nepřetržité cloudové zpracování znamená, že většina komerčních systémů se tomu vyhýbá, ale to má cenu: nižší kvalitu a méně reaktivní Voice UI.

Kardome řeší tuto kompromis, přivádějíc silné, vždy zapnuté jazykové modely přímo na zařízení. S naší technologií je akustický scénář, přirozená řeč a kontext analyzovány v reálném čase přímo na zařízení. Žádná hlasová data jsou nikdy nahrána nebo uložena. Tento inovativní přístup umožňuje Kardome nabízet jak robustní ochranu privátních dat, tak i vysoce efektivní Voice UI, eliminuje tak kompromis, se kterým se uživatelé目前 setkávají.

Pohled na širší průmysl, jaké jsou největší překážky, kterým hlasový AI ještě musí čelit, než se stane dominantním rozhraním napříč spotřební elektronikou?

Největší překážkou je, že hlasový AI ještě nekomunikuje jako lidé. Dokud hlasový AI nebude schopen slyšet a rozumět jako lidé, s plným kontextovým povědomím a schopností rozumět konverzačnímu toku, nestane se primárním rozhraním, které lidé chtějí.

Zásadním technickým překážkou je, že většina technologií Voice AI je cloudová. To inherentně brání nepřetržitému naslouchání a tím blokuje pochopení konverzačního toku.

Průlom nastane, když budou hlasové systémy schopny skutečně rozumět konverzačnímu kontextu a reagovat s toutéž intuitivní povědomím, jakým mají lidé. To je okamžik, kdy se hlas stane dominantním rozhraním napříč všemi spotřebními elektronikami.

Jak si myslíte, že se vztah spotřebitelů s hlasovými asistenty změní, jakmile budou vyřešeny problémy s přesností a spolehlivostí v hlučném prostředí?

Jakmile budou vyřešeny spolehlivost a přirozená konverzace, hlasoví asistenti přejdou z novinek na nezbytná rozhraní, která lidé budou používat po celý den. Když lidé vědí, že hlasový AI bude rozumět jim správně poprvé, i v náročných prostředích, přestanou se přizpůsobovat technologii a začnou ji používat instinktivně s přirozeným jazykem a kontextuálními konverzacemi.

Budoucnost hlasové interakce bude prediktivní a proaktivní. Představte si, že vaše zařízení rozumí nejen vašim slovům, ale také vašemu tónu, emocionálním signálům a konverzačnímu subtextu. Současné systémy bojují s přirozeným rytmem konverzace a nemohou zvládnout přerušování, střídání a kontextuální pochopení. Lidé se přizpůsobují, když jsou přerušeni; hlasový AI se často zmátne. Pro OEM je výzvou integrovat hlasový AI, který může dodat tuto budoucnost rozhraní bez složitosti a hardwarových požadavků dnešních řešení.

Nakonec, kde vidíte Kardome a ekosystém hlasového AI za pět let, a jaké milníky budou definovat, zda jsme skutečně vstoupili do éry hlasového prvního počítačového zpracování?

Za pět let bude hlasový AI tak všudypřítomný jako dotykové displeje a klávesnice jsou dnes, a bude očekáván v prakticky každém výpočetním zařízení. Kardome bude operačním systémem, který umožní uživatelům ovládat svá zařízení hlasem, umožňujícím přirozenou interakci s jakýmikoli zařízeními v jakémkoli prostředí, od robotů po chytré brýle, automobily.

Definující milníky budou behaviorální spíše než technologické. Budeme vědět, že jsme dosáhli hlasového prvního počítačového zpracování, když lidé přestanou思考 o hlasových příkazech a začnou mít přirozené konverzace se svým okolím, když multiuživatelská prostředí budou fungovat bezproblémově, a když děti vyrostou s očekáváním, že budou mluvit s jakýmikoli zařízeními přirozeně. Konečným měřítkem nebude, jak sofistikovaná naše technologie se stane, ale jak přirozeně lidé budou interagovat s digitálním světem.

Děkuji za skvělý rozhovor, čtenáři, kteří chtějí se více dozvědět, by měli navštívit Kardome.

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.