Interviews
Dani Cherkassky, CEO og medstifter af Kardome – Interviewserie

Dani Cherkassky, CEO og medstifter af Kardome, bringer mere end to årtiers erfaring inden for akustik, signalbehandling og algoritmeudvikling til fronten af innovativ stemmeteknologi. Før han stiftede Kardome, fungerede han som CTO i Silentium Ltd., hvor han ledte R&D-samarbejder med Tier 1-virksomheder og forskningsinstitutioner. Med en ph.d. i mikrofonarraybehandling fra Bar-Ilan University kombinerer Cherkassky dyb teknisk ekspertise med en klar mission – at eliminere frustrationerne ved moderne stemmeinteraktion ved at skabe teknologi, der virkelig lytter til mennesker, ikke støjen omkring dem.
Kardome er en pionér inden for AI-drevne rumlige høreløsninger, der leverer klare, personlige stemmeinteraktioner i enhver omgang – fra biler og konferencerum til smarte hjem og offentlige rum. Deres proprietære talekluster-teknologi adskiller stemmer baseret på placering, så enheder kan forstå hver taler, som om de var den eneste person, der taler. Designed til at være hardware-agnostisk og edge-klar, forbedrer Kardomes platform talegenkendelsesnøjagtighed, sikkerhed og brugeroplevelse, og driver den næste generation af menneske-maskine kommunikation.
Hvad inspirerede dig og Dr. Alon Slapak til at stifte Kardome?
Inspirationen til Kardome voksede ud af en kombination af fascination og frustration. Med vores baggrund i tale og lyd, både i akademiet og industrien, var vi begejstrede over fremgangen i talegenkendelse, især da dybe neurale netværk kom på scenen.
I et stille laboratorium var teknologien fantastisk. Men det øjeblik, du trådte ind i den virkelige verden, forsvandt magien. Vi observerede, at i en støjende bil, et beskæftiget kontor eller et kaotisk hjem, var avancerede systemer på højeste niveau kun lidt bedre end teknologien fra 1990’erne. Dette var den store barriere for fremgang.
Stemme er den mest naturlige måde at interagere med vores enheder, den sande efterfølger til touchscreen. Men for at dette skal ske, skal teknologien overvinde kaos i det virkelige liv. Vi besluttede os for at gøre det til vores mission. Vi tilbragte et år i garagen, hvor vi kæmpede med lydbølgepropagationsligninger og testede nye ideer, indtil vi opnåede en gennembrud: den første demonstration af, hvad der nu er kendt som Kardomes rumlige høreløstechnologi.
I det øjeblik vidste vi, at vi havde nøglen. Vi stiftede Kardome ikke kun for at bygge et produkt, men for at starte en revolution i, hvordan mennesker og maskiner kommunikerer.
Mange taleassistenter kæmper og frustrerer ofte brugere, når stemmer overlapper eller baggrundsstøj tager over. Hvorfor fungerer konventionelle metoder så dårligt i disse virkelige forhold?
Konventionelle talebrugerflader fungerer dårligt i den virkelige verden, fordi deres software afhænger af en for simplet metode til at forstå lyd. De fleste systemer bruger multiple mikrofoner til at bestemme en lyds ankomstretning, en tilgang, der kun fokuserer på vinklen af en lyd, mens den ignorerer andre afgørende 3D-rumlige oplysninger. Denne metode fejler straks i enhver virkelig verdensindstilling – som en bil, et kontor eller et opholdsrum – fordi disse miljøer er fyldt med efterklang, hvor lydbølger bouncer af hver reflekterende overflade. For et system, der kun forstår retning, bliver hver af disse bouncende reflekser opfattet som en ny lyd fra en anden placering.
Dette skaber en desorienterende effekt, som om enheden var i en hal af ‘akustiske spejle’, hvor en enkelt stemme synes at komme fra hundredvis af retninger samtidig. Ude af stand til at skelne de distinkte stemmer af talerne fra stormen af reflekser, kan systemet ikke korrekt afkode lydscenen. Denne fundamentale begrænsning er præcis, hvorfor nuværende taleteknologier har så dårlig perception af audio i virkelige, kaotiske scenarier og i sidste ende fejler i at fungere pålideligt.
Kardomes teknologier behandler hver person, som om de var den eneste, der taler i rummet. Hvad er den tekniske gennembrud, der gør dette muligt, og hvordan adskiller det sig fra konventionel langdistance talegenkendelse?
Vores tekniske gennembrud er en proprietær teknologi kaldet Spatial Hearing AI, der overgår konventionelle metoder, der kun kan detektere en lyds retning, og i stedet kan bestemme dens præcise placering i tre dimensioner. Det fungerer ved at analysere hele refleksmønsteret, en stemme skaber i et rum, og behandle den komplekse måde, lyd bouncer af overflader som en unik ‘akustisk fingeraftryk’ for den specifikke position. Vores AI slutninger straks og passivt denne fingeraftryk for hver lydkilde, og kartografier miljøet effektivt. Denne placering-baserede tilgang adskiller sig fundamentalt fra konventionelle retning-drevne systemer, der let bliver forvirret af de reflekser, vi bruger som værdifulde data. Mens de hører en enkelt taler som en mængde ekkoer, udnytter vores teknologi det komplette refleksmønster til at bestemme den faktiske kilde. Det praktiske resultat er, at en Kardome-aktiveret enhed kan fokusere på en person i et støjende miljø og høre dem, som om de talte alene i et stille rum. Yderligere sikrer Cognition AI, at systemet ikke kun hører ordene, men også forstår, hvem der sagde dem, og hvad de mener i kontekst.
Stemme-AI siges at have sin “iPhone-øjeblik”. Fra dit perspektiv, hvad betyder det, og hvor tæt er vi på sand mainstream-accept?
For mig betyder “iPhone-øjeblikket”, at stemme endelig er klar til at blive den standardmåde, vi interagerer med beregningsenheder på.
Jeg ser, at fabrikanter kapløber for at integrere stemme-AI-teknologier på tværs af hele produktlinjer. Biler bliver til stemme-første grænseflader af sikkerhedsgrunde. Smarthjem har brug for stemmebrugerflader, fordi det ikke er praktisk at placere touchscreen overalt. Traditionel elektronik tilføjer også stemmekapaciteter, fordi det ofte er hurtigere end at navigere i menuer. Mens mange teknologier driver adoption af stemme, vil den sande revolution blive dikteret af robotter. Da robotter bliver integreret i vores hjem og arbejdspladser, vil stemme opstå som den eneste virkelig effektive og naturlige grænseflade for interaktion.
Til denne samexistens skal være problemfri, skal robotter forstå os på et menneskeligt niveau. De skal kunne forstå kontekst og nuance i naturlig tale, ikke kun nøgleord. De kræver en rumlig bevidsthed, der er så præcis, at det føles magisk – instinktivt at vide, at du er den, der taler til dem, selv i et støjende rum. Kritisk set skal denne intelligens fungere på kanten for instant, privat og pålidelig kommunikation.
Dette er ikke en inkrementel forbedring; det er en fundamental skift i, hvordan mennesker og maskiner vil interagere. Vi bygger teknologien til at lede denne omdefinering. Jeg ville sige, at vi er omkring 24 måneder væk fra inflexionspunktet, hvor stemme bliver den forventede grænseflade snarere end en nice-to-have-funktion.
I praktiske termer, hvordan ser du, at rumlig hørelse og kognition AI forvandler hverdagsenheder – fra biler og smarthjem til wearables og offentlige rum?
Transformationen handler om at enable naturlig interaktion, hvor som helst du er, uden at skulle tilpasse dit adfærd til at tilpasse teknologien. I biler betyder det virkelig håndfri kontrol, der fungerer, mens du kører i motorvejsfart med musik spillet og passagerer, der taler.
Smarthjem bliver virkelig intelligente, når de kan forstå, hvem der taler, og fra hvilken placering, og håndtere samtidige anmodninger uden forvirring.
Den centrale indsigt er, at rumlig hørelse AI ikke kun forbedrer talegenkendelse – det enable fuldstændigt nye interaktionsparadigmer. Når enheder kan forstå den komplette akustiske scene, kan de deltage i den naturlige flow af menneskelig kommunikation, snarere end at afhænge af kunstige begrænsninger. Wearables bliver langt mere nyttige, når de kan isolere din stemme fra omgivende samtaler, og offentlige rum kan tilbyde personlig, men privat stemmeassistance. Som nævnt for robotter, udgør dette en fundamental skift i, hvordan mennesker og maskiner vil interagere med robotter, der bliver integreret i vores liv.
Privatliv er en voksende bekymring med altid-lyttenheder. Hvordan balancerer Kardome kravet om på-enhed-behandling med behovet for ydelse og nøjagtighed?
Det overvældende flertal af i dag’s Voice AI-løsninger opererer på en hybridmodel, bestående af en på-enhed (edge)-komponent og en cloud-baseret komponent. Mens på-enhed-behandling ikke udgør nogen privatlivsproblemer, da data aldrig forlader brugerens enhed, præsenterer cloud-behandling en betydelig udfordring for dataprotokol.
Kardome løser denne udfordring ved at udvide på-enhed-komponentens kapaciteter betydeligt. Ved at behandle mere data lokalt og reducere afhængigheden af cloud, sikrer Kardome, at følsomme stemme-data aldrig forlader enheden, og tilbyder dermed overlegen privatlivsbeskyttelse i forhold til andre systemer på markedet.
En stor bekymring med “altid-lyttenheder” er ikke, at mikrofonen fanger lyd, men snarere risikoen for, at denne lyd uploades til cloud til analyse.
I praksis er det forbudte omkostningerne ved kontinuerlig cloud-behandling, så de fleste kommercielle systemer undgår det, men dette sker på bekostning af en lavere kvalitet og mindre responsiv Voice UI.
Kardome løser dette kompromis ved at bringe kraftfulde, altid-på sprogmodeller til selv enheden. Med vores teknologi analyseres den akustiske scene, naturlig tale og kontekst i realtid direkte på enheden. Ingen stemme-data uploades eller gemmes nogensinde. Denne innovative tilgang enable Kardome til at levere både robust dataprotokol og en højeffektiv Voice UI, og eliminerer dermed kompromiset, brugerne i øjeblikket står over for.
Set på branchen i bredere perspektiv, hvad er de største hindringer, stemme-AI stadig må overvinde, før det bliver den dominerende grænseflade på forbruger-elektronik?
Den største hindring er, at stemme-AI stadig ikke kommunikerer som mennesker gør. Indtil stemme-AI kan høre og forstå som mennesker, med fuld kontekstbevidsthed og evnen til at forstå konversationsflow, vil det ikke blive den primære grænseflade, folk ønsker, det skal være.
En betydelig teknisk hindring på dette punkt er, at de fleste stemme-AI-teknologier er cloud-baseret. Dette forhindrer i sig selv kontinuerligt lytten og blokerer dermed konversationsflow-forståelsen.
Gennembruddet vil komme, når stemmesystemer kan virkelig forstå konversationskontekst og svare med samme intuitive bevidsthed, som mennesker har. Det er, når stemme vil blive den dominerende grænseflade på alle forbruger-elektronik.
Hvordan tror du, forbrugerens forhold til taleassistenter vil udvikle sig, når nøjagtighed og pålidelighed i støjende miljøer er løst?
Når pålidelighed og naturlig samtale er løst, vil taleassistenter gå fra nymodens funktioner til essentielle grænseflader, som folk afhænger af hele dagen. Når folk ved, at stemme-AI vil forstå dem korrekt første gang, selv i udfordrende miljøer, vil de stoppe med at tilpasse sig teknologien og begynde at bruge den instinktivt med naturlig sprog og kontekstuel samtale.
Fremtiden for stemmeinteraktion vil være prædictiv og proaktiv. Forestil dig, at din enhed forstår ikke kun dine ord, men også din tone, emotionelle signaler og konversations-understrøm. Nuværende systemer kæmper med den naturlige rytme af samtale og kan ikke håndtere afbrydelser, skift af taler og kontekstuel forståelse. Mennesker tilpasser sig, når de bliver afbrudt; stemme-AI bliver ofte forvirret. For OEM’er er udfordringen at integrere stemme-AI, der kan levere denne fremtidige grænseflade uden kompleksiteten og hardware-kravene til i dag’s løsninger.
Til sidst, hvor ser du Kardome og stemme-AI-økosystemet om fem år, og hvilke milepæle vil definere, om vi virkelig er indtrådt i stemme-først-computing-alderen?
Om fem år vil stemme-AI være lige så almindelig som touchscreen og tastatur er i dag, og det vil være forventet i næsten enhver computerenhed. Kardome vil være det operative system, der vil enable brugere til at betjene deres enheder med stemme, og enable naturlig interaktion med enhver enhed i enhver omgang – fra robotter til smarte briller, til biler.
Milepælene vil være adfærds-mæssige snarere end tekniske. Vi vil vide, at vi har opnået stemme-først-computing, når folk stopper med at tænke over stemme-kommandoer og begynder at have naturlige samtaler med deres omgang, når multi-bruger-miljøer fungerer problemfrit, og når børn vokser op med forventningen om at tale naturligt til enhver enhed. Den ultimative målestok vil ikke være, hvor avanceret vores teknologi bliver, men hvor naturligt mennesker interagerer med den digitale verden.
Tak for det gode interview. Læsere, der ønsker at lære mere, skal besøge Kardome.












