Interviews
Isaiah N. Granet, Co-Founder og CEO af Bland – Intervieuserie

Isaiah N. Granet, Co-Founder og CEO af Bland, er en startup-stifter og ingeniør, hvis baggrund kombinerer teknisk udførelse med tidlig erhvervserfaring og langvarigt sociale indsats. Før han startede sin nuværende virksomhed, deltog han i Z Fellows og Y Combinator, opbyggede erfaring med ingeniørarbejde hos Lantern og stiftede San Diego Chill, en nonprofit-organisation, der samlede over 2,5 millioner dollars til at hjælpe børn med udviklingshandicaps til at få adgang til sport, og som fik national anerkendelse og fortsætter i dag med hans involvering på bestyrelsesniveau.
Bland fokuserer på at opbygge infrastruktur til AI-drevne telefonopkald, der giver virksomheder mulighed for at udrulle stemmeagenter, der kan håndtere kundesupport, salg og operationelle arbejdsprocesser i stor målestok. Platformen er designet til at erstatte eller supplere traditionelle callcentre ved at tilbyde programmerbare stemmeinteraktioner, realtidsrespons og dybe integrationer med virksomhedssystemer, og positionerer sig selv som en kernefunktion i, hvordan virksomheder automatiserer kommunikation med kunder.
Du stiftede San Diego Chill som teenager for at skabe inklusiv adgang til sport for børn med udviklingshandicaps, længe før du startede Y Combinator eller lancerede Bland. Hvordan påvirkede den tidlige erfaring med at bygge en virkelig organisation din tilgang til at stifte en stemme-først AI-virksomhed, der nu er placeret mellem virksomheder og deres kunder?
Meget af mit liv og arbejde har fokuseret på at bygge. Fra en ung alder havde jeg denne konstante trang til at bringe ting til live. Når en idé eller en overbevisning om verden dukker op i mit hoved, bliver det umuligt for mig at ignorere det. At bygge San Diego Chill lærte mig ikke kun, hvordan man skaber og driver en organisation, men også omvendt om den indvirkning, vores handlinger kan have på andre. At kunne give noget tilbage ved at skabe en organisation, der ellers aldrig ville have eksisteret, er noget dybt tilfredsstillende. Lektionerne og værdierne, jeg lærte fra Chill, bærer jeg med mig hver dag.
Efter at have gennemført YC i 2023, hvad overbeviste dig om, at virksomhedsstemme-infrastruktur stadig var fundamentalt fejlbehæftet nok til at retfærdiggøre opbygning af et end-to-end-system i stedet for at lagre LLM’er oven på legacy IVR-værktøjer?
Tænk på sidste gang, du brugte en bankchatbot. Du ventede sandsynligvis længere, end du burde have, fik et svar, der ikke besvarede, hvad du faktisk spurgte, og endte med at ringe alligevel. Så en robotstemme gennemgik en menu med muligheder, du ikke ønskede, og trykkede 0 gjorde intet nyttigt.
Banker har brugt milliarder på at gøre denne oplevelse mulig, og chatbots rangerer stadig lavest i kundetilfredshed med 29%. Lavere end e-mail. Lavere end callcentre, som alle allerede klager over.
Dette har været dynamikken i to årtier. Virksomheder forsøger at holde kunderne væk fra deres personale. Kunderne forsøger at komme til en person. Ingen af parterne vinder.
Problemet er ikke, at virksomheder ikke vil løse det. De kan bare ikke personale deres vej til en god oplevelse i stor målestok. Et callcenter, der håndterer en million opkald om måneden, er en dyr og svær operation, og kvaliteten er inkonsistent næsten per definition.
Hvad ændrede sig, er, at AI endelig gør det muligt at løse opkald i stedet for kun at routere eller afvise dem. Ikke telefontræer. Ikke holdemusik. En agent, der forstår, hvad kunden beder om, og håndterer det.
Men det fungerer kun, hvis systemet er bygget til realtidsstemme fra bunden. Når du lagrer LLM’er oven på legacy IVR-værktøjer eller syr sammen tredjeparts-tjenester, kommer forsinkelse ind, og pålideligheden falder. Samtaler bryder sammen.
Derfor fokuserede vi på at bygge infrastrukturen fra ende til anden. Stemme fungerer kun, hvis det føles øjeblikkeligt og naturligt. Hvis det ikke gør, hænger kunden op.
Bland har taget det usædvanlige skridt at bygge og hoste sin egen TTS, inference og transkriptionsstack internt. Hvilke kompromiser så du i at afhænge af tredjeparts-API’er, der til sidst fik dig til at eje den fulde stemme-infrastruktur-lag?
Hver lag, du outsourcer, tilføjer forsinkelse og tilføjer risiko.
De fleste stemme-AI-platforme er reseller. De tager tredjeparts-transkription, tilføjer en tredjeparts-model, routerer det gennem tredjeparts-TTS og giver dig resultatet. Det kan fungere i en kontrolleret demo. Det holder sjældent, når opkaldsvolumen stiger eller noget i kæden går galt.
Der er også et dataproblem. Grundmodel-udbydere, OpenAI er det åbenlyse eksempel, har brugt kundedata til at træne modeller. De siger, at enterprise-licenser er forskellige. Måske er de det. Men den usikkerhed er nok til at gøre mange sikkerheds- og compliance-hold til at være ubekvemme.
Når du selv-værter den fulde stack — transkription, inference, TTS, orkestrering — kontrollerer du hver millisekund og hver modelopdatering. Kundedata forbliver inden for kundens økosystem. Det rører ikke en tredjeparts-træningspipeline, passerer ikke gennem infrastruktur, du ikke kan auditere, og flytter ikke, medmindre kunden beslutter, det skal.
Du kan give hver enterprise-kunde dedikeret infrastruktur, så et peak fra en anden virksomhed aldrig rører deres ydeevne. Og når noget går galt, kan du faktisk fikse det i stedet for at vente på en vendors vendor.
For regulerede brancher har nogle kunder brug for den fulde stack i deres egen VPC eller på lokalt niveau. Det er kun muligt, hvis udbyderen faktisk ejer, hvad de udruller.
Traditionel kontaktcenter-automatisering har fokuseret tungt på at afvise simple support-opkald. Hvorfor besluttede du at prioritere lange, komplekse kundeinteraktioner i stedet for at optimere for volumen-baseret automatisering først?
Traditionel kontaktcenter-automatisering har primært fokuseret på at afvise simple support-opkald. Hvorfor prioriterede du komplekse, lange kundeinteraktioner i stedet for at starte med høj-volumen-brugstilfælde?
Vi tog den modsatte tilgang. Hvis vi kan håndtere de mest komplekse og følsomme opkald pålideligt, bliver alt andet let. Målet er ikke at bygge demos, men at levere fuld agent-løsning af opkald i stor målestok. Det kræver lav-forsinkelses-, høj-pålidelighedssystemer, der kan håndtere kanttilfælde, der faktisk definerer rigtige kunde-samtaler.
Dine agenter bliver mere og mere integreret i CRM’er og operationelle databaser for at løse opkald fra ende til anden. Hvordan ændrer stemme-naturlig automatisering arkitekturen af virksomhedsarbejdsprocesser i forhold til chat-baserede co-piloter?
Arbejdsprocesser er ofte ikke i stand til at tale sammen. CRM’er, planlægningsværktøjer og faktureringsplatforme er siloer. Uden adgang til disse systemer kan en stemmeagent kun besvare generelle spørgsmål og intet andet.
Den kan ikke se på en konto, opdatere en post eller booke en aftale. Den indsamler information og afleverer den. Imens bruger menneskelige repræsentanter tid på arbejde, der ikke burde røre en person: logger opkaldsnoter, manuelt planlægger aftaler, henter rapporter for at finde ud af, hvem der har brug for en opfølgningsaktion.
Dybe integrationer er, hvad der gør det muligt at løse opkald fra ende til anden. Uden det har du kun automatiseret hilsenen, ikke opkaldet.
Den nylige Soulja Boy-stemme-klon-demo viste, hvordan samtale-agenter kan udvikle sig ud over interne operationer til at blive brand-orienterede oplevelser. Ser du, at enterprise-stemme-agenter vil udvikle sig til kunde-orienterede digitale repræsentanter, der kan håndtere hele forretningsprocesser, der initieres gennem samtale?
Absolut. Vi ser en verden, hvor hver kunde har en personlig relation til deres favorit- og essentielle virksomheder. Det vigtigste er, at AI ikke kun er “sjovt”, men kan løse dine mest komplekse problemer.
Realtids-stemme introducerer forsinkelse, hallucination og identitetsudfordringer, der ikke findes i tekst-baserede AI-udrulninger. Hvilke tekniske begrænsninger mødte du, da du byggede agenter, der skal svare på under en sekund, mens de opretholder samtale-præcision?
Forsinkelse. Det er, hvor de fleste demos dør.
Hvis en chatbot tager tre sekunder til at svare, venter brugeren. Hvis en stemmeagent pauserer akavet efter, du er færdig med at tale, er samtalen allerede brudt. Svar skal komme tilbage på under 400 millisekunder. De fleste platforme kan ikke nå dertil, fordi de syr sammen multiple tredjeparts-tjenester, hver med sin egen forsinkelse.
Men forsinkelse er kun en del af det. Rigelige kundeopkald er beskidte på måder, demos aldrig fanger. Mennesker afbryder midt i en sætning. Baggrundsstøj kommer ind. Opkaldere skifter sprog. Anmodninger er vagt definerede. Stemme-AI, der holder i produktion, håndterer afbrydelser uden at miste kontekst, tilpasser, når samtaler går af sporet, og gør det uden at lyde, som om det bufferer.
Kunderne sammenligner stemme-AI ikke med andre bots. De sammenligner det med at tale med en person. Det er standarden.
Der er en stigende undersøgelse af, hvordan menneske-lignende AI-systemer repræsenterer sig selv under interaktioner. Hvordan bør virksomheder tænke over gennemsigtighed, når de udruller samtale-agenter, der kan være umulige at skelne fra menneskeligt personale?
Vi tror fast på ærlighed og gennemsigtighed for slutbrugeren. Selv om nogen regulering er byrdefuld og kvælende, er enhver form for bedrag ikke acceptabelt. Vi arbejder med virksomheder for at udvikle sammenhængende oplevelser, der er baseret på tillid med kunden.
Når AI-agenter begynder at håndtere millioner af samtidige kundeinteraktioner, hvilke operationelle udfordringer dukker op først, når virksomheder går fra pilot-udrulninger til produktions-skala-udrulninger?
Et par ting betyder noget i praksis. Det første er modulær prompt-arkitektur. Monolitisk prompt er næsten umulig at fejlfinde. Når et opkald går galt, skal du isolere præcis, hvor og hvorfor det skete, ikke stirre på en mur af instruktioner og prøve at finde ud af, hvilken linje forårsagede problemet.
Fullständig oversigt betyder lige så meget. Opkalds-resumer er ikke nok. Du har brug for realtids-synlighed i, hvad agenten gør på hvert punkt i hver interaktion.
Barrierer er også essentielle, især i regulerede brancher. Agenten skal holde sig inden for politik. Det er ikke valgfrit. Og hvis det ikke gør, skal der være en elegant backup.
Til sidst er der videnstyring. Agenten har brug for adgang til proprietær data som produkter, politikker og procedurer. Platformen skal også fremhæve viden-lukker automatisk, når de dukker op i rigtige opkald, ikke uger senere, efter en kunde har klaget.
Settende fremad, tror du, at virksomheds-stemme-agenter vil forblive opgave-specifikke værktøjer eller udvikle sig til generaliserede AI-agenter, der kan håndtere hele forretningsprocesser selvstændigt, initiaret gennem samtale?
Hvis jeg kun havde svaret! Jeg tror, at stemme-agenter vil udvikle sig over hele virksomheds-stakken, men det er usandsynligt, at se en hel virksomhed køres af en stemmeagent. Det sagde, tror jeg, at mennesker vil kunne få instant, præcis og mere omfattende service fra AI-agenter end de får i dag. Faktisk tror vi, at der vil ske flere telefonopkald, når dette sker. Ikke færre.
Tak for det gode interview. Læsere, der ønsker at lære mere, skal besøge Bland.












