Intervjuer
Isaiah N. Granet, medgrundare och VD för Bland – Intervjuserie

Isaiah N. Granet, medgrundare och VD för Bland, är en startup-grundare och ingenjör vars bakgrund kombinerar teknisk genomförande med tidig entreprenöriell erfarenhet och långvarig social påverkan. Innan han lanserade sitt nuvarande företag deltog han i Z Fellows och Y Combinator, byggde ingenjörsupplevelse på Lantern och grundade San Diego Chill, en ideell organisation som samlade in över 2,5 miljoner dollar för att hjälpa barn med utvecklingsstörningar att få tillgång till idrott, vilket gav nationellt erkännande och fortsätter idag med hans engagemang på styrelsenivå.
Bland fokuserar på att bygga infrastruktur för AI-drivna telefonsamtal, som möjliggör för företag att distribuera röstagenter som kan hantera kundsupport, försäljning och operativa arbetsflöden i stor skala. Plattformen är utformad för att ersätta eller komplettera traditionella callcenter genom att erbjuda programmerbara röstinteraktioner, realtidsrespons och djupa integrationer med affärssystem, vilket positionerar den som en kärnlag i hur företag automatiserar kommunikation med kunder.
Du grundade San Diego Chill som tonåring för att skapa inkluderande tillgång till idrott för barn med utvecklingsstörningar, långt innan du gick med i Y Combinator eller lanserade Bland. Hur påverkade den tidiga erfarenheten av att bygga en verklig organisation din tillvägagångssätt när du grundade ett röstförst AI-företag som nu befinner sig mellan företag och deras kunder?
Mycket av mitt liv och arbete har fokuserat på att bygga. Från en ung ålder har jag haft en konstant önskan att förverkliga saker. När en idé eller en övertygelse om världen dyker upp i mitt huvud blir det omöjligt för mig att ignorera det. Att bygga San Diego Chill lärde mig inte bara att skapa och driva en organisation, utan också om den påverkan våra handlingar kan ha på andra. Att kunna ge tillbaka genom att skapa en organisation som annars aldrig skulle ha funnits är något djupt tillfredsställande. Lektionerna och värderingarna jag lärde mig från Chill bär jag med mig varje dag.
Efter att ha gått igenom YC 2023, vad övertygade dig om att företagsröstinfrastruktur fortfarande var grundläggande trasig nog för att motivera byggandet av ett slut-till-slut-system snarare än att lägga LLM på toppen av äldre IVR-verktyg?
Tänk på senaste gången du använde en bankchattbot. Du väntade troligen längre än du borde ha, fick ett svar som inte besvarade det du faktiskt frågade, och slutade med att ringa ändå. Sedan gick en robotröst igenom en meny med alternativ du inte ville ha, och att trycka på 0 gjorde ingenting användbart.
Banker har spenderat miljarder på att göra den upplevelsen möjlig, och chattbotar rankas fortfarande sist i kundtillfredsställelse med 29 %. Lägre än e-post. Lägre än callcenter, som alla redan klagar på.
Det har varit den dynamiken under två decennier. Företag försöker hålla kunder borta från sin personal. Kunder försöker komma till en person. Ingen av sidorna vinner.
Problemet är inte att företag inte vill lösa det. De kan bara inte bemanna sig till en bra upplevelse i stor skala. Ett callcenter som hanterar en miljon samtal per månad är en dyr och svår drift, och kvaliteten är ofta inkonsekvent av definition.
Det som har förändrats är att AI slutligen gör det möjligt att lösa samtal istället för att bara dirigera eller avvärja dem. Inte telefonträd. Inte väntemusik. En agent som förstår vad kunden frågar och hanterar det.
Men det fungerar bara om systemet är byggt för realtidsröst från grunden. När du lägger LLM på toppen av äldre IVR-verktyg eller syr ihop tredjepartstjänster, kryper fördröjning in och tillförlitlighet minskar. Samtal bryts.
Därför fokuserade vi på att bygga infrastrukturen från slut till slut. Röst fungerar bara om den känns omedelbar och naturlig. Om den inte gör det, hänger kunden upp.
Bland har tagit det ovanliga steget att bygga och vara värd för sin egen TTS, inferens och transkriptionsstack internt. Vilka avvägningar såg du i att förlita sig på tredjeparts-API:er som till slut drev dig mot att äga den fulla röstinfrastrukturlagret?
Varje lager du outsourcar lägger till fördröjning och risk.
De flesta röst-AI-plattformar är återförsäljare. De tar tredjeparts-transkription, lägger till en tredjepartsmodell, dirigerar den genom tredjeparts-TTS och ger dig resultatet. Det kan fungera i en kontrollerad demo. Det fungerar sällan när samtalvolymen ökar eller något i kedjan går fel.
Det finns också ett dataproblem. Leverantörer av grundmodeller, OpenAI är det uppenbara exemplet, har använt kunddata för att träna modeller. De säger att företagslicenser är annorlunda. Kanske är de det. Men den osäkerheten räcker för att göra många säkerhets- och regelefterlevnadsteam obekväma.
När du själv är värd för hela stacken — transkription, inferens, TTS, orkestrering — kontrollerar du varje millisekund och varje modelluppdatering. Kunddata stannar inom kundens ekosystem. Den berör inte en tredjeparts utbildningspipeline, passerar inte genom infrastruktur som du inte kan granska och flyttar inte om kunden inte bestämmer det.
Du kan ge varje företagskund dedikerad infrastruktur så att en topp från ett annat företag aldrig berör deras prestanda. Och när något går sönder kan du faktiskt fixa det istället för att vänta på en leverantörs leverantör.
För reglerade branscher behöver vissa kunder hela stacken i sin egen VPC eller på plats. Det är bara möjligt om leverantören faktiskt äger vad de distribuerar.
Traditionell kontaktcenterautomatisering har fokuserat kraftigt på att avvärja enkla supportanrop. Varför bestämde du dig för att prioritera långsvansiga, komplexa kundinteraktioner istället för att optimera för volymbaserad automatisering först?
Traditionell kontaktcenterautomatisering har i stor utsträckning fokuserat på att avvärja enkla supportanrop. Varför prioriterade du komplexa, långsvansiga interaktioner istället för att börja med högvolymärenden?
Vi tog det motsatta tillvägagångssättet. Om vi kan hantera de mest komplexa och känsliga anropen på ett tillförlitligt sätt, blir allt annat enkelt. Målet är inte att bygga demon, utan att leverera fullständig agentlösning av samtal i stor skala. Det kräver lågfördröjnings-, högtillförlitliga system som kan hantera de extrema fallen som faktiskt definierar riktiga kundkonversationer.
Dina agenter integreras alltmer i CRM och operativa databaser för att lösa anrop från slut till slut. Hur förändrar röstbaserad automatisering arkitekturen för företagsarbetsflöden jämfört med chattbaserade copiloter?
Äldre system pratar ofta inte med varandra. CRM, schemaläggningsverktyg och faktureringsplattformar är siloer. Utan tillgång till dessa system kan en röstagent bara svara på generiska frågor och inte mycket mer.
Den kan inte leta upp ett konto, uppdatera en post eller boka en tid. Den samlar in information och lämnar över den. Samtidigt tillbringar mänskliga representanter tid på arbete som inte borde beröra en person: logga anropsanteckningar, manuellt schemalägga tider, dra ut rapporter för att ta reda på vem som behöver en uppföljning.
Deep integration är vad som gör det möjligt att lösa anrop från slut till slut. Utan det har du bara automatiserat hälsningen, inte anropet.
Den nyliga Soulja Boy-röstklondemo visade hur konversationsagenter kan utökas bortom interna operationer till varumärkesorienterade upplevelser. Ser du företagsröstagenter utvecklas till kundorienterade digitala representanter som opererar kontinuerligt över försäljnings-, support- och marknadsföringskanaler?
Absolut. Vi ser en värld där varje kund har ett personligt förhållande till sina favorit- och väsentliga företag. Vad som är viktigt är att AI inte bara är “roligt” utan också kan lösa dina mest komplexa problem på riktigt.
Realtidsröst introducerar fördröjning, hallucination och identitetsutmaningar som inte finns i textbaserade AI-distributioner. Vilka var de svåraste tekniska begränsningarna du stötte på när du byggde agenter som behöver svara på under en sekund samtidigt som de upprätthåller konversationsprecision?
Fördröjning. Det är där de flesta demon dör.
Om en chattbot tar tre sekunder att svara, väntar användaren. Om en röstagent pausar besvärande efter att du har slutat tala, är samtalet redan brutet. Svar måste komma tillbaka på under 400 millisekunder. De flesta plattformar kan inte komma dit eftersom de syr ihop flera tredjeparts-tjänster, var och en med sin egen fördröjning.
Men fördröjning är bara en del av det. Riktiga kundsamtal är smutsiga på sätt som demon aldrig fångar. Människor avbryter mitt i meningen. Bakgrundsbrus skär in. Samtalare byter språk. Förfrågningar är otydliga. Den röst-AI som håller i produktion hanterar avbrott utan att förlora kontext, anpassar sig när samtal går utanför manuskriptet och gör det utan att låta som att den buffrar.
Kunder jämför inte röst-AI med andra botar. De jämför den med att tala med en person. Det är ribban.
Det finns en ökande granskning av hur mänskligt ljudande AI-system representerar sig själva under interaktioner. Hur bör företag tänka på transparens när de distribuerar konversationsagenter som kan vara otillgängliga från mänsklig personal?
Vi tror starkt på ärlighet och transparens för slutanvändaren. Medan viss reglering är betungande och hämmande, är någon form av bedrägeri inte acceptabelt. Vi arbetar med företag för att utveckla sömlösa upplevelser som bygger på tillit med kunden.
När AI-agenter börjar hantera miljontals samtidiga kundinteraktioner, vilka operativa utmaningar tenderar att dyka upp först när företag flyttar från pilotdistributioner till produktionsdistributioner i stor skala?
Det finns några saker som spelar roll i praktiken. Det första är modulär promptarkitektur. Monolitiska prompter är nästan omöjliga att felsöka. När ett anrop går fel, behöver du isolera exakt var och varför det hände, inte stirra på en vägg med instruktioner och försöka lista ut vilken rad som orsakade problemet.
Fullständig synlighet är lika viktig. Samtalssummeringar efteråt räcker inte. Du behöver verklig synlighet i vad agenten gör vid varje punkt i varje interaktion.
Spärrar är också avgörande, särskilt i reglerade branscher. Agenten måste stanna inom ramen för policyn. Det är inte valbart. Och om den inte gör det, måste det finnas en smidig återställning.
Slutligen finns det kunskapsförvaltning. Agenten behöver tillgång till proprietär data som produkter, policys och förfaranden. Plattformen bör också presentera kunskapsluckor automatiskt när de dyker upp i riktiga samtal, inte veckor senare efter att en kund har klagat.
Om vi blickar framåt, tror du att företagsröstagenter kommer att förbli uppgiftsspecifika verktyg eller kommer att utvecklas till generella AI-agenter som kan hantera hela affärsprocesser som initieras via konversation?
Om jag bara hade svaret! Jag tror att röstagenter kommer att utvecklas över hela företagsstacken, men det är osannolikt att se ett helt företag drivet av en röstagent. Det som är viktigt är att AI inte bara är “roligt” utan också kan lösa dina mest komplexa problem på riktigt. Jag tror att människor kommer att kunna få omedelbar, exakt och mer omfattande service från AI-agenter än de får idag. I själva verket tror vi att fler telefonsamtal kommer att ske när detta sker. Inte färre.
Tack för den underbara intervjun, läsare som vill lära sig mer kan besöka Bland.












