Interviews
Isaiah N. Granet, Mitgründer und CEO von Bland – Interview-Serie

Isaiah N. Granet, Mitgründer und CEO von Bland, ist ein Startup-Gründer und Ingenieur, dessen Hintergrund technische Umsetzung mit früher unternehmerischer Erfahrung und langfristiger sozialer Auswirkungsarbeit verbindet. Bevor er sein aktuelles Unternehmen gründete, nahm er an Z Fellows und Y Combinator teil, baute Erfahrungen im Ingenieurwesen bei Lantern auf und gründete San Diego Chill, eine Non-Profit-Organisation, die über 2,5 Millionen Dollar sammelte, um Kindern mit Entwicklungsstörungen den Zugang zu Sportmöglichkeiten zu ermöglichen, und die national anerkannt wurde und auch heute noch mit seiner Beteiligung auf VorstandsEbene fortgeführt wird.
Bland konzentriert sich darauf, Infrastruktur für künstlich intelligente Telefonanrufe zu entwickeln, um es Unternehmen zu ermöglichen, Sprachassistenten zu deployen, die Kundensupport, Verkäufe und operative Workflows im großen Maßstab abwickeln können. Die Plattform ist darauf ausgelegt, traditionelle Callcenter zu ersetzen oder zu ergänzen, indem sie programmierbare Sprachinteraktionen, Echtzeitreaktionen und tiefe Integrationen mit Geschäftssystemen anbietet und sich als Kernschicht in der Automatisierung der Kommunikation zwischen Unternehmen und Kunden positioniert.
Sie haben San Diego Chill als Teenager gegründet, um Kindern mit Entwicklungsstörungen Zugang zu Sportmöglichkeiten zu ermöglichen, lange bevor Sie Y Combinator oder Bland gründeten. Wie hat diese frühe Erfahrung bei der Gründung einer realen Organisation Ihre Herangehensweise an die Gründung eines sprachbasierten KI-Unternehmens beeinflusst, das jetzt zwischen Unternehmen und ihren Kunden sitzt?
Ein großer Teil meines Lebens und meiner Arbeit hat sich auf das Aufbauen konzentriert. Von jungem Alter an hatte ich das ständige Verlangen, Dinge zum Leben zu erwecken. Sobald eine Idee oder eine Überzeugung über die Welt in meinem Kopf aufkommt, kann ich sie nicht mehr ignorieren. Das Aufbauen von San Diego Chill hat mich nicht nur gelehrt, wie man eine Organisation gründet und leitet, sondern auch, wie unsere Handlungen Auswirkungen auf andere haben können. Es ist sehr lohnend, zurückzugeben, indem man eine Organisation schafft, die sonst nie existiert hätte. Die Lektionen und Werte, die ich von der Chill gelernt habe, begleiten mich jeden Tag.
Nachdem Sie 2023 YC durchlaufen haben, was hat Sie davon überzeugt, dass die Unternehmenssprachinfrastruktur immer noch grundlegend defekt ist und dass es gerechtfertigt ist, ein End-to-End-System aufzubauen, anstatt LLMs auf traditionelle IVR-Tools aufzuschichten?
Denken Sie an das letzte Mal, als Sie einen Bank-Chatbot verwendet haben. Sie haben wahrscheinlich länger gewartet, als Sie sollten, eine Antwort erhalten, die nicht das beantwortet hat, was Sie tatsächlich gefragt haben, und dann angerufen. Dann hat eine robotische Stimme Sie durch ein Menü von Optionen geführt, die Sie nicht wollten, und das Drücken von 0 hat nichts Nützliches bewirkt.
Banken haben Milliarden ausgegeben, um dieses Erlebnis möglich zu machen, und Chatbots rangieren immer noch auf dem letzten Platz bei der Kundenzufriedenheit mit 29 %. Niedriger als E-Mail. Niedriger als Callcenter, über die sich bereits jeder beschwert.
Dies war die Dynamik für zwei Jahrzehnte. Unternehmen versuchen, Kunden von ihrem Personal fernzuhalten. Kunden versuchen, zu einer Person zu gelangen. Keine Seite gewinnt.
Das Problem ist nicht, dass Unternehmen es nicht reparieren wollen. Sie können es einfach nicht mit Personal zu einem guten Erlebnis im großen Maßstab kommen. Ein Callcenter, das eine Million Anrufe pro Monat abwickelt, ist ein teures, schwieriges Unternehmen, und die Qualität ist fast per Definition unbeständig.
Was sich geändert hat, ist, dass KI es jetzt ermöglicht, Anrufe zu lösen, anstatt sie nur umzuleiten oder abzulenken. Keine Telefonbäume. Keine Wartemusik. Ein Agent, der versteht, was der Kunde fragt, und es bearbeitet.
Aber das funktioniert nur, wenn das System von Grund auf für Echtzeit-Sprache konzipiert ist. Wenn Sie LLMs auf traditionelle IVR-Tools oder Drittanbieter-Dienste aufschichten, schleicht sich Verzögerung ein und die Zuverlässigkeit sinkt. Gespräche brechen zusammen.
Deshalb haben wir uns auf den Aufbau der Infrastruktur von Grund auf konzentriert. Sprache funktioniert nur, wenn sie sofort und natürlich erscheint. Wenn nicht, legt der Kunde auf.
Bland hat den ungewöhnlichen Schritt unternommen, seine eigene TTS-, Inferenz- und Transkriptions-Stack intern aufzubauen und zu hosten. Welche Kompromisse sahen Sie bei der Nutzung von Drittanbieter-APIs, die Sie letztendlich dazu veranlassten, die gesamte Sprachinfrastruktur-Ebene zu besitzen?
Jeder Layer, den Sie auslagern, fügt Verzögerung und Risiko hinzu.
Die meisten Sprach-KI-Plattformen sind Wiederverkäufer. Sie nehmen Drittanbieter-Transkription, fügen ein Drittanbieter-Modell hinzu, leiten es durch Drittanbieter-TTS und übergeben das Ergebnis. Das kann in einem kontrollierten Demo funktionieren. Es hält selten stand, wenn die Anrufzahl ansteigt oder etwas in der Kette schiefgeht.
Es gibt auch ein Datenproblem. Anbieter von Grundmodellen, wie OpenAI, haben Kundendaten verwendet, um Modelle zu trainieren. Sie sagen, dass Unternehmenslizenzen anders sind. Vielleicht sind sie es. Aber diese Unsicherheit ist ausreichend, um viele Sicherheits- und Compliance-Teams unruhig zu machen.
Wenn Sie den gesamten Stack selbst hosten — Transkription, Inferenz, TTS, Orchestrierung — kontrollieren Sie jeden Millisekunden und jedes Modell-Update. Kundendaten bleiben innerhalb des Kundensystems. Sie berühren keine Drittanbieter-Trainingspipeline, passieren keine Infrastruktur, die Sie nicht auditen können, und bewegen sich nicht, es sei denn, der Kunde entscheidet sich dafür.
Sie können jedem Unternehmenskunden dedizierte Infrastruktur anbieten, sodass ein Anstieg von einem anderen Unternehmen nie dessen Leistung berührt. Und wenn etwas kaputt geht, können Sie es tatsächlich reparieren, anstatt auf einen Vendor-Vendor zu warten.
Für regulierte Branchen benötigen einige Kunden den gesamten Stack in ihrem eigenen VPC oder On-Premises. Das ist nur möglich, wenn der Anbieter tatsächlich das besitzt, was er bereitstellt.
Traditionelle Contact-Center-Automatisierung hat sich stark auf die Ablehnung einfacher Supportanrufe konzentriert. Warum haben Sie sich entschieden, komplexe, langschwänzige Kundeninteraktionen zu priorisieren, anstatt sich auf volumenbasierte Automatisierung zu konzentrieren?
Traditionelle Contact-Center-Automatisierung hat sich größtenteils auf die Ablehnung einfacher Supportanrufe konzentriert. Warum haben Sie komplexe, langschwänzige Interaktionen priorisiert, anstatt mit hochvolumigen Anwendungsfällen zu beginnen?
Wir haben einen anderen Ansatz gewählt. Wenn wir zuverlässig die komplexesten und sensibelsten Anrufe bearbeiten können, wird alles andere einfach. Das Ziel ist nicht, Demos zu bauen, sondern vollständige Agenten-Lösungen im großen Maßstab bereitzustellen. Dazu sind Systeme mit geringer Verzögerung und hoher Zuverlässigkeit erforderlich, die die Randfälle verwalten können, die tatsächliche Kunden-Gespräche definieren.
Ihre Agenten werden zunehmend in CRMs und operative Datenbanken integriert, um Anrufe endgültig zu lösen. Wie verändert sich die Architektur von Unternehmens-Workflows durch sprachbasierte Automatisierung im Vergleich zu chatbasierten Co-Piloten?
Legacy-Systeme sprechen oft nicht miteinander. CRMs, Scheduling-Tools und Billing-Plattformen sind isoliert. Ohne Zugriff auf diese Systeme kann ein Sprachagent nur allgemeine Fragen beantworten und nicht viel mehr.
Es kann nicht nach einem Konto suchen, einen Eintrag aktualisieren oder einen Termin buchen. Es sammelt Informationen und übergibt sie. Währenddessen verbringen menschliche Vertreter Zeit mit Arbeiten, die nicht von einer Person berührt werden sollten: Anrufnotizen protokollieren, Termine manuell planen, Berichte ziehen, um herauszufinden, wer eine Nachverfolgung benötigt.
Tiefe Integration ist das, was eine endgültige Lösung ermöglicht. Ohne sie haben Sie nur den Gruß automatisiert, nicht den Anruf.
Das kürzliche Soulja-Boy-Sprachklon-Demo zeigte, wie konversationale Agenten über interne Operationen hinaus in markenorientierte Erfahrungen erweitert werden können. Sehen Sie, dass Unternehmens-Sprachagenten zu kundenorientierten digitalen Vertretern evolvieren, die kontinuierlich über Vertriebs-, Support- und Marketing-Kanäle hinweg operieren?
Absolut. Wir sehen eine Welt, in der jeder Kunde eine persönliche Beziehung zu seinem Lieblings- und seinem wichtigsten Unternehmen hat. Wichtig ist, dass KI nicht nur “spaßig” ist, sondern tatsächlich komplexe Probleme lösen kann.
Echtzeit-Sprache introduceert Verzögerung, Halluzination und Identitätsprobleme, die in textbasierten KI-Implementierungen nicht existieren. Welche technischen Einschränkungen haben Sie beim Aufbau von Agenten, die in weniger als einer Sekunde antworten müssen, während sie konversationale Genauigkeit aufrechterhalten, als am schwierigsten empfunden?
Verzögerung. Das ist der Punkt, an dem die meisten Demos sterben.
Wenn ein Chatbot drei Sekunden braucht, um zu antworten, wartet der Benutzer. Wenn ein Sprachagent nachdem Sie fertig gesprochen haben, unangenehm pausiert, ist das Gespräch bereits gebrochen. Antworten müssen innerhalb von 400 Millisekunden zurückgegeben werden. Die meisten Plattformen können das nicht erreichen, weil sie mehrere Drittanbieter-Dienste zusammennähen, die jeweils ihre eigene Verzögerung hinzufügen.
Aber Verzögerung ist nur ein Teil davon. Echte Kundenanrufe sind auf eine Weise chaotisch, die Demos nie erfassen. Menschen unterbrechen mitten im Satz. Hintergrundgeräusche schneiden ein. Anrufer wechseln die Sprache. Anfragen sind vage. Die KI, die in der Produktion standhält, kann Unterbrechungen ohne Kontextverlust bewältigen, Anpassungen vornehmen, wenn Gespräche vom Drehbuch abweichen, und es tut, ohne wie ein Puffer zu klingen.
Kunden vergleichen Sprach-KI nicht mit anderen Bots. Sie vergleichen es mit dem Sprechen mit einer Person. Das ist der Maßstab.
Es gibt wachsende Kritik daran, wie menschenähnliche KI-Systeme sich während der Interaktion präsentieren. Wie sollten Unternehmen über Transparenz nachdenken, wenn sie konversationale Agenten bereitstellen, die möglicherweise nicht von menschlichem Personal zu unterscheiden sind?
Wir glauben fest an Ehrlichkeit und Transparenz für den Endbenutzer. Während einige Regulierungen belastend und hemmend sind, ist jede Form von Täuschung nicht akzeptabel. Wir arbeiten mit Unternehmen zusammen, um nahtlose Erfahrungen zu entwickeln, die auf Vertrauen mit dem Kunden basieren.
Wenn KI-Agenten Millionen von Kundeninteraktionen gleichzeitig bearbeiten, welche betrieblichen Herausforderungen treten normalerweise zuerst auf, wenn Unternehmen von Pilot-Deployments zu produktionsbereiten Rollouts übergehen?
Einige Dinge sind wichtig. Erstens ist modulare Prompt-Architektur wichtig. Monolithische Prompts sind fast unmöglich zu debuggen. Wenn ein Anruf schiefgeht, müssen Sie genau herausfinden, wo und warum es passiert ist, und nicht auf eine Wand von Anweisungen starren, um herauszufinden, welche Zeile das Problem verursacht hat.
Vollständige Beobachtbarkeit ist ebenso wichtig. Post-Anruf-Zusammenfassungen reichen nicht aus. Sie benötigen Echtzeit-Einblick in das, was der Agent in jeder Interaktion tut.
Schutzmechanismen sind ebenfalls unerlässlich, insbesondere in regulierten Branchen. Der Agent muss innerhalb der Richtlinien bleiben. Das ist nicht optional. Und wenn er es nicht tut, muss es einen eleganten Ausfallmechanismus geben.
Schließlich gibt es Wissensmanagement. Der Agent benötigt Zugriff auf proprietäre Daten wie Produkte, Richtlinien und Verfahren. Die Plattform sollte auch Wissenslücken automatisch anzeigen, wenn sie in echten Anrufen auftauchen, und nicht erst Wochen später, nachdem ein Kunde sich beschwert hat.
Blicken Sie in die Zukunft, glauben Sie, dass Unternehmens-Sprachagenten Task-spezifische Werkzeuge bleiben oder sich zu generalisierten KI-Agenten entwickeln, die in der Lage sind, ganze Geschäftsprozesse, die durch Konversation initiiert werden, autonom zu verwalten?
Wenn ich nur die Antwort hätte! Ich denke, dass Sprachagenten über den gesamten Geschäftsstack hinweg evolvieren, aber es ist unwahrscheinlich, dass ein ganzes Unternehmen von einem Sprachagenten geführt wird. Das being said, I do believe humans will be able to get instant, accurate, and more comprehensive service from AI agents than they get today. In fact, we believe more phone calls will happen when this occurs. Not less. Thank you for the great interview, readers who wish to learn more should visit Bland.












