Phỏng vấn
Isaiah N. Granet, Đồng sáng lập và CEO của Bland – Loạt phỏng vấn

Isaiah N. Granet, Đồng sáng lập và CEO của Bland, là một người sáng lập startup và kỹ sư có nền tảng kết hợp giữa thực hiện kỹ thuật với kinh nghiệm doanh nghiệp sớm và công việc tác động xã hội lâu dài. Trước khi ra mắt dự án hiện tại, anh đã tham gia Z Fellows và Y Combinator, xây dựng kinh nghiệm kỹ thuật tại Lantern và thành lập San Diego Chill, một tổ chức phi lợi nhuận đã huy động hơn 2,5 triệu đô la để giúp trẻ em có khuyết tật phát triển tiếp cận với thể thao, nhận được sự công nhận toàn quốc và tiếp tục hoạt động cho đến ngày nay với sự tham gia của anh tại cấp độ hội đồng quản trị.
Bland tập trung vào việc xây dựng cơ sở hạ tầng cho các cuộc gọi điện thoại được hỗ trợ bởi AI, cho phép các doanh nghiệp triển khai các đại lý giọng nói có thể xử lý hỗ trợ khách hàng, bán hàng và các quy trình hoạt động ở quy mô lớn. Nền tảng này được thiết kế để thay thế hoặc bổ sung cho các trung tâm cuộc gọi truyền thống bằng cách cung cấp các tương tác giọng nói có thể lập trình, khả năng phản hồi thời gian thực và tích hợp sâu với các hệ thống kinh doanh, định vị mình là một lớp cốt lõi trong cách các công ty tự động hóa giao tiếp với khách hàng.
Bạn đã thành lập San Diego Chill khi còn là một thiếu niên để tạo ra sự tiếp cận thể thao bao gồm cho trẻ em có khuyết tật phát triển, lâu trước khi tham gia Y Combinator hoặc ra mắt Bland. Làm thế nào kinh nghiệm xây dựng một tổ chức thực tế đó ảnh hưởng đến cách bạn tiếp cận việc thành lập một công ty AI dựa trên giọng nói hiện đang nằm giữa các doanh nghiệp và khách hàng của họ?
Đời sống và công việc của tôi đã tập trung vào việc xây dựng. Từ khi còn nhỏ, tôi đã có một mong muốn không ngừng nghỉ để đưa những ý tưởng vào cuộc sống. Khi một ý tưởng hoặc một niềm tin về thế giới xuất hiện trong đầu tôi, nó trở nên không thể bỏ qua. Việc xây dựng San Diego Chill không chỉ dạy tôi cách tạo ra và điều hành một tổ chức, mà còn dạy tôi về tác động của hành động chúng ta đối với người khác. Việc có thể đóng góp lại bằng cách tạo ra một tổ chức mà nếu không sẽ không tồn tại là điều vô cùng ý nghĩa. Những bài học và giá trị tôi học được từ Chill vẫn còn với tôi mỗi ngày.
Sau khi tham gia YC vào năm 2023, điều gì đã thuyết phục bạn rằng cơ sở hạ tầng giọng nói doanh nghiệp vẫn còn bị hỏng cơ bản đến mức cần xây dựng một hệ thống từ đầu đến cuối thay vì chỉ thêm các mô hình LLM vào các công cụ IVR truyền thống?
Hãy nghĩ về lần cuối cùng bạn sử dụng một rô-bốt trò chuyện của ngân hàng. Bạn có thể đã chờ đợi lâu hơn bạn nên, nhận được một câu trả lời không giải quyết vấn đề bạn thực sự hỏi, và cuối cùng lại gọi điện thoại. Sau đó, một giọng nói rô-bốt sẽ hướng dẫn bạn qua một menu các tùy chọn bạn không muốn, và nhấn 0 không có tác dụng gì.
Ngân hàng đã chi tỷ đô la để tạo ra trải nghiệm này, và rô-bốt trò chuyện vẫn đứng cuối cùng trong sự hài lòng của khách hàng với 29%. Thấp hơn email. Thấp hơn các trung tâm cuộc gọi, điều mà mọi người đã phàn nàn từ trước.
Đó đã là động lực trong hai thập kỷ qua. Doanh nghiệp cố gắng giữ khách hàng tránh khỏi nhân viên của họ. Khách hàng tiếp tục cố gắng liên hệ với một người. Không bên nào đang thắng.
Vấn đề không phải là các công ty không muốn giải quyết vấn đề này. Họ chỉ không thể giải quyết nó bằng cách tăng nhân viên. Một trung tâm cuộc gọi xử lý một triệu cuộc gọi mỗi tháng là một hoạt động tốn kém và khó khăn, và chất lượng là không nhất quán gần như theo định nghĩa.
Điều gì đã thay đổi là AI cuối cùng đã làm cho việc giải quyết các cuộc gọi trở nên khả thi thay vì chỉ định tuyến hoặc chuyển hướng chúng. Không phải là cây điện thoại. Không phải là nhạc chờ. Một đại lý hiểu rõ khách hàng đang hỏi gì và xử lý nó.
Nhưng điều đó chỉ hoạt động nếu hệ thống được xây dựng từ đầu đến cuối cho giọng nói thời gian thực. Khi bạn thêm các mô hình LLM vào các công cụ IVR truyền thống hoặc ghép các dịch vụ của bên thứ ba lại với nhau, độ trễ sẽ xuất hiện và độ tin cậy sẽ giảm. Các cuộc trò chuyện sẽ bị phá vỡ.
Đó là lý do chúng tôi tập trung vào việc xây dựng cơ sở hạ tầng từ đầu đến cuối. Giọng nói chỉ hoạt động nếu nó cảm giác tức thì và tự nhiên. Nếu không, khách hàng sẽ tắt máy.
Bland đã thực hiện một bước đi không phổ biến khi xây dựng và lưu trữ chính TTS, suy luận và ngăn xếp chuyển văn bản của mình. Những sự đánh đổi nào bạn thấy khi dựa vào các API của bên thứ ba mà cuối cùng đã đẩy bạn đến việc sở hữu toàn bộ lớp cơ sở hạ tầng giọng nói?
Mỗi lớp bạn outsource thêm độ trễ và thêm rủi ro.
Hầu hết các nền tảng AI giọng nói đều là các nhà bán lại. Họ lấy chuyển văn bản của bên thứ ba, thêm một mô hình của bên thứ ba, định tuyến nó thông qua TTS của bên thứ ba và đưa cho bạn kết quả. Điều đó có thể hoạt động trong một bản demo được kiểm soát. Nó hiếm khi hoạt động khi khối lượng cuộc gọi tăng vọt hoặc có điều gì đó trong chuỗi bị sai.
Cũng có một vấn đề về dữ liệu. Các nhà cung cấp mô hình nền tảng, OpenAI là một ví dụ rõ ràng, đã sử dụng dữ liệu khách hàng để đào tạo mô hình. Họ nói rằng giấy phép doanh nghiệp là khác. Có thể chúng là như vậy. Nhưng sự không chắc chắn đó đủ để khiến nhiều nhóm an ninh và tuân thủ cảm thấy không thoải mái.
Khi bạn tự lưu trữ toàn bộ ngăn xếp – chuyển văn bản, suy luận, TTS, điều phối – bạn kiểm soát mọi mili giây và mọi cập nhật mô hình. Dữ liệu khách hàng vẫn nằm trong hệ sinh thái của khách hàng. Nó không chạm vào đường dẫn đào tạo của bên thứ ba, không đi qua cơ sở hạ tầng mà bạn không thể kiểm tra và không di chuyển trừ khi khách hàng quyết định nó nên.
Bạn có thể cung cấp cho mỗi khách hàng doanh nghiệp cơ sở hạ tầng chuyên dụng để một sự tăng vọt từ một công ty khác không bao giờ chạm vào hiệu suất của họ. Và khi có điều gì đó bị hỏng, bạn có thể thực sự sửa nó thay vì chờ đợi một nhà cung cấp của nhà cung cấp.
Đối với các ngành công nghiệp được quy định, một số khách hàng cần toàn bộ ngăn xếp trong VPC riêng của họ hoặc trên cơ sở. Điều đó chỉ có thể nếu nhà cung cấp thực sự sở hữu những gì họ đang triển khai.
Truyền thống tự động hóa trung tâm cuộc gọi đã tập trung nhiều vào việc chuyển hướng các cuộc gọi hỗ trợ đơn giản. Tại sao bạn quyết định ưu tiên các tương tác khách hàng phức tạp, dài đuôi thay vì tối ưu hóa cho tự động hóa dựa trên khối lượng trước?
Truyền thống tự động hóa trung tâm cuộc gọi đã tập trung nhiều vào việc chuyển hướng các cuộc gọi hỗ trợ đơn giản. Tại sao bạn ưu tiên các tương tác phức tạp, dài đuôi thay vì bắt đầu với các trường hợp sử dụng có khối lượng cao?
Chúng tôi đã thực hiện một cách tiếp cận ngược lại. Nếu chúng tôi có thể xử lý đáng tin cậy các cuộc gọi phức tạp và nhạy cảm nhất, mọi thứ khác sẽ trở nên đơn giản. Mục tiêu không phải là xây dựng các bản demo, mà là cung cấp giải pháp cuộc gọi đầy đủ tại quy mô. Điều đó đòi hỏi các hệ thống có độ trễ thấp, độ tin cậy cao có thể quản lý các trường hợp biên mà thực sự định nghĩa các cuộc trò chuyện của khách hàng.
Các đại lý của bạn đang ngày càng được tích hợp vào CRM và cơ sở dữ liệu hoạt động để giải quyết các cuộc gọi từ đầu đến cuối. Làm thế nào tự động hóa dựa trên giọng nói thay đổi kiến trúc của các quy trình kinh doanh doanh nghiệp so với các đồng nghiệp dựa trên trò chuyện?
Các hệ thống cũ thường không nói chuyện với nhau. CRM, công cụ lập lịch và nền tảng hóa đơn được chia thành các silo. Nếu không có quyền truy cập vào các hệ thống đó, một đại lý giọng nói chỉ có thể trả lời các câu hỏi chung chung và không có gì khác.
Nó không thể tìm kiếm một tài khoản, cập nhật một bản ghi hoặc đặt lịch một cuộc hẹn. Nó thu thập thông tin và chuyển nó. Trong khi đó, các đại diện con người dành thời gian vào công việc mà không nên chạm vào một người: ghi chú cuộc gọi, đặt lịch tự động, kéo báo cáo để tìm ra ai cần một cuộc gọi lại.
Tích hợp sâu là điều làm cho việc giải quyết từ đầu đến cuối trở nên khả thi. Nếu không, bạn đã tự động hóa lời chào, không phải cuộc gọi.
Đầu tư gần đây vào bản demo nhân bản giọng nói Soulja Boy đã nhấn mạnh cách các đại lý trò chuyện có thể mở rộng ra ngoài hoạt động nội bộ vào các trải nghiệm đối mặt với thương hiệu. Bạn có thấy các đại lý giọng nói doanh nghiệp sẽ phát triển thành các đại diện kỹ thuật số đối mặt với khách hàng hoạt động liên tục trên các kênh bán hàng, hỗ trợ và tiếp thị?
Tuyệt đối. Chúng tôi nhìn thấy một thế giới trong đó mỗi khách hàng có một mối quan hệ cá nhân với các doanh nghiệp yêu thích và thiết yếu của họ. Điều quan trọng là AI không chỉ “để giải trí” mà còn có khả năng thực sự giải quyết các vấn đề phức tạp nhất của bạn.
Giọng nói thời gian thực giới thiệu độ trễ, ảo giác và thách thức về danh tính mà không tồn tại trong các triển khai AI dựa trên văn bản. Những hạn chế kỹ thuật khó khăn nhất bạn gặp phải khi xây dựng các đại lý cần phản hồi trong dưới một giây đồng thời duy trì độ chính xác của cuộc trò chuyện?
Độ trễ. Đó là nơi mà hầu hết các bản demo chết.
Nếu một rô-bốt trò chuyện mất ba giây để phản hồi, người dùng sẽ chờ. Nếu một đại lý giọng nói ngừng lại một cách khó xử sau khi bạn kết thúc nói, cuộc trò chuyện đã bị phá vỡ. Phản hồi cần phải quay lại trong dưới 400 mili giây. Hầu hết các nền tảng không thể làm được điều đó vì chúng đang ghép các dịch vụ của bên thứ ba lại với nhau, mỗi dịch vụ thêm độ trễ của riêng nó.
Nhưng độ trễ chỉ là một phần của vấn đề. Các cuộc gọi của khách hàng thực sự là hỗn loạn theo những cách mà các bản demo không bao giờ nắm bắt được. Người dùng gián đoạn giữa câu. Tiếng ồn nền cắt vào. Người gọi chuyển ngôn ngữ. Yêu cầu là không rõ ràng. AI giọng nói mà vẫn hoạt động trong sản xuất xử lý các gián đoạn mà không mất ngữ cảnh, thích nghi khi các cuộc trò chuyện đi ra ngoài kịch bản và làm điều đó mà không nghe như nó đang bị đệm.
Khách hàng không so sánh AI giọng nói với các bot khác. Họ so sánh nó với việc nói chuyện với một người. Đó là tiêu chuẩn.
Có sự giám sát ngày càng tăng về cách các hệ thống AI nghe giống con người thể hiện bản thân trong các tương tác. Doanh nghiệp nên nghĩ về tính minh bạch như thế nào khi triển khai các đại lý trò chuyện có thể không thể phân biệt được với nhân viên?
Chúng tôi tin tưởng mạnh mẽ vào sự trung thực và minh bạch cho người dùng cuối. Mặc dù một số quy định là gò bó và kìm hãm, nhưng bất kỳ hình thức lừa dối nào đều không được chấp nhận. Chúng tôi làm việc với các doanh nghiệp để phát triển các trải nghiệm liền mạch dựa trên cơ sở tin cậy với khách hàng.
Khi các đại lý AI bắt đầu xử lý hàng triệu tương tác khách hàng đồng thời, những thách thức hoạt động nào thường xuất hiện đầu tiên khi các công ty chuyển từ các triển khai thử nghiệm sang các triển khai quy mô sản xuất?
Một vài điều quan trọng trong thực tế. Đầu tiên là kiến trúc lời gọi mô-đun. Các lời gọi mô-đun là gần như không thể gỡ lỗi. Khi một cuộc gọi đi sai, bạn cần cách ly chính xác nơi và tại sao nó xảy ra, không phải nhìn vào một bức tường các hướng dẫn cố gắng tìm ra dòng nào gây ra vấn đề.
Khả năng quan sát đầy đủ cũng quan trọng như nhau. Tóm tắt sau cuộc gọi không đủ. Bạn cần khả năng hiển thị thời gian thực về những gì đại lý đang làm tại mọi điểm trong mọi tương tác.
Các rào cản cũng là điều cần thiết, đặc biệt là trong các ngành công nghiệp được quy định. Đại lý phải ở trong khuôn khổ chính sách. Điều đó không phải là tùy chọn. Và nếu nó không, cần có một cơ chế chuyển đổi tinh tế.
Cuối cùng, có quản lý kiến thức. Đại lý cần truy cập vào dữ liệu độc quyền như sản phẩm, chính sách và thủ tục. Nền tảng cũng nên tự động hiển thị các khoảng trống kiến thức khi chúng xuất hiện trong các cuộc gọi thực, không phải vài tuần sau khi khách hàng phàn nàn.
Nhìn về phía trước, bạn có tin rằng các đại lý giọng nói doanh nghiệp sẽ vẫn là các công cụ cụ thể cho nhiệm vụ hoặc sẽ phát triển thành các đại lý AI tổng quát có khả năng quản lý tự động các quy trình kinh doanh toàn bộ được khởi xướng thông qua cuộc trò chuyện?
Nếu chỉ tôi có câu trả lời! Tôi nghĩ rằng các đại lý giọng nói sẽ phát triển trên toàn bộ ngăn xếp kinh doanh nhưng không chắc sẽ thấy một doanh nghiệp hoàn toàn được chạy bởi một đại lý giọng nói. Đó được nói, tôi tin rằng con người sẽ có thể nhận được dịch vụ tức thì, chính xác và toàn diện hơn từ các đại lý AI so với ngày nay. Trên thực tế, chúng tôi tin rằng sẽ có nhiều cuộc gọi điện thoại hơn khi điều đó xảy ra. Không ít.
Cảm ơn cuộc phỏng vấn tuyệt vời, những người đọc muốn tìm hiểu thêm nên truy cập Bland.












