บทสัมภาษณ์
Nikola Mrksic ผู้ร่วมก่อตั้งและ CEO ของ PolyAI – Interview Series

Nikola Mrksic เป็นผู้ร่วมก่อตั้งและซีอีโอของ โพลีเอไอซัพพลายเออร์ชั้นนำของผู้ช่วยเสียงที่พร้อมใช้งานสำหรับองค์กรสำหรับการบริการลูกค้าอัตโนมัติ
อะไรทำให้คุณสนใจ AI ในตอนแรก?
ฉันสนใจวิชาคณิตศาสตร์และวิทยาการคอมพิวเตอร์ตั้งแต่อายุยังน้อย ในระหว่างการศึกษาที่เคมบริดจ์ ฉันได้มีโอกาสร่วมงานกับนักวิจัยด้านการเรียนรู้ของเครื่องชั้นนำหลายคน รวมถึง Steve Young และ Zoubin Ghahramani Steve โน้มน้าวให้ฉันเข้าร่วมสตาร์ทอัพ VocalIQ ของเขา เพื่อสร้างระบบบทสนทนาแบบพูด ต่อมา ฉันลงเอยด้วยการเรียนปริญญาเอกกับ Steve เช่นกัน โดยทำงานเกี่ยวกับการสร้างแบบจำลองการทำความเข้าใจภาษาที่ขับเคลื่อนด้วยข้อมูล ซึ่งใช้ได้กับกรณีการใช้งานและภาษาต่างๆ AI การสนทนาเป็นสาขางานที่ยากและซับซ้อนมาก โดยมีความก้าวหน้าทางวิทยาศาสตร์และวิศวกรรมมากมายรอเราอยู่ และมันทำให้ฉันยุ่งตลอดตั้งแต่นั้นมา
ในปี 2017 คุณได้เปิดตัว PolyAI ซึ่งเป็นบริษัท AI เชิงสนทนา คุณช่วยพูดคุยเกี่ยวกับเรื่องราวต้นกำเนิดเบื้องหลัง PolyAI ได้ไหม
ผู้ร่วมก่อตั้งของฉัน Shawn Wen, Eddy Su และฉันเรียนปริญญาเอกที่เคมบริดจ์ในเวลาเดียวกัน เราทำงานเกี่ยวกับระบบการสนทนามาหลายปี แต่ในไม่ช้าเราก็ตระหนักว่าระบบที่ซับซ้อนประเภทต่างๆ ที่เราเคยชินกับการทำงานนั้นมีการใช้งานเชิงพาณิชย์น้อยมาก ดังนั้นเราจึงมารวมกันเพื่อสร้างโซลูชัน AI เชิงสนทนาที่จะเป็นประโยชน์ในโลกแห่งความเป็นจริง เราเห็นโอกาสสำหรับระบบการสนทนาแบบแลกเปลี่ยนหลายขั้นตอนที่สามารถโต้ตอบกับผู้คนจริงในชีวิตประจำวันได้อย่างแท้จริง
เราให้ความสำคัญกับการบริการลูกค้าเนื่องจากเรารู้สึกว่าความสามารถทางเทคโนโลยีในปัจจุบันและความต้องการของลูกค้านั้นเข้ากันได้ดี
คุณช่วยพูดคุยเกี่ยวกับเทคโนโลยีการเรียนรู้ของเครื่องและการประมวลผลภาษาธรรมชาติที่ใช้ได้ไหม
ความลับหลักของเราคือชุดเอ็นโค้ดเดอร์รุ่นต่างๆ ที่เป็นกรรมสิทธิ์ของเรา เราได้ฝึกพวกเขาล่วงหน้าเกี่ยวกับบทสนทนาธรรมชาติหลายพันล้านครั้ง ดังนั้นพวกเขาจึงสามารถแยกความตั้งใจได้ แม้ว่าคำพูดที่ใช้ป้อนจะใช้คำสแลงหรือสำนวน เป็นต้น สิ่งนี้สำคัญมากสำหรับการสื่อสารทางโทรศัพท์ ลูกค้าไม่ได้พูดในคีย์เวิร์ด พวกเขาเล่าเรื่อง ขัดจังหวะ ถามคำถาม และโดยทั่วไปเพียงต้องการควบคุมการสนทนา
เราเพิ่งประกาศโมเดล ConVEx ซึ่งเป็นตัวแยกเอนทิตีที่มีประสิทธิภาพด้านข้อมูลอย่างยิ่ง ซึ่งทำให้เราสามารถดึงค่าจากการสนทนาได้อย่างแม่นยำ
กระบวนการประสาน ASR ของเราเกี่ยวข้องกับการใช้แพลตฟอร์มการรู้จำเสียงที่ปรับแต่งอย่างละเอียดเพื่อลดเสียงรบกวนที่เกิดจากการเน้นเสียงที่แตกต่างกัน เช่นเดียวกับการปรับแต่งอย่างละเอียดสำหรับบริบทที่แตกต่างกัน
นอกจากนี้ เรายังพัฒนาคลังนโยบายการสนทนาที่ค่อนข้างแข็งแกร่งด้วยกรณีการใช้งานที่ออกแบบไว้ล่วงหน้า ซึ่งรวมถึงธุรกรรมการบริการลูกค้าทั่วไปทั้งหมด ดังนั้นเราจึงสามารถหมุนผู้ช่วยเสียงใหม่สำหรับลูกค้าได้อย่างรวดเร็ว
ในความเห็นของคุณ อะไรทำให้ผลิตภัณฑ์ AI การสนทนาที่ดีแตกต่างจาก AI การสนทนาที่ไม่ดี
ผลิตภัณฑ์ที่ดีจะเข้าใจความหมายของผู้ใช้อย่างสม่ำเสมอ และจะไม่ทำให้ผู้ใช้พูดซ้ำ การโทรมักเกิดขึ้นในสภาพแวดล้อมที่มีเสียงดัง ดังนั้นผลิตภัณฑ์จึงต้องทนทานต่ออินพุตที่ยุ่งเหยิง เมื่อแบรนด์เข้าถึงตลาดขนาดใหญ่ ผลิตภัณฑ์จำเป็นต้องเข้าใจสำเนียงและวิธีการใช้ถ้อยคำที่หลากหลาย ทั้งสองอย่างนี้ต้องการผลิตภัณฑ์เพื่อรับประกันความสามารถในการรู้จำเสียงที่มีประสิทธิภาพ การจำแนกเจตนาที่ยืดหยุ่น และการดึงข้อมูลเอนทิตี
ผลิตภัณฑ์ที่ยอดเยี่ยมจะดึงดูดผู้ใช้อย่างต่อเนื่อง โดยจะเป็นไปตามความคิดของผู้ใช้ และสามารถจัดการกับกรณีที่ซับซ้อนในชีวิตประจำวัน ซึ่งผู้ใช้อาจแบ่งปันความตั้งใจและข้อมูลหลายๆ ชิ้นพร้อมกัน และพวกเขาอาจข้ามไปมาระหว่างบริบทต่างๆ ซึ่งต้องการการจัดหมวดหมู่หลายป้ายกำกับที่มีประสิทธิภาพและการจัดการบริบท
ผลิตภัณฑ์ที่มีส่วนร่วมจะแสดงลักษณะของมนุษย์โดยไม่ดูลึกลับหรือหุ่นยนต์เกินไป ซึ่งหมายถึงการโต้ตอบที่ฉับไว น้ำเสียงที่จริงใจ สัญญาณตอบรับที่ต่อเนื่อง และระดับของความสุ่มเสี่ยงและความไม่สมบูรณ์
ประการสุดท้าย ผลิตภัณฑ์ AI สำหรับการสนทนาที่ยอดเยี่ยมจะมีส่วนร่วมกับผู้ใช้ไม่ว่าจะอยู่ที่ไหนและนำเสนอประสบการณ์เฉพาะแพลตฟอร์มที่ราบรื่น ซึ่งอาจครอบคลุมทั้งแพลตฟอร์มเสียง SMS แชท หรือข้อความโซเชียล กระบวนทัศน์การโต้ตอบควรครอบคลุมความเฉพาะเจาะจงของแพลตฟอร์มการสื่อสารแต่ละรายการ
ข้อดีบางประการของบริษัทที่ใช้ AI เชิงสนทนาแทนการพยายามส่งคำถามไปยังบอทแชทคืออะไร
ประสบการณ์ของลูกค้ามีความสำคัญและกลายเป็นตัวขับเคลื่อนหลักสำหรับการรักษาลูกค้า ลำดับความสำคัญสูงสุดควรทำให้ลูกค้าทำในสิ่งที่จำเป็นต้องทำได้ง่าย
โทรศัพท์ยังคงเป็นช่องทางที่ลูกค้าต้องการมากที่สุดในการติดต่อบริษัท มากถึง 65% ของการโต้ตอบกับลูกค้าทั้งหมดยังคงเกิดขึ้นทางโทรศัพท์ ในช่วงการระบาดของ COVID-19 ศูนย์การติดต่อได้รับการผลักดันจนถึงขีดสุดโดยมีลูกค้าจำนวนมากขึ้นกว่าที่เคยเรียกร้องการสนับสนุน
แน่นอน ประสบการณ์ที่ยอดเยี่ยมทำให้ลูกค้าสามารถสื่อสารได้ตามที่พวกเขาต้องการ ดังนั้นสำหรับใครก็ตามที่ชอบการสื่อสารแบบอะซิงโครนัส เราทำให้มันง่ายสำหรับแบรนด์ต่างๆ ในการนำเสนอประสบการณ์ระดับเดียวกันผ่านช่องทางข้อความ
การตรวจจับเจตนาของสิ่งที่ลูกค้าพยายามจะพูดนั้นยากเพียงใด
มีความท้าทายหลายประการในการทำความเข้าใจลูกค้าผ่านช่องทางเสียง การทำความเข้าใจความหมายของผู้ใช้อย่างถูกต้องและสม่ำเสมอนั้นต้องการองค์ประกอบหลายอย่างเพื่อให้ทำงานร่วมกันได้ดี
ประการแรก การรู้จำเสียงเป็นเรื่องยาก โดยเฉพาะอย่างยิ่งเมื่อผู้คนกำลังโทรจากสภาพแวดล้อมที่มีเสียงดัง เช่น เมื่อพวกเขาใช้สปีกเกอร์โฟน หรือเมื่อขับรถฝ่าการจราจรหรือในอุโมงค์ การรู้จำเสียงอาจเป็นเรื่องยากในภูมิภาคที่มีสำเนียงและภาษาถิ่นต่างกัน เราได้พัฒนาวิธีที่มีประสิทธิภาพในการทำให้โมเดลการรู้จำเสียงมีอคติสำหรับบริบทที่กำหนดเพื่อเพิ่มประสิทธิภาพการรู้จำเสียง
เนื่องจากโมเดล ConveRT ของเราได้รับการฝึกอบรมเกี่ยวกับข้อมูลการสนทนาจำนวนมหาศาล จึงสามารถตรวจจับความตั้งใจในสัญญาณที่อ่อนแอได้ เช่นเดียวกับที่มนุษย์เราโดยทั่วไปสามารถเข้าใจสิ่งที่ใครบางคนพูด แม้ว่าเราจะพลาดคำหรือสองคำก็ตาม
การพิจารณาอีกประการหนึ่งคือการทำความเข้าใจเมื่อผู้ใช้ต้องการดำเนินการหลายอย่างพร้อมกัน ตัวอย่างเช่น บางคนอาจพูดว่า “ฉันทำบัตรหาย คุณช่วยแจ้งให้เราทราบได้ไหมว่ามีการใช้และปิดกั้นหรือไม่” ในกรณีนี้ ตัวแบบต้องรับรู้เจตนาสองประการและดำเนินการตามลำดับที่เหมาะสม
แบบจำลองยังต้องสามารถแยกและทำความเข้าใจเอนทิตีที่ลูกค้าอาสาสมัคร ตัวอย่างเช่น “คุณมีโต๊ะอาหารกลางวันวันเสาร์ให้ฉัน ภรรยาและลูกอีก 2 คนของเราไหม” ความตั้งใจในระดับพื้นผิวในที่นี้คือการตรวจสอบความพร้อมของโต๊ะ แต่ตัวแบบจำเป็นต้องเลือกวันที่ (วันเสาร์) และจำนวนคน (4) และข้อมูลที่เป็นไปได้อื่น ๆ ที่อาจเกี่ยวข้อง (อาจอนุญาตให้เด็กเข้าไปในร้านอาหารเท่านั้น และไม่สามารถนั่งที่บาร์ได้)
สุดท้าย การสนทนาไม่ได้เป็นเส้นตรงเสมอไป ลูกค้าอาจขัดจังหวะด้วยคำถามที่ไม่เกี่ยวข้องกับข้อความแจ้งของผู้ช่วยเสียง ดังนั้นผู้ช่วยจำเป็นต้องสามารถ 'ฟัง' สำหรับอินพุตประเภทหนึ่งได้ ในขณะที่เปิดรับทริกเกอร์ต่างๆ เช่น คำถามที่พบบ่อยหรือการเปลี่ยนแปลงข้อมูลที่ผู้ใช้ให้ไว้ก่อนหน้านี้
กระบวนการและไทม์ไลน์ที่จำเป็นสำหรับบริษัทที่ต้องการเปิดตัวบอท AI แบบสนทนาด้วย PolyAI คืออะไร
เราอยู่ที่นี่เพื่อให้บริการผู้ช่วยด้านเสียงที่มีผลกระทบทางธุรกิจที่จับต้องได้ ดังนั้นเราจึงเริ่มต้นทุกการมีส่วนร่วมด้วยการค้นพบที่เราช่วยลูกค้าในการระบุและระบุวัตถุประสงค์ CX เมตริกหลักและกระบวนการสนับสนุน นี่คือที่ที่เรากำหนดขอบเขตการเดินทางที่ผู้ช่วยเสียงจะต้องแนะนำลูกค้า สิ่งนี้รวมถึงโมเดล ConveRT ที่ผ่านการฝึกอบรมล่วงหน้าของเรา หมายความว่าเราไม่ต้องการข้อมูลการสนทนาจำนวนมากจากลูกค้า
จากจุดนั้น เราสามารถพัฒนาผู้ช่วยเสียงโดยป้อนข้อมูลจากลูกค้าเพียงเล็กน้อย ดังนั้นจึงไม่ต้องใช้ทีมไอทีภายในบริษัทเลย
ขึ้นอยู่กับความซับซ้อน เราสามารถหมุนการพิสูจน์คุณค่าได้ในเวลาเพียง 2 สัปดาห์ และการปรับใช้อย่างเต็มรูปแบบใน 2 เดือน
ขอบคุณสำหรับบทสัมภาษณ์ที่ดี ผู้อ่านที่ต้องการเรียนรู้เพิ่มเติมควรเยี่ยมชม โพลีเอไอ.