Connect with us

Voice AI กำลังเติบโต – แต่สมจริงพอที่จะสร้างผลกระทบหรือไม่?

ผู้นำทางความคิด

Voice AI กำลังเติบโต – แต่สมจริงพอที่จะสร้างผลกระทบหรือไม่?

mm

ตลาดโลกสำหรับตัวแทนเสียง AI กำลังเติบโต โดยคาดว่าจะเติบโตจาก 3.14 พันล้านดอลลาร์ในปี 2024 เป็น 47.5 พันล้านดอลลาร์ในปี 2034 ไม่ใช่เทคโนโลยีนิชอีกต่อไป บริษัทเทคโนโลยีรายใหญ่ส่วนใหญ่ (รวมถึง Google, Amazon, Apple, Meta และ Microsoft) มีผลิตภัณฑ์เสียงแล้ว และสตาร์ทอัพกำลังนำนวัตกรรมเข้าสู่ตลาด เทคโนโลยีนี้เองก็变得เข้าถึงได้มากขึ้นด้วยโมเดลโอเพ่นซอร์ส ตั้งแต่ผู้ช่วยเสมือนจริงทุกวันเช่น Siri และ Alexa ไปจนถึงการดับเสียงในภาพยนตร์และทีวี ไม่มีโอกาสที่ดีกว่านี้สำหรับการนำเสียง AI ไปใช้

แต่เมื่อการเข้าถึงเสียง AI เพิ่มขึ้นอย่างกว้างขวาง ประสบการณ์ยังคงไม่เท่าเทียมกัน นั่นเป็นเพราะส่วนที่ยากที่สุดของเสียง AI ไม่ใช่การสร้างเสียง แต่เป็นการสร้างเสียงที่รู้สึกเชื่อถือได้ในปฏิสัมพันธ์ทุกวัน การเข้าถึงที่กว้างขวางไม่ได้หมายความว่าเสียง AI เหล่านี้เพียงพอสำหรับความต้องการขององค์กรหรือการนำไปใช้งานของผู้ใช้ในระยะยาว ผู้ที่จะชนะภูมิทัศน์การแข่งขันจะเป็นผู้ที่สามารถสร้างเสียงที่รู้สึกเหมือนมนุษย์ มีพลัง และมีความรู้สึกทางอารมณ์ในสถานการณ์จริง

หุบเขาอันไม่สบาย: “ดีพอ” ไม่เพียงพอ

สมมติฐานที่เพิ่มขึ้นในอุตสาหกรรมคือการบรรลุเสียง AI ที่เหมือนมนุษย์ในระดับหนึ่งจะ “ดีพอ” สำหรับการนำไปใช้โดยทั่วไป ซึ่งจะสิ้นสุดการแข่งขัน ผู้ใช้จะทนความไม่ธรรมชาติเล็กน้อยเพราะความเป็นประโยชน์มากกว่าข้อบกพร่อง

ในความเป็นจริง สมมติฐานนี้ไม่เข้าใจว่าผู้คนรับรู้ถึงการพูด ความรู้สึก และความถูกต้อง เสียงที่เกือบเหมือนมนุษย์มีแนวโน้มที่จะสร้างผล “หุบเขาอันไม่สบาย” ที่ทำให้ผู้ใช้รู้สึกไม่สบายใจ โดยเฉพาะอย่างยิ่งในการสนับสนุนลูกค้า การติดต่อด้านสุขภาพ หรือการวางแผนการเดินทาง ซึ่งอารมณ์สามารถวิ่งได้สูงและความรู้สึกถูกเข้าใจเป็นสิ่งสำคัญ เมื่อการได้รับเสียง AI เพิ่มขึ้น ความอดทนสำหรับความไม่สมบูรณ์แบบก็ลดลง

ในความเป็นจริง การวิจัยเกี่ยวกับการโต้ตอบระหว่างมนุษย์และเครื่องจักรแสดงให้เห็นว่าเมื่อเสียงใกล้เคียงกับมนุษย์แต่ขาดการปรับเวลาหรือจังหวะทางอารมณ์ ผู้ใช้จะรู้สึกว่ามีอะไรผิดปกติ ตัวอย่างเช่น บางบริษัทที่มีเสียง AI ในการรับโทรศัพท์พบว่าผู้ใช้อธิบายการโต้ตอบว่า “น่ากลัว” หรือ “ไม่สบายใจ” เพราะเสียงมีข้อผิดพลาดเล็กน้อยในจังหวะหรือเวลาทางอารมณ์ ซึ่งไม่รู้สึกถูกต้อง ในสภาพแวดล้อมที่ต้องเผชิญหน้ากับลูกค้า แม้แต่ช่วงเวลาที่ไม่สบายใจหรือความไม่สบายใจเล็กน้อยก็สามารถสะสมเป็นความไม่พอใจและทิ้งไว้ได้

การหลุดพ้นจากโหมด “ดีพอ” นี้มีความสำคัญมากขึ้นสำหรับวัตถุประสงค์ทางธุรกิจ AI คาดว่าจะจัดการประมาณ 50% ของกรณีการบริการลูกค้าในปี 2027 แต่การโต้ตอบที่ไม่ดีทางอัตโนมัติสามารถทำลายภาพลักษณ์ของแบรนด์ได้โดยตรง การโต้ตอบที่ไม่ดีของชัตบอทตามด้วยประสบการณ์เสียง AI ที่ไม่ดีหรือไม่ธรรมชาติอาจสร้างความรู้สึกไม่พอใจและบ่งชี้ว่าไม่มีทางที่เชื่อถือได้ในการรับคำช่วย

เมื่อผู้บริโภคโต้ตอบกับเสียง AI มากขึ้น ความอดทนสำหรับการโต้ตอบที่ไม่สบายใจหรือไม่สบายใจจะลดลง และผู้ใช้จะหยุดใช้งานอย่างรวดเร็ว ซึ่งอาจส่งผลกระทบต่อธุรกิจที่ร้ายแรงสำหรับบริษัทที่พึ่งพาเครื่องมือเหล่านี้

ความจริงแท้

ในเสียง AI ความจริงระดับมนุษย์ไม่ใช่แค่ความแม่นยำในการออกเสียงหรือการเอาเสียงที่ดังออกไป แต่ยังต้องมีการผสมผสานหลายมิติของอารมณ์ บริบท ความเข้าใจทางวัฒนธรรม การจังหวะ และปัจจัยที่ละเอียดอ่อนอื่นๆ ความท้าทายที่แท้จริงอยู่ที่การแยกความแตกต่าง ความเข้าใจ และสุดท้ายคือการจำลองชั้นที่หล่อหลอมการสื่อสารของมนุษย์ เช่น

ช่วงอารมณ์และความจริงใจ

ความงดงามของเสียงมนุษย์อยู่ที่ความสามารถในการถ่ายทอดความอบอุ่น ความเร่งด่วน ความตลกขบขัน ความผิดหวัง ความตื่นเต้น และอารมณ์อื่นๆ อีกมากมาย ร่วมกับคำพูดเอง ความ细ียดอ่อนทางอารมณ์นี้มีผลกระทบโดยตรงต่อว่าผู้ใช้รู้สึกถูกเข้าใจหรือไม่ ถูกปลอบโยนหรือไม่ หรือรู้สึกไม่สบายใจ

ลองนึกถึงตัวอย่างของตัวแทนการสนับสนุน AI ที่จัดการกับลูกค้าที่หงุดหงิด ตัวแทนอาจพูดว่า “ฉันเข้าใจว่ามันจะทำให้คุณหงุดหงิดแค่ไหน มาแก้ไขปัญหานี้กัน” เมื่อเสียงที่พูดคำเหล่านั้นฟังดูเห็นใจ มันสามารถลดความเครียดและบ่งชี้ว่ามีการแก้ไขข้อขัดแย้งอย่างแท้จริง คำพูดเดียวกันที่พูดด้วยเสียงที่แบนหรือไม่ธรรมชาติสามารถกระตุ้นปฏิกิริยาที่ตรงกันข้าม

ความฉลาดบริบท

มนุษย์มีแนวโน้มที่จะปรับเปลี่ยนการพูดตามความเร่งด่วนของสถานการณ์ ความรู้สึกทางอารมณ์ของผู้ฟัง ความซับซ้อนของข้อมูล และบริบททางสังคม เสียง AI ในปัจจุบันมักจะส่งเสียงตามลำดับโดยไม่สนใจสัญญาณบริบทที่ทำให้การพูดรู้สึกตอบสนองและเป็นปัจจุบัน การพูดที่สมจริงต้องมีความเข้าใจไม่เพียงแต่คำพูด แต่ยังรวมถึงเหตุผลที่พูดและความคิดของผู้ที่แสดงออก

การแสดงออกทางอารมณ์ในเสียง

การพูดที่เป็นธรรมชาติประกอบด้วยความไม่สมบูรณ์เล็กๆ น้อยๆ เช่น การหายใจ การหยุดชั่วคราว การสั่นเสียง และการเปลี่ยนแปลงจังหวะ นั่นเป็นเหตุผลหลักที่เสียง AI ที่สมบูรณ์แบบและไม่หยุดยั้งรู้สึกน้อยกว่ามนุษย์ การจำลองสัญญาณเหล่านี้อย่างน่าเชื่อถือยังคงเป็นความท้าทายทางเทคนิค

ความเข้าใจทางวัฒนธรรมและภาษา

การสร้างเสียงที่แท้จริงไม่เพียงแต่การสร้างเสียงที่เหมือนกัน แต่ยังต้องมีความเข้าใจในบริบททางวัฒนธรรมและภาษา เช่น การสร้างเสียงที่เหมาะสมกับวัฒนธรรมและภาษาที่แตกต่างกัน ตัวอย่างเช่น รูปแบบการเพิ่มเสียงที่บ่งบอกถึงความเป็นมิตรและความตื่นเต้นในบางวัฒนธรรมอาจถูกตีความว่าเป็นความไม่แน่นอนหรือการซักถามในอีกวัฒนธรรมหนึ่ง ซึ่งอาจเปลี่ยนแปลงการรับรู้ของผู้ใช้เกี่ยวกับเจตนาหรืออารมณ์

หากไม่มีการผสมผสานความ细ียดอ่อนทางเสียงเหล่านี้เข้ากับโมเดล AI เสียงที่แม่นยำทางเทคนิคอาจรู้สึกไม่เหมาะสมหรือทำให้ผู้ใช้จากภูมิหลังทางวัฒนธรรมที่แตกต่างกันสับสน ความจริงแท้จำเป็นต้องมีความสามารถในการปรับเปลี่ยนโทนและรูปแบบตามความคาดหวังของผู้ใช้แต่ละคน

เมื่อพิจารณาปัจจัยเหล่านี้ที่ละเอียดอ่อนแต่สำคัญแล้ว จะชัดเจนว่าเสียง AI ต้องไม่เพียงแต่ “ดู” เหมือนมนุษย์ แต่ยังต้อง “ตอบสนอง” ในเวลาจริงเหมือนมนุษย์ ดังนั้นความหน่วงเป็นปัจจัยสำคัญในการประเมินว่าเสียง AI รู้สึกเหมือนมนุษย์แค่ไหน ในการพูดคุยธรรมชาติ มนุษย์ใช้เวลาในการพูดโดยเฉลี่ยประมาณ 250 มิลลิวินาที หากนานกว่านั้น การโต้ตอบจะรู้สึกช้าหรือสับสน ความแตกต่างเล็กน้อยระหว่างการหยุดพักและความหน่วงทางเทคนิคอาจทำให้การโต้ตอบรู้สึกไม่ธรรมชาติและทำให้เสียงรู้สึกน้อยกว่าความสนใจ

ทำไมสิ่งนี้จึงสำคัญ

ในอนาคต ตลาดจะเอื้อประโยชน์ต่อบริษัทที่สามารถส่งมอบทั้งความจริงและความตอบสนองในเวลาจริง

สำหรับตัวแทนและผู้ช่วย AI การนำไปใช้งานของผู้ใช้และความมุ่งมั่นในการโต้ตอบขึ้นอยู่กับว่าผู้คนต้องการโต้ตอบกับเทคโนโลยีนี้หรือไม่ ความแตกต่างระหว่างเครื่องมือที่ผู้คนลองใช้ครั้งเดียวและเครื่องมือที่ผู้คนพึ่งพาทุกวันคือคุณภาพของประสบการณ์การสนทนา

ในอุตสาหกรรมบันเทิง การดึงดูดและรักษาผู้ชมขึ้นอยู่กับว่าเนื้อหานั้นสมจริงแค่ไหน และเสียง AI ที่ใช้ในดับเบิลหรือการแสดงตัวละครต้องรวมเข้ากับเรื่องราวเพื่อรักษาผลกระทบทางอารมณ์

สำหรับการสนับสนุนลูกค้า ความไว้วางใจและความเห็นอกเห็นใจเป็นสิ่งสำคัญ โดยเฉพาะอย่างยิ่งเมื่อมีการโต้ตอบลูกค้าในช่วงเวลาที่หงุดหงิดหรือสับสน เสียงที่ดังหรือไม่เชื่อมโยงทางอารมณ์สามารถทำให้สถานการณ์เลวร้ายลงแทนที่จะแก้ไขปัญหา ผู้ใช้คาดหวังเสียงที่สามารถสะท้อนถึงความกังวล ความอดทน หรือการปลอบโยน ไม่ใช่แค่ส่งคำตอบที่เขียนไว้ล่วงหน้า

สิ่งที่จะเกิดขึ้นต่อไป

บริษัทที่จะชนะการแข่งขันเสียง AI จะเป็นผู้ที่สามารถสร้างเสียงที่มีรายละเอียดทางอารมณ์ เข้าใจความแตกต่างทางวัฒนธรรมและบริบท ตอบสนองอย่างรวดเร็วและคล่องแคล่ว และส่งมอบประสบการณ์ที่ไม่สามารถแยกแยะจากการสนทนากับมนุษย์ได้

ในตลาดที่ทุกคนสามารถสร้างเสียง AI ได้ และความคาดหวังของผู้ใช้เปลี่ยนแปลงไปตามนั้น “ดีพอ” จะไม่ดีพออีกต่อไป วิธีเดียวที่จะอยู่ในระดับแข่งขันคือการสร้างเสียง AI ที่ผู้คนสามารถลืมได้ง่ายว่ามันคือ AI

Oz Krakowski, Chief Business Development Officer, เป็นผู้นำด้านการพัฒนาและขายเชิงกลยุทธ์ของ Deepdub's และดูแลการนำเนื้อหาที่มีบทและไม่มีบทหลายร้อยชั่วโมงมาใช้ในหลายภาษาโดยใช้แพลตฟอร์มการนำเนื้อหาโดยใช้ AI ของ Deepdub ที่เป็นนวัตกรรมใหม่ ตั้งแต่การดับเสียงภาพยนตร์ ภาพยนตร์อิสระที่ได้รับรางวัล ภาพยนตร์แนวดราม่าแบบเขียนที่ดับเสียงเป็นครั้งแรกบน Hulu ("Vanda") ไปจนถึงเนื้อหาที่ไม่มีบท เช่น รายการเรียลลิตี้ "Hardcore Pawn" และสารคดี "Forensic Files" Oz ได้สร้างความร่วมมือและความสัมพันธ์กับสตูดิโอและเจ้าของเนื้อหาทั่วโลก และเขายังเป็นสมาชิกของคณะกรรมการวางแผนรางวัล DEG อีกด้วย Oz เป็นผู้ประกอบการซึ่งก่อนที่จะเข้าร่วม Deepdub เคยเป็นผู้ร่วมก่อตั้งสตาร์ทอัพในตลาดด้านการดูแลสุขภาพ