ผู้นำทางความคิด
ปัญญาประดิษฐ์ด้านเสียงกำลังเฟื่องฟู – แต่มีความสมจริงมากพอที่จะสร้างผลกระทบได้หรือไม่?

ตลาดโลกสำหรับระบบตอบรับอัตโนมัติด้วยเสียง (AI) กำลังเฟื่องฟู ที่คาดการณ์ คาดการณ์ว่าตลาดจะเติบโตจาก 3.14 พันล้านดอลลาร์ในปี 2024 เป็น 47.5 พันล้านดอลลาร์ในปี 2034 เทคโนโลยีด้านเสียงไม่ได้เป็นเพียงเทคโนโลยีเฉพาะกลุ่มอีกต่อไป บริษัทเทคโนโลยีชั้นนำส่วนใหญ่ (รวมถึง Google, Amazon, Apple, Meta และ Microsoft) ต่างก็มีผลิตภัณฑ์ด้านเสียงแล้ว สตาร์ทอัพต่าง ๆ ก็กำลังนำเสนอนวัตกรรมสู่ตลาด และตัวเทคโนโลยีเองก็เข้าถึงได้ง่ายขึ้นเรื่อย ๆ ด้วยโมเดลโอเพนซอร์ส ตั้งแต่ผู้ช่วยเสมือนจริงในชีวิตประจำวันอย่าง Siri และ Alexa ไปจนถึงการพากย์เสียงในภาพยนตร์และรายการโทรทัศน์ โอกาสในการนำ AI ด้านเสียงมาใช้จึงเฟื่องฟูอย่างที่ไม่เคยมีมาก่อน
แต่ในขณะที่การเข้าถึง AI เสียงแพร่หลายมากขึ้น ประสบการณ์ของผู้ใช้ยังคงไม่สม่ำเสมอ นั่นเป็นเพราะส่วนที่ยากที่สุดของ AI เสียงไม่ใช่การสร้างเสียง แต่เป็นการสร้างเสียงที่ฟังดูน่าเชื่อถือในการปฏิสัมพันธ์ในชีวิตประจำวัน การใช้งานอย่างแพร่หลายไม่ได้หมายความว่าเสียง AI เหล่านั้นเพียงพอต่อความต้องการขององค์กรหรือสำหรับการใช้งานในระยะยาว ผู้ที่จะประสบความสำเร็จในการแข่งขันอย่างแท้จริงคือผู้ที่สามารถสร้างเสียงที่ให้ความรู้สึกเหมือนมนุษย์ มีชีวิตชีวา และรับรู้ถึงอารมณ์ในสถานการณ์จริงได้
หุบเขาแห่งความแปลกประหลาด: คำว่า “ดีพอ” นั้นไม่เพียงพอ
แนวคิดที่กำลังแพร่หลายในอุตสาหกรรมนี้คือ การสร้างเสียง AI ที่เหมือนมนุษย์ในระดับที่เหมาะสมจะถือว่า "ดีพอ" สำหรับการใช้งานอย่างแพร่หลาย ซึ่งจะทำให้การแข่งขันยุติลงไปโดยปริยาย ผู้ใช้จะยอมรับความไม่เป็นธรรมชาติเล็กน้อยได้ เพราะประโยชน์ที่ได้รับนั้นมีมากกว่าข้อเสีย
ในความเป็นจริง ข้อสันนิษฐานนี้เข้าใจผิดเกี่ยวกับวิธีที่ผู้คนรับรู้คำพูด อารมณ์ และความจริงใจ เสียงที่เหมือนมนุษย์เกือบจะสมบูรณ์แบบนั้นมีแนวโน้มที่จะสร้างความรู้สึกไม่สบายใจ “หุบเขาแห่งความแปลกประหลาด” ผลกระทบที่ทำให้ผู้ใช้รู้สึกไม่สบายใจ โดยเฉพาะอย่างยิ่งในระหว่างการบริการลูกค้า การดูแลสุขภาพ หรือการวางแผนการเดินทาง ซึ่งอารมณ์อาจพลุ่งพล่าน และการรู้สึกว่าได้รับการเข้าใจนั้นสำคัญยิ่ง เมื่อการได้ยินเสียง AI เพิ่มมากขึ้น ความอดทนต่อความธรรมดาก็ลดลง
ในความเป็นจริง การวิจัย จากการศึกษาปฏิสัมพันธ์ระหว่างมนุษย์กับเครื่องจักร พบว่าเมื่อมีเสียงพูด เกือบจะ เสียงพูดนั้นเหมือนมนุษย์ แต่ขาดความสอดคล้องทางอารมณ์หรือจังหวะ ผู้ใช้จะรู้สึกได้โดยสัญชาตญาณว่ามีบางอย่างผิดปกติ ตัวอย่างเช่น บริษัทบางแห่งที่มีพนักงานต้อนรับ AI ระบุว่าผู้ใช้บรรยายการโต้ตอบว่าน่าขนลุกหรือน่ากังวล เพราะเสียงพูดมีจังหวะหรืออารมณ์ที่ไม่สอดคล้องกันเล็กน้อย ซึ่งรู้สึกไม่ถูกต้อง ในสภาพแวดล้อมที่ต้องติดต่อกับลูกค้า แม้แต่ความขัดแย้งหรือความไม่สบายใจเล็กๆ น้อยๆ ก็สามารถสะสมจนกลายเป็นความไม่พอใจอย่างแท้จริงและนำไปสู่การเลิกใช้บริการในที่สุด
การหลุดพ้นจากกรอบความคิดที่ว่า “ดีพอแล้ว” นั้นมีความสำคัญมากขึ้นเรื่อยๆ สำหรับเป้าหมายทางธุรกิจ คาดการณ์ว่า AI จะเข้ามาจัดการงานต่างๆ ประมาณ... 50% จำนวนเคสบริการลูกค้าภายในปี 2027 แต่... ปฏิสัมพันธ์อัตโนมัติเชิงลบ อาจส่งผลเสียต่อภาพลักษณ์ของแบรนด์โดยตรง การโต้ตอบกับแชทบอทที่ไม่ดี ตามด้วยประสบการณ์การใช้เสียงที่แย่หรือไม่เป็นธรรมชาติ จะสร้างความรู้สึกหงุดหงิดอย่างมาก และอาจบ่งชี้ว่าไม่มีช่องทางที่น่าเชื่อถือในการขอความช่วยเหลืออย่างแท้จริง
เมื่อผู้บริโภคมีปฏิสัมพันธ์กับเสียง AI มากขึ้น ความอดทนต่อการโต้ตอบที่เหมือนหุ่นยนต์หรือไม่เป็นธรรมชาติก็จะลดลง และผู้ใช้จะเลิกใช้ในไม่ช้า ซึ่งส่งผลกระทบอย่างร้ายแรงต่อธุรกิจของบริษัทที่พึ่งพาเครื่องมือดังกล่าว
สัจนิยมที่แท้จริง
ในด้านปัญญาประดิษฐ์ด้านเสียง ความสมจริงในระดับมนุษย์นั้นไม่ใช่แค่เรื่องความถูกต้องของการออกเสียงหรือการกำจัดเสียงที่ฟังดูเหมือนหุ่นยนต์เท่านั้น แต่ยังต้องอาศัยการผสมผสานหลายมิติของอารมณ์ บริบท ความแตกต่างทางวัฒนธรรม จังหวะเวลา และปัจจัยที่ละเอียดอ่อนกว่านั้น ความท้าทายที่แท้จริงจึงอยู่ที่การแยกแยะ ทำความเข้าใจ และท้ายที่สุดคือการจำลององค์ประกอบต่างๆ ที่หล่อหลอมการสื่อสารของมนุษย์ เช่น:
ความหลากหลายทางอารมณ์และความจริงใจ
ความงดงามของเสียงมนุษย์อยู่ที่ความสามารถในการถ่ายทอดความอบอุ่น ความเร่งรีบ อารมณ์ขัน ความผิดหวัง ความตื่นเต้น และอารมณ์อื่นๆ อีกมากมาย ควบคู่ไปกับถ้อยคำเหล่านั้น ความละเอียดอ่อนทางอารมณ์นี้ส่งผลโดยตรงต่อความรู้สึกของผู้ฟังว่าได้รับการเข้าใจหรือถูกมองข้าม รู้สึกมั่นใจหรือหงุดหงิด
ลองนึกภาพดูว่ามีเจ้าหน้าที่ฝ่ายสนับสนุนลูกค้าที่ใช้ AI กำลังรับมือกับลูกค้าที่กำลังหงุดหงิดอยู่ บอทอาจพูดว่า “ฉันเข้าใจดีว่ามันน่าหงุดหงิดแค่ไหน มาดูกันว่าเราจะแก้ไขได้อย่างไร” เมื่อเสียงที่พูดคำเหล่านั้นฟังดูเห็นอกเห็นใจ มันจะช่วยลดความเครียดของผู้โทรและแสดงให้เห็นถึงความพยายามในการแก้ไขความขัดแย้งอย่างแท้จริง ในทางกลับกัน หากพูดคำเดียวกันด้วยน้ำเสียงที่ราบเรียบหรือไม่เป็นธรรมชาติ ก็จะทำให้เกิดปฏิกิริยาตรงกันข้าม
ความฉลาดเชิงบริบท
โดยสัญชาตญาณแล้ว มนุษย์จะปรับการพูดของตนเองตามความเร่งด่วนของสถานการณ์ สภาพอารมณ์ของผู้ฟัง ความซับซ้อนของข้อมูล และบริบททางสังคม เสียง AI ในปัจจุบันมักจะพูดประโยคต่างๆ อย่างสม่ำเสมอ โดยขาดเบาะแสทางบริบทที่ทำให้การพูดรู้สึกตอบสนองและเป็นธรรมชาติ การพูดที่สมจริงนั้นต้องอาศัยความเข้าใจไม่เพียงแค่คำพูด แต่ยังต้องเข้าใจด้วยว่าทำไมจึงมีการพูดคำเหล่านั้น และความคิดของคนที่พูดออกมาด้วย
การแสดงออกทางสีหน้าเล็กๆ น้อยๆ ในรูปแบบเสียง
การพูดตามธรรมชาติย่อมมีข้อบกพร่องเล็กน้อย เช่น การหายใจ การหยุดชั่วคราว เครื่องหมายแสดงความลังเล และจังหวะการพูดที่ไม่สม่ำเสมอ นั่นเป็นหนึ่งในเหตุผลหลักที่ทำให้การพูดของ AI ที่ไร้ที่ติและต่อเนื่องโดยไม่ถูกขัดจังหวะ รู้สึกว่าไม่เหมือนมนุษย์เท่าที่ควร น่าเสียดายที่การจำลองลักษณะเหล่านี้ให้ดูสมจริงยังคงเป็นเรื่องที่ท้าทายทางเทคนิค
ความแตกต่างทางวัฒนธรรมและภาษา
นอกเหนือจากการเลียนแบบสำเนียงแล้ว การสื่อสารในระดับภูมิภาคอย่างแท้จริงยังขึ้นอยู่กับความเข้าใจในจังหวะการพูด น้ำเสียง สำนวน ระดับความเป็นทางการ และรูปแบบการสื่อสารของวัฒนธรรมที่แตกต่างกัน ตัวอย่างเช่น รูปแบบน้ำเสียงที่สูงขึ้นซึ่งบ่งบอกถึงความเป็นมิตรและความตื่นเต้นในวัฒนธรรมหนึ่ง อาจถูกตีความว่าเป็นความไม่แน่ใจหรือการตั้งคำถามในอีกวัฒนธรรมหนึ่ง ซึ่งอาจเปลี่ยนแปลงการรับรู้เจตนาหรืออารมณ์ของผู้ใช้ได้
หากปราศจากการผสานรวมความละเอียดอ่อนของเสียงเหล่านี้เข้ากับโมเดล AI แม้แต่เสียงที่ถูกต้องตามหลักเทคนิคก็อาจฟังดูไม่เหมาะสมหรือสร้างความสับสนให้กับผู้ใช้จากภูมิหลังทางวัฒนธรรมที่แตกต่างกัน ความสมจริงอย่างแท้จริงต้องอาศัยความสามารถในการปรับโทนเสียงและสไตล์ตามความคาดหวังของผู้ใช้แต่ละคน
เมื่อพิจารณาถึงปัจจัยที่ละเอียดอ่อนแต่สำคัญเหล่านี้ทั้งหมดแล้ว จะเห็นได้ชัดว่าเสียง AI ไม่เพียงแต่ต้องมีคุณสมบัติดังต่อไปนี้เท่านั้น เสียง เหมือนมนุษย์แต่ก็เช่นกัน เกิดปฏิกิริยา แบบเรียลไทม์ เหมือนกับที่มนุษย์พูด นั่นเป็นเหตุผลว่าทำไมความหน่วงจึงเป็นองค์ประกอบสำคัญในการประเมินว่าเสียง AI นั้นเหมือนมนุษย์มากแค่ไหน ในการสนทนาตามธรรมชาติ มนุษย์จะผลัดกันพูดโดยมีช่วงเวลาเฉลี่ยประมาณ... 250 มิลลิวินาทีหากนานกว่านั้น การสนทนาจะดูเชื่องช้า ไม่ใส่ใจ หรือสับสน ความแตกต่างเพียงเล็กน้อยระหว่างการหยุดคิดอย่างรอบคอบกับความล่าช้าทางเทคนิค อาจเป็นสิ่งเดียวที่ทำลายภาพลวงตาของการสนทนาที่เป็นธรรมชาติและทำให้เสียงดูไม่ตั้งใจฟัง
ทำไมเรื่องนี้
ในอนาคต ตลาดจะให้ความสำคัญกับบริษัทที่สามารถนำเสนอทั้งความสมจริงและการตอบสนองแบบเรียลไทม์อย่างหลีกเลี่ยงไม่ได้
สำหรับระบบ AI ตัวแทนและผู้ช่วยนั้น การยอมรับและการใช้งานอย่างต่อเนื่องของผู้ใช้ขึ้นอยู่กับว่าผู้คนต้องการโต้ตอบกับเทคโนโลยีนั้นตั้งแต่แรกหรือไม่ ความแตกต่างระหว่างเครื่องมือที่ผู้คนลองใช้เพียงครั้งเดียวกับเครื่องมือที่พวกเขาใช้ทุกวันอยู่ที่คุณภาพของประสบการณ์การสนทนา
ในอุตสาหกรรมบันเทิง การดึงดูดความสนใจและการจดจำของผู้ชมขึ้นอยู่กับความสมจริงของเนื้อหา และเพียงแค่ประโยคเดียวที่ไม่เป็นธรรมชาติก็สามารถทำให้ผู้ชมเสียสมาธิได้ เสียง AI ที่ใช้ในการพากย์เสียงหรือการแสดงตัวละครต้องผสานเข้ากับเรื่องราวอย่างสมบูรณ์เพื่อรักษาผลกระทบทางอารมณ์
สำหรับงานบริการลูกค้า ความไว้วางใจและความเห็นอกเห็นใจเป็นสิ่งสำคัญยิ่ง โดยเฉพาะอย่างยิ่งเนื่องจากการปฏิสัมพันธ์กับลูกค้าจำนวนมากเกิดขึ้นในช่วงเวลาที่ลูกค้ารู้สึกหงุดหงิดหรือสับสน น้ำเสียงที่ฟังดูแข็งทื่อหรือขาดการเชื่อมโยงทางอารมณ์อาจทำให้สถานการณ์เลวร้ายลงแทนที่จะแก้ไข ผู้ใช้คาดหวังน้ำเสียงที่แสดงถึงความห่วงใย ความอดทน หรือการให้ความมั่นใจ ไม่ใช่แค่การตอบกลับตามสคริปต์เท่านั้น
สิ่งที่มาต่อไป
บริษัทที่จะชนะการแข่งขันด้าน AI เสียง จะเป็นบริษัทที่เชี่ยวชาญด้านความละเอียดอ่อนทางอารมณ์ เข้าใจความแตกต่างทางวัฒนธรรมและบริบท ตอบสนองได้ทันทีและราบรื่น และมอบประสบการณ์ที่ไม่แตกต่างจากการพูดคุยกับมนุษย์
ในตลาดที่ใครๆ ก็สามารถสร้างเสียง AI ได้ และความคาดหวังของผู้ใช้ก็เปลี่ยนแปลงไปเรื่อยๆ คำว่า “ดีพอแล้ว” จะไม่ดีอีกต่อไปในไม่ช้า วิธีเดียวที่จะรักษาความสามารถในการแข่งขันได้คือการสร้างเสียง AI ที่ผู้คนสามารถลืมไปได้ง่ายๆ ว่าเป็นเสียง AI












