บทสัมภาษณ์

Matt Hocking ผู้ร่วมก่อตั้ง WellSaid Labs – ซีรีส์สัมภาษณ์

วันที่อัพเดท on April 10, 2024

Matt Hocking เป็นผู้ร่วมก่อตั้ง WellSaid Labs, เครื่องกำเนิดเสียง AI ระดับองค์กรชั้นนำ เขามีประสบการณ์มากกว่า 15 ปีในการเป็นผู้นำทีมและนำเสนอโซลูชั่นเทคโนโลยีในวงกว้าง

พื้นหลังของคุณค่อนข้างเป็นผู้ประกอบการ คุณเข้ามามีส่วนร่วมใน AI ได้อย่างไร?

ฉันเดาว่าฉันคิดว่าตัวเองเป็นผู้ประกอบการที่น่ารักมาโดยตลอด ฉันเริ่มต้นธุรกิจแรกหลังจากเรียนจบวิทยาลัย และด้วยพื้นฐานในการออกแบบผลิตภัณฑ์ ฉันพบว่าตัวเองมีความปรารถนาที่จะช่วยเหลือผู้ที่มีแนวคิดตั้งแต่เริ่มต้น ตลอดอาชีพการงานของฉัน ฉันโชคดีที่ได้ร่วมงานกับบริษัทสตาร์ทอัพหลายแห่งที่ประสบความสำเร็จอย่างเหลือเชื่อ ระหว่างประสบการณ์เหล่านั้น ฉันได้พบกับผู้ก่อตั้งที่เก่งๆ หลายคนโดยตรง ซึ่งก็เป็นแรงบันดาลใจให้ฉันไล่ตามความคิดของตัวเองในฐานะผู้ก่อตั้ง AI ค่อนข้างใหม่สำหรับฉันเมื่อฉันเข้าร่วม AI2; อย่างไรก็ตาม ประสบการณ์ดังกล่าวทำให้ฉันมีโอกาสใช้ผลิตภัณฑ์และเลนส์สตาร์ทอัพของฉันกับงานวิจัยที่น่าทึ่งจริงๆ และลองจินตนาการว่าความก้าวหน้าใหม่ๆ เหล่านี้จะสามารถช่วยผู้คนจำนวนมากในปีต่อๆ ไปได้อย่างไร เป้าหมายของฉันตั้งแต่เริ่มต้นคือการพัฒนาธุรกิจที่แท้จริงสำหรับคนจริงๆ และฉันเชื่อว่า AI มีศักยภาพในการสร้างโอกาสและประสิทธิภาพที่น่าตื่นเต้นมากมายในอนาคตของเราหากใช้อย่างรอบคอบ

คุณช่วยแบ่งปันเรื่องราวว่าแนวคิดของ WellSaid Labs เกิดขึ้นได้อย่างไรเมื่อคุณเป็นผู้ประกอบการที่อาศัยอยู่ที่ สถาบันอัลเลนเพื่อ AI?

ฉันเข้าร่วม Allen Institute for Artificial Intelligence (AI2) ในฐานะผู้ประกอบการในบ้านพักในปี 2018 AI2 ถือเป็นศูนย์บ่มเพาะที่มีนวัตกรรมมากที่สุดในโลก โดยเป็นที่รวมของผู้มีความคิดที่ฉลาดที่สุดใน AI ซึ่งใช้โซลูชันจากขอบของสิ่งที่เป็นไปได้ในปัจจุบันกับผลิตภัณฑ์ที่เป็นรูปธรรมที่แก้ปัญหา ปัญหาทั่วโลก ภูมิหลังของฉันในด้านการออกแบบและเทคโนโลยีทำให้ฉันมีความสนใจในสาขาสร้างสรรค์มาเป็นเวลานาน และด้วยความเจริญของ AI ที่เราทุกคนเห็นอยู่ทุกวันนี้ ฉันจึงต้องการสำรวจวิธีเชื่อมโยงทั้งสองเข้าด้วยกัน ฉันได้รับการแนะนำให้รู้จักกับ Michael Petrochuk (ผู้ร่วมก่อตั้ง WellSaid Labs และ CTO) ในขณะที่พัฒนาแอปการดูแลสุขภาพเชิงโต้ตอบที่จะแนะนำผู้ป่วยผ่านสถานการณ์ที่ละเอียดอ่อนต่างๆ ในระหว่างกระบวนการพัฒนาเนื้อหาสำหรับประสบการณ์นี้ ทีมของฉันทำงานร่วมกับผู้มีความสามารถด้านการพากย์เสียงเพื่อบันทึกเสียงบรรยายล่วงหน้าหลายพันบรรทัดสำหรับอวาตาร์ เมื่อฉันได้สัมผัสกับความก้าวหน้าบางประการที่ Michael ประสบความสำเร็จในระหว่างการค้นคว้าของเขา เราทั้งคู่เห็นอย่างรวดเร็วถึงคุณค่าของการที่การอ่านออกเสียงข้อความ (TTS) ที่เท่าเทียมกันของมนุษย์สามารถเปลี่ยนแปลงได้ไม่เพียงแต่ผลิตภัณฑ์ที่ฉันกำลังทำงานอยู่เท่านั้น แต่ยังส่งผลต่อตัวเลขอีกด้วย ของการใช้งานและอุตสาหกรรมอื่นๆ เทคโนโลยีและเครื่องมือพยายามดิ้นรนเพื่อให้ทันกับความต้องการของผู้ผลิตที่สร้างสรรค์โดยใช้เสียงเป็นสื่อกลาง เราเห็นเส้นทางที่จะนำเทคโนโลยีนี้ไปไว้ในมือของผู้สร้างทุกคน และทำให้เสียงกลายเป็นส่วนสำคัญของเรื่องราวทั้งหมด

WellSaid Labs เป็นหนึ่งในบริษัทไม่กี่แห่งที่ให้บริการนักพากย์ที่มีช่องทางเข้าสู่พื้นที่การพากย์เสียงด้วย AI เหตุใดคุณจึงเชื่อว่าการรวมเสียงจริงเข้ากับผลิตภัณฑ์เป็นสิ่งสำคัญ

คำตอบของเรามี 2 ประเด็น ประการแรก เราต้องการสร้างโซลูชันที่เสริมความสามารถของนักพากย์มืออาชีพ และขยายโอกาสในการใช้เสียง และประการที่สอง เรามุ่งมั่นที่จะมีคุณภาพมนุษย์ในระดับสูงสุดในผลิตภัณฑ์ของเรา นักพากย์ของเราเป็นพันธมิตรที่ทำงานร่วมกันมายาวนาน และได้รับค่าตอบแทนและส่วนแบ่งรายได้สำหรับทั้งข้อมูลเสียงของพวกเขาและเนื้อหาที่ตามมาซึ่งสร้างขึ้นด้วยข้อมูลดังกล่าว นักพากย์ทุกคนที่เราจ้างให้สร้างอวาตาร์เสียง AI ตามลักษณะเสียงของพวกเขาจะได้รับค่าตอบแทนตามจำนวนเสียงที่ใช้บนแพลตฟอร์มของเรา เราสนับสนุนให้ผู้มีความสามารถมาเป็นพันธมิตรกับเรา การชดเชยที่ยุติธรรมสำหรับการมีส่วนร่วมของพวกเขาเป็นสิ่งสำคัญอย่างยิ่งสำหรับเรา

เพื่อนำเสนอผลิตภัณฑ์คุณภาพระดับมนุษย์สูงสุดในตลาด เราต้องเข้มงวดว่าเราจะรับข้อมูลได้จากที่ใด กระบวนการนี้ช่วยให้เราควบคุมคุณภาพได้มากขึ้นในขณะที่เราฝึกอบรม การเรียนรู้ลึก ๆ แบบจำลองที่พูดถึงทั้งความเท่าเทียมของมนุษย์และรูปแบบที่เกี่ยวข้องตามบริบทเฉพาะ เราไม่เพียงแค่สร้างเสียงที่ท่องอินพุตที่ให้ไว้เท่านั้น โมเดลของเรานำเสนอสไตล์เสียงที่หลากหลายซึ่งทำหน้าที่เหมือนกับที่อยู่ในเพจ ไม่ว่าผู้ใช้จะสร้างเสียงบรรยายโดยใช้อวตารจากห้องสมุดของเรา หรือสร้างเสียงบรรยายด้วยเสียงที่สร้างขึ้นเองสำหรับแบรนด์ของพวกเขา เราใช้ข้อมูลเสียงจริงเพื่อให้แน่ใจว่ากระบวนการราบรื่นและแพลตฟอร์มที่ใช้งานง่าย หากลูกค้าของเราต้องจัดการและแก้ไขเสียงของเราในขั้นตอนหลังการผลิต กระบวนการเพื่อให้ได้ผลลัพธ์ที่ต้องการจะยุ่งยากและยาวนาน เสียงของเรานำบริบทของเนื้อหาที่เป็นลายลักษณ์อักษรและให้การอ่านตามบริบทที่ถูกต้อง เรานำเสนอเสียงสำหรับกรณีการใช้งานทุกประเภท ไม่ว่าจะเป็นการอ่านข่าว การสร้างโฆษณาแบบเสียง หรือการสนับสนุนศูนย์บริการทางโทรศัพท์อัตโนมัติ ดังนั้นการเป็นพันธมิตรกับผู้มีความสามารถด้านเสียงระดับมืออาชีพโดยเฉพาะสำหรับแต่ละกรณีการใช้งานทำให้เราได้รับทั้งบริบทและข้อมูลเสียงคุณภาพสูง .

เราอัปเดตและเพิ่มสไตล์และสำเนียงใหม่ ๆ ให้กับไลบรารีอวาตาร์ของเราเป็นประจำเพื่อให้แน่ใจว่าเราเป็นตัวแทนของเสียงของลูกค้าของเรา ใน WellSaid Labs' Studio ลูกค้าและแบรนด์ต่างๆ สามารถออดิชั่นเสียงที่แตกต่างกันตามภูมิภาค สไตล์ และกรณีการใช้งาน ช่วยให้สามารถผลิตเนื้อหาเสียงที่เป็นเอกภาพและราบรื่นยิ่งขึ้นตามความต้องการของผู้ผลิต เมื่อสุ่มตัวอย่างการบันทึกครั้งแรกแล้ว ผู้ใช้สามารถคิวคำ การสะกด และการออกเสียงที่เฉพาะเจาะจงได้ เพื่อให้แน่ใจว่า AI จะพูดตรงตามความต้องการของพวกเขาโดยเฉพาะ

WellSaid Labs อ้างว่าเป็นแพลตฟอร์มเสียง AI ที่มีจริยธรรมแห่งแรก เหตุใดจรรยาบรรณของ AI จึงมีความสำคัญต่อคุณ

เมื่อการนำ AI มาใช้เพิ่มขึ้นและกลายเป็นกระแสหลักมากขึ้น ความกลัวต่อกรณีการใช้งานที่เป็นอันตรายและผู้กระทำผิดจึงกลายเป็นศูนย์กลางของทุกการสนทนา และข้อกังวลเหล่านี้ได้รับการตรวจสอบความถูกต้องโดยเหตุการณ์ในโลกแห่งความเป็นจริง เสียง AI ก็ไม่มีข้อยกเว้น เกือบทุกวันมีรายงานใหม่เกี่ยวกับคนดัง บุคคลสาธารณะ หรือนักการเมืองที่ถูกปลอมแปลงเพื่อการโฆษณาหรือเพื่อจุดประสงค์ทางการเมือง กลายเป็นหัวข้อข่าว แม้ว่ากฎระเบียบของรัฐบาลกลางอย่างเป็นทางการเกี่ยวกับเทคโนโลยีนี้ยังคงมีการพัฒนาอยู่ แต่การตรวจจับและต่อสู้กับนักแสดงที่เป็นอันตรายและการใช้เสียงสังเคราะห์จะกลายเป็นเรื่องยากมากขึ้นเมื่อเทคโนโลยียังคงก้าวหน้าต่อไป

มาจาก AI2 ซึ่งจริยธรรมของ AI เป็นหลักการสำคัญ Michael และฉันได้พูดคุยกันตั้งแต่วันแรก การพัฒนาเทคโนโลยีคำพูดของ AI มาพร้อมกับความรับผิดชอบที่สำคัญเกี่ยวกับการยินยอม ความเป็นส่วนตัว และความปลอดภัยโดยรวม เรารู้ว่าเราในฐานะนักพัฒนาจะต้องสร้างเทคโนโลยีของเราอย่างปลอดภัย จัดการกับข้อกังวลด้านจริยธรรม และวางรากฐานสำหรับการพัฒนาเสียงสังเคราะห์ในอนาคต เราตระหนักถึงศักยภาพของเทคโนโลยีคำพูด AI สำหรับการใช้งานในทางที่ผิด และยอมรับความรับผิดชอบของเราในการลดการใช้ผลิตภัณฑ์ของเราในทางที่ผิด เราจำเป็นต้องวางรากฐานนี้ตั้งแต่วันแรกแทนที่จะวิ่งเร็วและทำผิดพลาดไปพร้อมกัน นั่นคงจะไม่ถูกต้องสำหรับลูกค้าองค์กรและนักพากย์ของเราที่ไว้วางใจให้เราสร้างผลิตภัณฑ์คุณภาพสูงและน่าเชื่อถือ

เราสนับสนุนอย่างเต็มที่ต่อการเรียกร้องให้มีการออกกฎหมายในด้านนี้ อย่างไรก็ตาม เราจะไม่รอให้มีการบังคับใช้กฎระเบียบของรัฐบาลกลาง เราให้ความสำคัญมาโดยตลอดและจะจัดลำดับความสำคัญของแนวปฏิบัติที่สนับสนุนความเป็นส่วนตัว ความปลอดภัย ความโปร่งใส และความรับผิดชอบต่อไป

เราปฏิบัติตามเจตนารมณ์ทางจริยธรรมของบริษัทอย่างเคร่งครัด ซึ่งตั้งอยู่บนพื้นฐานของการสร้างนวัตกรรมที่มีความรับผิดชอบในทุกการตัดสินใจของเรา นี่เป็นประโยชน์สูงสุดของลูกค้าทั่วโลกของเรา – แบรนด์ระดับองค์กร

คุณจะพัฒนาแพลตฟอร์มเสียง AI ที่มีจริยธรรมได้อย่างไร

WellSaid Labs มุ่งมั่นที่จะสร้างสรรค์นวัตกรรมที่มีจริยธรรมตั้งแต่เริ่มต้น เรารวมศูนย์ความไว้วางใจและความโปร่งใสผ่านการใช้โมเดลข้อมูลภายใน ข้อกำหนดการยินยอมอย่างชัดแจ้ง โปรแกรมตรวจสอบเนื้อหาของเรา และความมุ่งมั่นของเราในการปกป้องแบรนด์ ที่ WellSaid เรายึดถือหลักการของ AI ที่มีความรับผิดชอบ เพื่อกำหนดรูปแบบการตัดสินใจและการออกแบบของเรา และหลักการเหล่านั้นก็ขยายไปถึงการใช้เสียงของเรา หลักจริยธรรมของเราแสดงถึงหลักการเหล่านี้ ได้แก่ ความรับผิดชอบ ความโปร่งใส ความเป็นส่วนตัวและความปลอดภัย และความยุติธรรม

การรับผิดชอบ: เรารักษามาตรฐานที่เข้มงวดสำหรับเนื้อหาที่เหมาะสม ห้ามใช้เสียงของเราสำหรับเนื้อหาที่เป็นอันตราย แสดงความเกลียดชัง ฉ้อโกง หรือมีเจตนายุยงให้เกิดความรุนแรง ทีมความน่าเชื่อถือและความปลอดภัยของเราจะรักษามาตรฐานเหล่านี้ด้วยโปรแกรมตรวจสอบเนื้อหาที่เข้มงวด โดยบล็อกและลบผู้ใช้ที่พยายามละเมิดข้อกำหนดในการให้บริการของเรา

ความโปร่งใส: เราต้องการความยินยอมอย่างชัดเจนก่อนที่จะสร้างเสียงสังเคราะห์ด้วยข้อมูลเสียงของใครบางคน ผู้ใช้ไม่สามารถอัปโหลดข้อมูลเสียงจากนักการเมือง คนดัง หรือใครก็ตามเพื่อสร้างเสียงเลียนแบบของพวกเขา เว้นแต่เราจะได้รับความยินยอมเป็นลายลักษณ์อักษรอย่างชัดแจ้งจากบุคคลนั้น

ความเป็นส่วนตัวและความปลอดภัย: เราปกป้องตัวตนของนักพากย์ของเราโดยใช้ภาพสต็อกและนามแฝงเพื่อเป็นตัวแทนของเสียงสังเคราะห์ นอกจากนี้เรายังสนับสนุนให้พวกเขาใช้ความระมัดระวังเกี่ยวกับวิธีการและบุคคลที่พวกเขาแบ่งปันความร่วมมือกับ WellSaid Labs หรือบริษัทเสียงสังเคราะห์อื่น ๆ เพื่อลดโอกาสในการใช้เสียงของพวกเขาในทางที่ผิด

ความเป็นธรรม: เราชดเชยนักพากย์ทุกคนที่ให้ข้อมูลเสียงสำหรับแพลตฟอร์มของเรา และเรามอบส่วนแบ่งรายได้อย่างต่อเนื่องให้พวกเขาสำหรับการใช้เสียงสังเคราะห์ที่เราสร้างด้วยข้อมูลของพวกเขา

นอกจากหลักการเหล่านี้แล้ว เรายังเคารพทรัพย์สินทางปัญญาอย่างเคร่งครัดอีกด้วย เราไม่อ้างสิทธิ์ความเป็นเจ้าของเนื้อหาที่จัดทำโดยผู้ใช้หรือนักพากย์ของเรา เราให้ความสำคัญกับความซื่อสัตย์ ความยุติธรรม และความโปร่งใสในทุกสิ่งที่เราทำ เพื่อให้มั่นใจว่าเทคโนโลยีคำพูดสังเคราะห์ของเราจะถูกนำไปใช้อย่างมีความรับผิดชอบและมีจริยธรรม เรากระตือรือร้นที่จะแสวงหาความร่วมมือจากผู้มีภูมิหลังและประสบการณ์ที่หลากหลาย เพื่อให้แน่ใจว่าเราจะเป็นกระบอกเสียงให้กับทุกคน

ความมุ่งมั่นของเราในการสร้างสรรค์นวัตกรรมที่มีความรับผิดชอบและการพัฒนาเทคโนโลยีเสียง AI โดยคำนึงถึงหลักจริยธรรมทำให้เราแตกต่างจากคนอื่นๆ ในอุตสาหกรรมที่กำลังมองหาประโยชน์จากอุตสาหกรรมใหม่ที่ไม่ได้รับการควบคุมไม่ว่าจะด้วยวิธีใดก็ตาม การลงทุนในช่วงแรกของเราในด้านจริยธรรม ความปลอดภัย และความเป็นส่วนตัวสร้างความไว้วางใจและความภักดีภายในนักพากย์และลูกค้าของเรา ซึ่งแสวงหาผลิตภัณฑ์และบริการที่มีหลักจริยธรรมจากบริษัทระดับแนวหน้าด้านนวัตกรรมมากขึ้นเรื่อยๆ

WellSaid Labs ได้สร้างโมเดล AI ภายในองค์กรซึ่งช่วยให้เสียงของ AI สามารถบรรลุความเท่าเทียมของมนุษย์ และบรรลุเป้าหมายนี้ด้วยการนำความไม่สมบูรณ์ของมนุษย์มาสู่การสนทนา อะไรคือความไม่สมบูรณ์ที่ทำให้ AI ดีขึ้น และความไม่สมบูรณ์เหล่านี้ถูกนำไปใช้อย่างไร?

WellSaid Labs ไม่ได้เป็นเพียงเครื่องมือสร้าง TTS อีกตัวหนึ่ง ในขณะที่เทคโนโลยี TTS ในยุคแรกๆ ไม่สามารถจดจำคุณภาพคำพูดของมนุษย์ได้ เช่น ระดับเสียงสูงต่ำ น้ำเสียง และภาษาถิ่นที่ถ่ายทอดบริบทและอารมณ์ที่อยู่เบื้องหลังคำพูด เสียงของ WellSaid ก็ได้บรรลุความเท่าเทียมกันของมนุษย์ โดยนำความไม่สมบูรณ์ของมนุษย์มาสู่คำพูดที่สร้างโดย AI

การวัดคุณภาพเสียงหลักของเราคือความเป็นธรรมชาติของมนุษย์มาโดยตลอด ความเชื่อที่เป็นแนวทางนี้ได้หล่อหลอมเทคโนโลยีของเราในทุกขั้นตอน ตั้งแต่ไลบรารีสคริปต์ที่เราสร้างขึ้นไปจนถึงคำแนะนำที่เรามอบให้กับผู้มีความสามารถ และล่าสุดคือวิธีที่เราทำซ้ำในอัลกอริธึม TTS หลักของเรา

เราฝึกการเปล่งเสียงของมนุษย์อย่างแท้จริง ความสามารถด้านเสียงของเราจะอ่านบทของพวกเขาอย่างน่าเชื่อถือและน่าดึงดูดเมื่อพวกเขาบันทึกเสียงให้เรา ในทางกลับกัน ความสมบูรณ์แบบของคำพูดเป็นแนวคิดทางกลไกที่นำไปสู่ผลลัพธ์ที่ไร้ที่ติโดยการใช้หุ่นยนต์และผิดธรรมชาติ เมื่อนักพากย์มืออาชีพแสดง อัตราการพูดของพวกเขาจะผันผวน ความดังของพวกเขาเคลื่อนไหวไปพร้อมกับเนื้อหาที่พวกเขากำลังอ่าน ระดับเสียงอาจสูงขึ้นในเนื้อเรื่องที่ต้องอ่านด้วยความตื่นเต้น และลดลงอีกครั้งในแนวที่มืดมนมากขึ้น รูปแบบไดนามิกเหล่านี้ประกอบขึ้นเป็นการแสดงเสียงร้องของมนุษย์ที่น่าดึงดูด

ด้วยการสร้างกระบวนการ AI ที่ทำงานร่วมกับการแสดงแบบไดนามิกของผู้มีความสามารถระดับมืออาชีพของเรา เราได้สร้างแพลตฟอร์ม TTS ที่เป็นธรรมชาติอย่างแท้จริง เราได้พัฒนาระบบ TTS แบบยาวระบบแรกที่มีการควบคุมแบบคาดการณ์ตลอดกระบวนการสร้างสรรค์ทั้งหมด ไลบรารีสัทศาสตร์ของเรามีคอลเลกชันข้อมูลเสียงที่หลากหลาย ช่วยให้ผู้ใช้สามารถรวมคิวเสียงพูดที่เฉพาะเจาะจง เช่น คำแนะนำในการออกเสียงหรือความสามารถในการควบคุม ลงในแบบจำลองในระหว่างขั้นตอนการผลิต ในแพลตฟอร์มเดียว ผู้ใช้ WellSaid สามารถบันทึก แก้ไข และปรับแต่งเสียงพากย์ของตนได้โดยไม่จำเป็นต้องนำเข้าข้อมูลภายนอก

คุณช่วยพูดคุยเกี่ยวกับความท้าทายเบื้องหลังการสร้างบริษัท AI การอ่านออกเสียงข้อความ (TTS) ได้ไหม

การพัฒนาเทคโนโลยีเสียง AI ได้สร้างอุปสรรคชุดใหม่สำหรับทั้งผู้ผลิตและผู้บริโภค หนึ่งในความท้าทายหลักคือการไม่จมอยู่กับเสียงรบกวนและกระแสฮือฮาที่ท่วมท้นในภาคส่วน AI เนื่องจากเป็นเทคโนโลยีใหม่ที่น่าจับตามอง หลายองค์กรจึงพยายามหาเงินจากการพัฒนาระบบพากย์เสียง AI ในระยะสั้น เราต้องการเป็นกระบอกเสียงให้กับทุกคน โดยปฏิบัติตามหลักจริยธรรมและความถูกต้องเป็นศูนย์กลาง การยึดมั่นในความถูกต้องนี้อาจทำให้การพัฒนาและการปรับใช้เทคโนโลยีของเราล่าช้า แต่ทำให้ความปลอดภัยและความมั่นคงของเสียงและข้อมูลของ WellSaid แข็งแกร่งขึ้น

ความท้าทายอีกประการหนึ่งของการพัฒนาแพลตฟอร์ม TTS ของเราคือการพัฒนาแนวทางการยินยอมที่เฉพาะเจาะจงเพื่อให้แน่ใจว่าองค์กรหรือผู้มีส่วนร่วมแต่ละรายจะไม่ใช้เทคโนโลยีของเราในทางที่ผิด เพื่อต่อสู้กับความท้าทายนี้ เราแสวงหาความร่วมมือระยะยาวและมีส่วนร่วมอย่างเต็มที่กับการพัฒนาการพากย์เสียงเพื่อเพิ่มความรับผิดชอบ ความโปร่งใส และความปลอดภัยของผู้ใช้ เรากระตือรือร้นแสวงหาความร่วมมือกับผู้มีความสามารถด้านเสียงจากภูมิหลัง องค์กร และประสบการณ์ที่หลากหลาย เพื่อให้แน่ใจว่าคลังเสียงของ WellSaid Labs สะท้อนถึงผู้สร้างและผู้ฟัง กระบวนการเหล่านี้ได้รับการออกแบบให้มีความตั้งใจและเน้นรายละเอียดเพื่อให้แน่ใจว่าเทคโนโลยีของเราถูกนำไปใช้อย่างปลอดภัยและมีจริยธรรมที่สุดเท่าที่จะเป็นไปได้ ซึ่งอาจชะลอลำดับเวลาการพัฒนาและการเปิดตัวได้

วิสัยทัศน์ของคุณสำหรับอนาคตของเสียง AI เชิงสร้างสรรค์คืออะไร?

เป็นเวลานานแล้วที่เทคโนโลยีคำพูดของ AI ไม่ได้มีคุณภาพสูงพอที่จะทำให้บริษัทต่างๆ สามารถสร้างเนื้อหาที่มีความหมายได้ในวงกว้าง ขณะนี้เทคโนโลยีเสียงไม่ต้องการอุปกรณ์และฮาร์ดแวร์ราคาแพงอีกต่อไป เนื้อหาที่เขียนทั้งหมดสามารถผลิตและเผยแพร่ในรูปแบบเสียงเพื่อสร้างประสบการณ์ที่น่าสนใจและหลากหลายรูปแบบ

ในปัจจุบัน เสียงของ AI สามารถสร้างเสียงที่เหมือนมนุษย์และบันทึกความแตกต่างเล็กๆ น้อยๆ ที่จำเป็นในการทำให้การเล่าเรื่องแบบดิจิทัลเข้าถึงได้และเป็นธรรมชาติมากขึ้น อนาคตของเสียง generative AI จะเป็นประสบการณ์การได้ยินที่ครอบคลุมทุกด้านซึ่งสัมผัสทุกแง่มุมของชีวิตของเรา ในขณะที่เทคโนโลยีก้าวหน้าอย่างต่อเนื่อง เราจะเห็นว่าเสียงสังเคราะห์ที่เป็นธรรมชาติและแสดงออกมากขึ้นทำให้เส้นแบ่งระหว่างคำพูดของมนุษย์กับคำพูดที่เครื่องสร้างขึ้นนั้นพร่าเลือนลง ซึ่งจะช่วยเปิดประตูใหม่สำหรับธุรกิจ การสื่อสาร การเข้าถึง และวิธีที่เราโต้ตอบกับโลกรอบตัวเรา

ธุรกิจต่างๆ จะพบกับการปรับแต่งส่วนบุคคลที่ได้รับการปรับปรุงในอินเทอร์เฟซเสียงของ AI และใช้อินเทอร์เฟซเหล่านี้เพื่อทำให้การโต้ตอบกับผู้ช่วยเสมือนมีความสมจริงและเป็นมิตรกับผู้ใช้มากขึ้น การปรับปรุงเหล่านี้กำลังเกิดขึ้นแล้ว ตั้งแต่เจ้าหน้าที่คอลเซ็นเตอร์อัจฉริยะไปจนถึงการขับรถผ่านร้านฟาสต์ฟู้ด การสร้างเนื้อหา รวมถึงการโฆษณา การตลาดผลิตภัณฑ์ การบรรยายข่าว พอดแคสต์ หนังสือเสียง และมัลติมีเดียอื่นๆ จะเห็นประสิทธิภาพที่เพิ่มขึ้นโดยการใช้เครื่องมือในการพัฒนาเนื้อหาที่น่าสนใจ ซึ่งท้ายที่สุดแล้วจะเป็นการเพิ่มลิฟต์และรายได้ให้กับองค์กรต่างๆ โดยเฉพาะอย่างยิ่งในปัจจุบันที่โมเดลหลายภาษาสามารถขยายการเข้าถึงของบริษัทได้ จากจุดกำเนิดเดียวไปสู่การมีอยู่ทั่วโลก ทีมผู้ผลิตจะได้รับประโยชน์อย่างมากจากเสียงสังเคราะห์เพื่อสร้างเสียงที่ปรับแต่งตามความต้องการของแบรนด์หรือปรับแต่งให้เหมาะกับผู้ฟัง

ก่อนที่จะมีการเปิดตัว AI เทคโนโลยี TTS ยังขาดความสามารถด้านอารมณ์ น้ำเสียง และการออกเสียงของมนุษย์ที่จำเป็นในการบอกเล่าเรื่องราวทั้งหมดในปริมาณมากและง่ายดาย ปัจจุบัน TTS ที่ขับเคลื่อนด้วย AI มอบประสบการณ์ที่ดื่มด่ำและเข้าถึงได้มากขึ้น รวมถึงความสามารถในการพูดแบบเรียลไทม์และตัวแทนการสนทนาแบบโต้ตอบ

การบรรลุความสามารถด้านคำพูดที่เหมือนมนุษย์นั้นเป็นการเดินทางที่ต้องใช้เวลา แต่ตอนนี้เมื่อสามารถทำได้แล้ว เรากำลังเห็นขอบเขตที่สมบูรณ์ของเสียง AI เพื่อสร้างมูลค่าทางธุรกิจที่แท้จริงให้กับองค์กร

ขอบคุณสำหรับบทสัมภาษณ์ที่ดี ผู้อ่านที่ต้องการเรียนรู้เพิ่มเติมควรเยี่ยมชม เวลซาอิด แล็บส์.