ต้นขั้ว Pavel Osokin ผู้ร่วมก่อตั้งและซีอีโอของ AMAI - ซีรี่ส์สัมภาษณ์ - Unite.AI
เชื่อมต่อกับเรา

บทสัมภาษณ์

Pavel Osokin ผู้ร่วมก่อตั้งและซีอีโอของ AMAI – ซีรีส์สัมภาษณ์

mm

การตีพิมพ์

 on

Pavel Osokin เป็นผู้ร่วมก่อตั้งและซีอีโอของ Amaiซึ่งเป็นบริษัทสตาร์ทอัพในซานฟรานซิสโกที่ผลิตเอ็นจิ้นเสียง AI Pavel เป็นผู้นำการดำเนินงานและกลยุทธ์ของ Amai ด้วยความทะเยอทะยานอย่างมืออาชีพในการติดตั้งเทคโนโลยีเสียงในโทรศัพท์ทุกเครื่องในโลก ใน AMAI พวกเขาพัฒนาเสียง AI ที่ผู้ใช้ 97% ไม่สามารถแยกแยะได้จากคำพูดของมนุษย์จริงๆ

คุณเป็นผู้ประกอบการมาตลอดชีวิตโดยเปิดตัวบริษัทแรกเมื่ออายุ 13 ปี ความพยายามครั้งแรกของคุณในการทำธุรกิจคืออะไร และคุณรู้สึกว่าอะไรเป็นแรงจูงใจในความคิดของการเป็นผู้ประกอบการนี้

ฉันไม่ได้เรียกมันว่าบริษัทจริงๆ แต่ฉันทำเงินก้อนแรกได้ด้วยการขายต่อบางอย่างหรือแค่ล้างรถข้างถนนด้วยถังน้ำ แรงจูงใจของฉันคือฉันต้องการโค้กหรือสนีกเกอร์ แต่พ่อแม่ของฉันไม่มีเงิน ฉันสามารถรอให้เงินปรากฏขึ้นหรือหาเงินด้วยตัวเอง การรอไม่ดึงดูดใจฉัน

คุณช่วยแบ่งปันเรื่องราวกำเนิดเบื้องหลัง AMAI ได้ไหม?

ฉันถามคู่ของฉันว่า “บริษัทต่างๆ ทั่วโลกต้องการอะไร” ในการสนทนานั้น ฉันตระหนักว่าทุกธุรกิจกำลังมองหา "การขาย" เราเริ่มสร้างหุ่นยนต์ที่สามารถติดต่อกับลูกค้าและขายสินค้าผ่านทางไปรษณีย์และแมสเซนเจอร์ ในทางกลับกัน มันไม่ได้มีอะไรใหม่เป็นพิเศษ เนื่องจากมีแชทบอทมากมายให้ใช้งาน ดังนั้นเราจึงคิดว่าถ้าหุ่นยนต์เหล่านี้สามารถโทรออกได้ก็คงจะดี เนื่องจากมีโซลูชันที่ดีอยู่ไม่กี่ตัวในท้องตลาด เราจึงสร้างต้นแบบของเสียงสังเคราะห์ของเราเอง และหลังจากการขายครั้งแรก เราละทิ้งหุ่นยนต์และมุ่งเน้นไปที่ TTS

AMAI ย่อมาจากอะไร 

นี่ย่อมาจาก I'm AI (ฉันคือปัญญาประดิษฐ์)

คุณช่วยพูดคุยเกี่ยวกับความท้าทายบางอย่างที่อยู่เบื้องหลังการออกแบบเทคโนโลยีการอ่านออกเสียงข้อความที่ทันสมัยได้หรือไม่

การออกแบบ TTS ที่ล้ำสมัยทำให้เกิดความท้าทายหลายประการ ประการแรกคือการเก็บรวบรวมชุดข้อมูล การฝึกอบรมโครงข่ายประสาทเทียมต้องใช้เสียงชายและหญิงที่มีอายุต่างกัน และยิ่งมากก็ยิ่งดี ประการที่สอง คุณต้องมีความคล้ายคลึงกับเสียงธรรมชาติอย่างใกล้ชิด วิธีที่ดีที่สุดคือการทดสอบโมเดล Machine Learning ต่างๆ และทดลองการใช้งานเสียงในกรณีต่างๆ อย่างต่อเนื่อง โดยเฉพาะอย่างยิ่ง คุณต้องค้นหาตัวอย่างที่มีปัญหามากที่สุดและดำเนินการแยกกัน เมื่อพูดถึงความท้าทายในระยะยาว อาจเป็นเรื่องยากที่จะประเมินว่าเสียงนั้นดีขึ้นหรือแย่ลง และควรปรับปรุงไปในทิศทางใด

อะไรคือความท้าทายเบื้องหลังการรู้จำเสียงเมื่อมนุษย์โต้ตอบกับ AI เสียงของ AMAI

มี บริษัท หลายร้อยแห่งที่ทำงานเกี่ยวกับการจดจำเสียงเพราะมันง่ายกว่าที่จะพัฒนา ปัญหาที่ไม่มีทางแก้ไขในขณะนี้คือการจดจำเสียงของเด็ก เด็ก ๆ มีลักษณะการพูดหลายอย่างตั้งแต่อายุยังน้อย ดังนั้นจึงเป็นเรื่องยากที่จะนำมาพิจารณาทั้งหมด อย่างไรก็ตาม เรากำลังดำเนินการแก้ไขปัญหานี้ และเราใกล้จะประกาศผลแล้ว เร็วๆ นี้ AI ของเราจะไม่มีปัญหาในการโต้ตอบ ไม่เพียงแต่กับผู้ใหญ่เท่านั้น แต่ยังรวมถึงเด็กด้วย

กรณีการใช้งานยอดนิยมสำหรับ AMAI คืออะไร

ตอนนี้เป็นการพากย์เสียงหนังสือเสียงและใช้ในองค์กรในศูนย์บริการทางโทรศัพท์

ปัจจุบันให้บริการภาษาใดบ้าง และภาษาใดบ้างที่กำลังใช้งานอยู่

ระบบลำโพงหลายตัวของเรามีสองภาษา ภาษารัสเซียและภาษาอังกฤษ แนวคิดคือเสียงที่สร้างขึ้นในภาษาหนึ่งสามารถพูดภาษาอื่นๆ ทั้งหมดในโมเดลของเราได้เช่นกัน ปัจจุบัน เรากำลังรวบรวมข้อมูลสำหรับอีก 40 ภาษา และเร็วๆ นี้เราจะมี 42 ภาษา

วิสัยทัศน์ของคุณเกี่ยวกับอนาคตของผู้ช่วยเสียง AI คืออะไร?

ฉันเชื่อว่าผู้ช่วยด้านเสียงจะย้ายเข้าสู่ metaverse และเรากำลังศึกษาโอกาสเหล่านี้อยู่ในขณะนี้ หากคุณรวมผู้ช่วยเข้ากับลำโพงอัจฉริยะหรือเว็บเบราว์เซอร์ ผู้คนจำนวนมากจะใช้การค้นหาด้วยเสียงและโต้ตอบกับผู้ช่วยทุกวัน คุณสามารถพูดคุยกับตู้เย็นหรือทีวีของคุณ

มีอะไรอีกที่คุณอยากจะแบ่งปันเกี่ยวกับ AMAI?

AMAI ใช้เทคโนโลยีที่เป็นกรรมสิทธิ์ของตนเองเท่านั้น

ขอบคุณสำหรับบทสัมภาษณ์ ผู้อ่านที่ต้องการเรียนรู้เพิ่มเติมควรเยี่ยมชม Amai.

ผู้ร่วมก่อตั้ง unite.AI และเป็นสมาชิกของ สภาเทคโนโลยี Forbes อองตวนเป็นอ ผู้เป็นเจ้ายังมาไม่ถึง ผู้หลงใหลเกี่ยวกับอนาคตของ AI และหุ่นยนต์

เขายังเป็นผู้ก่อตั้ง หลักทรัพย์.ioซึ่งเป็นเว็บไซต์ที่เน้นการลงทุนด้านเทคโนโลยีก่อกวน