ปัญญาประดิษฐ์
DataGen Secures $18 Million in Investments to Create Synthetic Data for AIs

บริษัทสตาร์ทอัพของอิสราเอล DataGen ได้รับเงินลงทุน $18.5 ล้านเหรียญสหรัฐเพื่อสร้างแพลตฟอร์มที่อุทิศให้กับการผลิตข้อมูลสังเคราะห์สำหรับบริษัท AI
ทุกๆ บริษัท AI ต้องเผชิญกับความท้าทายหลักเดียวกัน คือ การรวบรวมข้อมูลที่จำเป็นในการฝึกอบรมโมเดล AI ของตน ความต้องการข้อมูลฝึกอบรมคุณภาพสูงมีมากจนได้นำไปสู่อุตสาหกรรมย่อยที่อุทิศให้กับการจัดหาข้อมูลที่บริษัท AI ต้องการเพื่อฝึกอบรมโมเดลของตน บริษัท AI และบริษัทที่เกี่ยวข้องกำลังมองหาวิธีใหม่ๆ ในการได้รับข้อมูลที่จำเป็น วิธีหนึ่งในการได้รับข้อมูลฝึกอบรมคือการสร้างข้อมูลขึ้นมา
ตามรายงานของ Fortune DataGen มีความเชี่ยวชาญในการใช้โมเดลการเรียนรู้ของเครื่องของตนเองเพื่อสร้างข้อมูลสังเคราะห์สำหรับบริษัทอื่นๆ เพื่อฝึกอบรมโมเดล โดยเฉพาะข้อมูลรูปภาพและวิดีโอ ข้อมูลที่สร้างโดยบริษัทจะถูกใช้โดยลูกค้าเพื่อฝึกอบรมโมเดล AI ของตนเอง ตามที่ Ofir Chakon ซีอีโอและผู้ก่อตั้ง DataGen ระบุว่าบริษัทสามารถสร้างชุดข้อมูลสังเคราะห์ทั้งหมดให้กับบริษัทลูกค้าได้ภายในเวลาเพียงไม่กี่ชั่วโมง ซึ่งเร็วกว่าเวลาที่ใช้ในการเตรียมชุดข้อมูลสำหรับการใช้งาน ซึ่งมักจะใช้เวลาหลายสัปดาห์หรือแม้กระทั่งหลายเดือนในการระบุชื่อข้อมูล
มีสาเหตุอื่นๆ ที่ทำให้ข้อมูลสังเคราะห์มีความน่าสนใจสำหรับบริษัทต่างๆ นอกเหนือจากความเร็วที่สามารถเตรียมได้ ข้อมูลสังเคราะห์ไม่มีปัญหาเรื่องความเป็นส่วนตัวเหมือนกับข้อมูลจริง เมื่อมีกฎหมายที่สร้างขึ้นเพื่อปกป้องความเป็นส่วนตัวของข้อมูลมากขึ้น ก็จะทำให้ข้อมูลฝึกอบรมสังเคราะห์มีความน่าสนใจมากขึ้น การประมาณการหนึ่งที่ให้ไว้โดยบริษัทวิเคราะห์เทคโนโลยี Gartner คาดการณ์ว่าในปี 2023 จะมีประชากรประมาณ 65% ของโลกที่จะมีข้อมูลของตนได้รับการคุ้มครองโดยกฎหมายความเป็นส่วนตัวของข้อมูลบางประเภท
尽管ข้อมูลสังเคราะห์ไม่ได้มาจากคนจริง แต่ก็ยังสามารถมีอคติได้ ข้อมูลที่สร้างโดยโมเดลข้อมูลสังเคราะห์จะมีรูปแบบเดียวกับที่ข้อมูลฝึกอบรมเดิมมี ซึ่งหมายความว่าหากชุดข้อมูลมีอคติ อคตินั้นก็จะยังคงอยู่ในข้อมูลที่สร้างขึ้นใหม่ DataGen มีกลยุทธ์ในการลดอคติในข้อมูลที่สร้างขึ้น วิธีหนึ่งในการลดอคติในข้อมูลสังเคราะห์คือการเพิ่มอัตราการเกิดขึ้นของเหตุการณ์ที่เกิดขึ้นไม่บ่อย ซึ่งหมายความว่าหากชั้นหนึ่งในชุดข้อมูลมีการแสดงออกไม่เพียงพอ อัตราการเกิดขึ้นก็สามารถเพิ่มขึ้นได้
เทคนิคการเพิ่มอัตราการเกิดขึ้นของเหตุการณ์ที่เกิดขึ้นไม่บ่อยมีความสำคัญอย่างมากเมื่อสร้างชุดข้อมูลที่เกี่ยวข้องกับสถานการณ์ที่อาจเป็นอันตราย เช่น ชุดข้อมูลที่ใช้ในการฝึกอบรมรถยนต์ไร้คนขับ รถยนต์จะต้องตอบสนองต่อเหตุการณ์ที่เกิดขึ้นไม่บ่อย เช่น รถยนต์หล่นลงในหลุมบนถนน แต่เหตุการณ์เหล่านี้เกิดขึ้นไม่บ่อย และการได้รับข้อมูลฝึกอบรมสำหรับเหตุการณ์เหล่านี้จึงยาก ด้วยเหตุนี้ ข้อมูลฝึกอบรมสำหรับเหตุการณ์เหล่านี้จึงต้องสร้างขึ้น
ตามที่ Chakon อธิบายไว้ทาง Fortune:
“ลูกค้าของเรามีการควบคุมทั้งหมดเกี่ยวกับพารามิเตอร์ที่ใช้ในการสร้างข้อมูล ลักษณะที่แท้จริงคือว่า เมื่อใช้งานแล้ว คุณสามารถมั่นใจได้ว่ามันจะทำงานได้ดีในโดเมนต่างๆ กัน โดยมีเชื้อชาติที่แตกต่างกัน ในสถานที่ต่างๆ หรือในบรรยากาศใดๆ ที่คุณสามารถจินตนาการได้”
DataGen ใช้เครือข่าย Generative Adversarial Networks (GANs) เพื่อสร้างการจำลองสถานการณ์จริงของสิ่งของและเหตุการณ์จริง Chakon อธิบายว่าบริษัทสามารถสร้างตัวอย่างที่มีลักษณะเหมือนจริงของทุกสิ่งที่เกี่ยวข้องกับสภาพแวดล้อมในร่มหรือการรับรู้ของมนุษย์ ตัวอย่างเช่น ชุดข้อมูลรูปภาพที่สร้างโดย DataGen อาจรวมถึงตัวอย่างของวัตถุที่ใช้ในการฝึกอบรมแขนกลจับของหุ่นยนต์สำหรับลอจิสติกส์คลังสินค้า โดยมีรูปภาพที่สร้างขึ้นมีลักษณะเหมือนจริงไม่แตกต่างจากของจริง ซอฟต์แวร์ของ DataGen สามารถสร้างวัตถุ 3 มิติได้โดยการรวมเมชเวิร์กทางภาพกับระบบจำลองฟิสิกส์
นักลงทุนใน DataGen รวมถึงบุคคลและบริษัทที่มีชื่อเสียงหลายราย นักลงทุนรวมถึงผู้อำนวยการฝ่ายวิจัย AI ของ Nvidia และสถาบัน Max Plank สำหรับระบบอัจฉริยะ รวมถึง Anthony Goldbloom ซีอีโอของ Kaggle












