สัมภาษณ์
Ben Koska, ผู้ก่อตั้งและ CEO ของ SF Tensor – ซีรีส์สัมภาษณ์

Ben Koska, ผู้ก่อตั้งและ CEO ของ SF Tensor, เป็นนักวิจัย AI และวิศวกรระบบที่มีชื่อเสียงในงานของเขาเกี่ยวกับการคำนวณประสิทธิภาพสูง การเพิ่มประสิทธิภาพเคอร์เนล และการฝึกอบรมแบบจำลองที่มีประสิทธิภาพ น้ำหลากของเขาครอบคลุมการพัฒนาระดับต่ำของโครงสร้างพื้นฐาน AI การปรับปรุงการฝึกอบรม และการออกแบบเครื่องมือที่ทำให้การพัฒนาแบบจำลองขั้นสูงสามารถเข้าถึงได้โดยไม่ต้องมีการจัดการทางวิศวกรรมที่หนักหน่วง เขามุ่งเน้นในการสร้างระบบที่ผลักดันขีดจำกัดของความเร็ว ความสามารถในการพกพา และความน่าเชื่อถือทั่วฮาร์ดแวร์ที่หลากหลาย
SF Tensor เป็นบริษัทที่เขานำมาเพื่อเปลี่ยนปรัชญานี้ให้เป็นแพลตฟอร์มที่ใช้งานได้จริง มันแนะนำโมเดลการเขียนโปรแกรมแบบรวม การเพิ่มประสิทธิภาพเคอร์เนล และชั้นการจัดการแบบครอส-คลาวด์ที่ออกแบบมาเพื่อลบความซับซ้อนของงาน AI ที่กระจายออกไป แพลตฟอร์มนี้มีเป้าหมายที่จะให้วิศวกรสภาพแวดล้อมที่สะอาด อิสระจากฮาร์ดแวร์ ที่พวกเขาสามารถเขียนครั้งเดียว ติดตั้งได้ทุกที่ และบรรลุประสิทธิภาพสูงโดยอัตโนมัติ ภารกิจของ SF Tensor คือการทำให้การคำนวณ AI เร็วขึ้น ง่ายต่อการบริหารจัดการ และปลอดจากการล็อกของซัพพลายเออร์
คุณก่อตั้ง SF Tensor เมื่ออายุเพียง 19 ปี หลังจากที่คุณเคยเป็นผู้นำด้านวิศวกรรมในหลายๆ สตาร์ทอัพแล้ว สิ่งใดที่สร้างแรงบันดาลใจให้คุณรับมือกับความท้าทายในการปฏิวัติโครงสร้างพื้นฐาน AI ในช่วงต้นอาชีพของคุณ?
ปัญหาที่เรากำลังแก้ไขคือปัญหาที่ฉันห่วงใยอย่างลึกซึ้ง เพราะมันเป็นปัญหาที่ฉันพบเอง เมื่อเราพัฒนาสิ่งที่เป็นคอร์สตั้ง SF Tensor ในปัจจุบัน เราไม่ได้ทำงานในโครงการเชิงพาณิชย์ แต่เป็นโครงการทางวิชาการ เราได้รับทุนให้ทำการวิจัยที่น่าสนใจ แต่เราใช้เวลาส่วนใหญ่ในการจัดการโครงสร้างพื้นฐานและเพิ่มประสิทธิภาพแทนการทำวิจัย เราพบว่าคนส่วนใหญ่สนใจเทคโนโลยีโครงสร้างพื้นฐานของเรา มากกว่าโครงการวิจัยของเรา
SF Tensor กำลังแก้ไขปัญหาที่ยากที่สุดใน AI — การหลุดพ้นจากความครอบงำของ CUDA ของ NVIDIA คุณเข้าใกลับการออกแบบระบบที่สามารถบรรลุความสามารถในการพกพาแบบฮาร์ดแวร์โดยไม่กระทบต่อประสิทธิภาพได้อย่างไร
สุดท้ายแล้ว AI ทั้งหมดลดลงมาเป็นเพียงคณิตศาสตร์แบบง่ายๆ ทุกๆ โมเดลเป็นเพียงชุดของการดำเนินการทางคณิตศาสตร์ที่เราต้องคำนวณผลลัพธ์ โดยการรักษามันเป็นปัญหาทางคณิตศาสตร์มากกว่าปัญหาทางวิทยาศาสตร์คอมพิวเตอร์ เราสามารถระบุชุดข้อจำกัดที่เล็กที่สุดในการคำนวณ แล้วสร้างวิธีการคำนวณที่แตกต่างกันหลายล้านถึงหลายพันล้านวิธีเพื่อแปลงการคำนวณเหล่านั้นเป็นโค้ดแมชชีน แล้วหาวิธีที่เร็วที่สุด นั่นเป็นเรื่องที่ทำได้ง่าย แต่เราก็ไม่สามารถรันโปรแกรมที่แตกต่างกันหลายพันล้านโปรแกรมเพื่อหาวิธีที่เร็วที่สุดได้ ดังนั้นเพื่อลดพื้นที่การค้นหา เราจึงต้องสร้างแบบจำลองทางคณิตศาสตร์ที่แม่นยำเพื่อประมาณความเร็วของโปรแกรมที่กำหนดสำหรับฮาร์ดแวร์ที่กำหนด ซึ่งเป็นหนึ่งในนวัตกรรมหลักที่ทำให้สิ่งที่เราทำเป็นไปได้ในปัจจุบัน
บล็อกของบริษัทเน้นย้ำถึงนวัตกรรมรอบๆ การเพิ่มประสิทธิภาพคอมไพล์เลอร์และการจัดการครอส-คลาวด์ คุณสามารถอธิบายได้อย่างไรว่าแนวทางของ SF Tensor แตกต่างจากเฟรมเวิร์กที่มีอยู่ เช่น PyTorch หรือ JAX?
เรายังไม่ได้เขียนบล็อกทางเทคนิคเกี่ยวกับเรื่องนี้ แต่เราสนับสนุนเฟรมเวิร์กเช่น PyTorch และ JAX ซึ่งช่วยให้โค้ดที่เขียนในเฟรมเวิร์กเหล่านั้นสามารถเพิ่มประสิทธิภาพโดยใช้スタ็คของเรา มีการตัดสินใจด้านสถาปัตยกรรมหลายอย่างที่ JAX และ PyTorch ตัดสินใจที่แตกต่างจากスタ็คของเรา แต่สิ่งที่สำคัญที่สุดคือเรารักษาโมเดลทั้งหมดเป็นการคำนวณเพียงอย่างเดียวที่ต้องแก้ไข แทนที่จะเป็นโมดูลที่ต้องปรับแต่งและปรับให้เหมาะสมแยกกัน เพื่อความสุดขั้ว เราไม่ได้ใช้เทคนิคการเพิ่มประสิทธิภาพคอมไพล์เลอร์แบบดั้งเดิมและพยายามใช้การเพิ่มประสิทธิภาพแต่ละอย่าง แต่เราแทนการสร้างพื้นที่การค้นหาของเคอร์เนลที่มีศักยภาพหลายล้านถึงหลายพันล้านและอ้างว่าไม่มีมนุษย์ใดสามารถคิดค้นชุดกฎที่จะแปลงโค้ดใดๆ ให้เป็นโค้ดที่เร็วที่สุดได้ ดังนั้นเราจึงต้องสร้างการผสมผสานทั้งหมดแล้วระบุวิธีที่เร็วที่สุด
หลายๆ สตาร์ทอัพมุ่งเน้นไปที่ประสิทธิภาพการฝึกอบรม แต่คุณเน้นย้ำถึง “ค่าใช้จ่ายโครงสร้างพื้นฐาน” — เวลาที่นักวิจัยเสียไปกับการจัดการคอมพิวเตอร์แทนการสร้างนวัตกรรม SF Tensor จัดการกับความไม่สมดุลนี้อย่างไร?
เรามั่นใจว่าทั้งสองปัญหาเหล่านี้ต้องแก้ไข และงานส่วนใหญ่ของเรามุ่งเน้นไปที่การแก้ไขประสิทธิภาพการฝึกอบรม แต่ปัญหาที่เราสามารถแก้ไขได้โดยไม่ต้องอาศัยนวัตกรรมในอนาคตคือค่าใช้จ่ายโครงสร้างพื้นฐาน เนื่องจากเป็นปัญหาที่เร己แก้ไขแล้วสำหรับตัวเราเอง
คุณกล่าวถึงการลดค่าใช้จ่ายในการฝึกอบรมลงได้ถึง 80% การเพิ่มประสิทธิภาพหรือนวัตกรรมทางสถาปัตยกรรมใดที่ทำให้สิ่งนี้เป็นไปได้?
スタ็คซอฟต์แวร์ทั้งหมดของเราตั้งอยู่บนแนวคิดที่ว่าคอมไพล์เลอร์แบบค้นหาจะต้องชนะกฎที่มนุษย์สร้างขึ้นเสมอ จนถึงตอนนี้ ข้อจำกัดที่ใหญ่ที่สุดของคอมไพล์เลอร์เหล่านี้คือไม่สามารถทดสอบและจัดอันดับเคอร์เนลหลายพันล้านหรือแม้แต่หลายล้านได้ ดังนั้นจึงจำเป็นต้องสร้างแบบจำลองทางคณิตศาสตร์ของการคำนวณที่สามารถประมาณเวลาที่การคำนวณหรือชุดการคำนวณจะใช้บนฮาร์ดแวร์ที่กำหนดได้อย่างแม่นยำ โดยการทำเช่นนี้ เราสามารถขยายพื้นที่การค้นหาและตัดมันให้เล็กลง ซึ่งเป็นสิ่งจำเป็นหากคุณต้องการหาคำตอบที่เร็วที่สุดอย่างต่อเนื่อง
พื้นหลังของคุณในการสร้างภาษาโปรแกรมมิ่ง Emma มีอิทธิพลต่อสถาปัตยกรรมและปรัชญาของ SF Tensor ในด้านประสิทธิภาพและความเป็นนามธรรมอย่างไร?
อย่าบอกนักลงทุนของฉัน แต่ในใจ ฉันยังคงเป็นวิศวกรคอมไพล์เลอร์ ฉันสนใจอย่างลึกซึ้งในการหาวิธีการต่างๆ เพื่อทำให้สิ่งต่างๆ เร็วขึ้นเล็กน้อย ในการสร้าง Emma เราโยนคอมไพล์เลอร์ทั้งหมด 4 หรือ 5 ครั้ง เราเริ่มต้นจากศูนย์ใหม่ๆ ทุกครั้ง เพราะเราเจอกับการเพิ่มประสิทธิภาพที่เราไม่สามารถใช้ได้ภายใต้ข้อจำกัดปัจจุบัน ซึ่งบังคับให้เราวิศวกรรมระบบใหม่เพื่อให้ครอบคลุมมากขึ้น ในขณะเดียวกันก็ยังอนุญาตให้เราลดลงไปยังระดับการเพิ่มประสิทธิภาพที่ต่ำที่สุดเมื่อจำเป็น ซึ่งมักจะขัดแย้งกับหลักการออกแบบคอมไพล์เลอร์และภาษาที่ทั่วไป การเรียนรู้และสถาปัตยกรรมที่ตามมาผสมผสานเป็นเวลาเกือบสองปีของสิ่งที่ดูเหมือนการปรับให้เหมาะสมเล็กๆ น้อยๆ และการเดิมพันที่ผิด ซึ่งสะสมเป็นระบบที่ช่วยให้เราสามารถวนซ้ำได้เร็วขึ้นและปรับให้เหมาะสมได้ดีขึ้นกว่าระบบอื่นๆ ที่ตามหลักการเหล่านั้น เนื่องจากหลักการเหล่านั้นได้รับการออกแบบสำหรับซีพียู ไม่ใช่จีพียูและโมเดล AI
คุณได้ทำงานการฝึกอบรมขนาดใหญ่ข้าม 4,000+ จีพียู — สิ่งใดที่คุณได้เรียนรู้มากที่สุดเกี่ยวกับการจัดการคอมพิวเตอร์ในสเกลนั้น?
สิ่งหนึ่งที่สำคัญคือความล้มเหลวของฮาร์ดแวร์เป็นเรื่องที่พบได้บ่อยและเป็นปัญหามากกว่าที่คิดไว้ หลังจากใช้เวลาหลายปีในการทำงานกับโปรแกรมและคอมไพล์เลอร์แบบดั้งเดิม โดยทั่วไปแล้ว คอมพิวเตอร์จะทำตามที่ได้รับคำสั่ง และหากมีอะไรผิดพลาด มันเกือบจะเสมอเป็นความผิดของคนเขียนโค้ด แต่สำหรับจีพียู ความล้มเหลวของฮาร์ดแวร์เป็นเรื่องปกติ โดยเฉพาะอย่างยิ่งในการฝึกอบรมแบบกระจายบนคลัสเตอร์ที่มีขนาดใหญ่มากๆ การทำงานร่วมกันคือความจริงที่ว่าจีพียูจะทำสิ่งที่ไม่คาดคิด เช่น ลดความเร็วคล็อกโดยไม่มีเหตุผลที่ชัดเจน ทำให้กระบวนการฝึกอบรมชะลอลงเพราะจีพียูเพียงตัวเดียวทำงานช้าลง
Y Combinator ได้สนับสนุนบริษัทโครงสร้างพื้นฐานที่เปลี่ยนแปลงที่สุดในด้านเทคโนโลยี วิธีการเข้าใกล้ของพวกเขาทำให้คุณมองเห็นภาพการขยายตัวของผลิตภัณฑ์และวิสัยทัศน์ของ SF Tensor อย่างไร?
เมื่อเข้าไปใน Y Combinator ฉันคิดว่าการเดิมพันที่เราต้องการทำในขณะนั้นเป็นเรื่องที่มีความทะเยอทะยาน หลังจากเพียงไม่กี่สัปดาห์ การกำหนดความทะเยอทะยานของเราก็เปลี่ยนไปแล้ว และเราก็เพิ่มการเดิมพันให้ใหญ่ขึ้น อีกสิ่งหนึ่งคือความรู้สึกของชุมชนและการเรียนรู้ที่ฉันสามารถรับโทรศัพท์หรือส่งอีเมลไปยังบริษัทหรือบุคคลใดๆ ได้และรับคำตอบและคำแนะนำภายในไม่กี่ชั่วโมงหรือวัน ซึ่งเปลี่ยนวิธีที่เราคิดเกี่ยวกับการแก้ปัญหาและยอมรับวิธีการทำงานร่วมกันมากขึ้น
เมื่อมองไปข้างหน้า คุณได้แสดงความสนใจในโมเดลที่ไม่ใช่ LLM โรบอติกส์ และข้อมูลสังเคราะห์ พื้นที่เหล่านี้สอดคล้องกับวิสัยทัศน์ระยะยาวของบริษัทอย่างไร?
LLM เป็นเทคโนโลยีที่น่าสนใจและจะมีบทบาทสำคัญในอนาคต แต่เหตุผลที่พวกมันพัฒนามากกว่าพื้นที่ AI อื่นๆ คือการลงทุนที่มากและคนจำนวนมากที่ทำงานร่วมกันเพื่อแก้ไขปัญหา หากเราสามารถลดค่าเข้าใช้บริการและช่วยให้นักวิจัยทั่วประเทศและโลกสามารถทำการวิจัยของตนได้อย่างมีประสิทธิภาพและราคาไม่แพงโดยไม่ต้องมีความรู้เกี่ยวกับการเพิ่มประสิทธิภาพ ฉันคิดว่าเราจะเห็นรุ่นใหม่ของโมเดลที่จะแก้ไขปัญหาที่ LLM ไม่เหมาะสม ไม่ว่าจะเป็นเพราะพวกมันโต้ตอบกับโลกแห่งความเป็นจริงหรือเป็นปัญหาที่ไม่สามารถแสดงออกมาเป็นภาษาได้อย่างเหมาะสม
คุณคิดว่าโครงสร้างพื้นฐาน AI จะมีลักษณะอย่างไรในอีก 5 ปี และ SF Tensor จะมีบทบาทอย่างไรในโครงสร้างพื้นฐานนั้น?
ในอีก 5 ปี ฉันหวังว่าบริษัทอื่นๆ จะพัฒนาชิปที่มีเอกลักษณ์เฉพาะตัวและปล่อยออกสู่ตลาด และนักวิจัยจะสามารถใช้ประโยชน์จากชิปเหล่านั้นได้โดยไม่ต้องเขียนโค้ดเฉพาะสำหรับชิปเหล่านั้น หรือแม้กระทั่งไม่ต้องรู้ว่าชิปเหล่านั้นอยู่ที่นั่น นั่นคืออนาคตที่เรากำลังทำงานและฉันเชื่อว่าเราจะมีบทบาทสำคัญในการกำหนดรูปทรงอนาคตนั้น
ขอขอบคุณสำหรับการสัมภาษณ์ที่ดี ผู้อ่านสามารถเยี่ยมชม SF Tensor เพื่อเรียนรู้เพิ่มเติม












