Phỏng vấn
Ben Koska, Người sáng lập và Giám đốc điều hành của SF Tensor – Loạt phỏng vấn

Ben Koska, Người sáng lập và Giám đốc điều hành của SF Tensor, là một nhà nghiên cứu trí tuệ nhân tạo và kỹ sư hệ thống nổi tiếng với công việc của mình về tính toán hiệu suất cao, tối ưu hóa kernel và đào tạo mô hình hiệu quả. Kinh nghiệm của anh bao gồm phát triển cơ sở hạ tầng trí tuệ nhân tạo cấp thấp, cải thiện hiệu suất đào tạo và thiết kế các công cụ giúp phát triển mô hình tiên tiến mà không cần phải có kiến thức kỹ thuật nặng. Anh tập trung vào xây dựng các hệ thống đẩy giới hạn về tốc độ, tính di động và độ tin cậy trên các phần cứng khác nhau.
SF Tensor là công ty mà anh lãnh đạo để biến triết lý đó thành một nền tảng thực tế. Nó giới thiệu một mô hình lập trình thống nhất, một bộ tối ưu hóa kernel và một lớp điều phối đa đám mây được thiết kế để loại bỏ sự phức tạp của các công việc trí tuệ nhân tạo phân tán. Nền tảng này nhằm cung cấp cho các kỹ sư một môi trường sạch, không phụ thuộc vào phần cứng, nơi họ có thể viết một lần, triển khai bất kỳ nơi nào và tự động đạt được hiệu suất cao. Sứ mệnh của SF Tensor là làm cho tính toán trí tuệ nhân tạo trở nên nhanh hơn, dễ quản lý hơn và không bị khóa bởi nhà cung cấp.
Bạn đã thành lập SF Tensor khi mới 19 tuổi, sau khi đã lãnh đạo kỹ thuật tại nhiều công ty khởi nghiệp. Điều gì đã thúc đẩy bạn chấp nhận thách thức tái tạo cơ sở hạ tầng trí tuệ nhân tạo sớm như vậy trong sự nghiệp của mình?
Vấn đề chúng tôi đang giải quyết là một vấn đề mà tôi quan tâm sâu sắc, vì đó là một vấn đề mà tôi đã gặp phải. Khi chúng tôi phát triển gì là cốt lõi của SF Tensor hiện nay, chúng tôi không làm việc trên một dự án thương mại, mà là một dự án học thuật. Chúng tôi đã nhận được một khoản trợ cấp để thực hiện một số nghiên cứu thú vị, nhưng chúng tôi đã dành hầu hết thời gian để giải quyết cơ sở hạ tầng và tối ưu hóa, thay vì thực hiện nghiên cứu. Chúng tôi nhận thấy rằng mọi người đều quan tâm hơn đến công nghệ cơ sở hạ tầng của chúng tôi, chứ không phải dự án nghiên cứu của chúng tôi.
SF Tensor đang giải quyết một trong những vấn đề khó nhất trong lĩnh vực trí tuệ nhân tạo – phá vỡ sự thống trị của CUDA của NVIDIA. Bạn đã tiếp cận việc thiết kế một hệ thống có thể đạt được tính di động phần cứng thực sự mà không ảnh hưởng đến hiệu suất như thế nào?
Vào cuối cùng, tất cả các vấn đề trí tuệ nhân tạo đều giảm xuống thành các vấn đề toán học đơn giản. Mỗi mô hình đều cơ bản là một tập hợp các phép toán toán học mà chúng tôi cần tính toán kết quả. Bằng cách xem xét nó chủ yếu là một vấn đề toán học chứ không phải là một vấn đề khoa học máy tính, chúng tôi có thể xác định tập hợp nhỏ nhất các ràng buộc trên các phép tính, sau đó tạo ra hàng triệu đến hàng tỷ cách khác nhau để chuyển đổi các phép tính đó thành mã máy, tìm ra cách nhanh nhất. Đó là một việc dễ nói hơn làm, vì chúng tôi không thể chạy hàng tỷ chương trình khác nhau để tìm ra chương trình nhanh nhất, vì vậy để thu hẹp không gian tìm kiếm của chúng tôi, chúng tôi phải tạo ra một mô hình toán học chính xác để ước tính tốc độ của một chương trình nhất định cho một phần cứng nhất định, điều này là một trong những đổi mới cốt lõi giúp cho chúng tôi có thể làm được điều đó ngày nay.
Blog của công ty bạn đã nhấn mạnh các đổi mới xung quanh tối ưu hóa trình biên dịch và điều phối đa đám mây. Bạn có thể giải thích cách tiếp cận của SF Tensor khác với các khuôn khổ hiện có như PyTorch hoặc JAX không?
Chúng tôi chưa viết một bài blog kỹ thuật về nó, nhưng chúng tôi thực sự hỗ trợ các khuôn khổ như PyTorch và JAX, cho phép mã được viết trong chúng được tối ưu hóa bởi ngăn xếp của chúng tôi. Có một số quyết định kiến trúc mà JAX và PyTorch đã thực hiện khác với ngăn xếp của chúng tôi, nhưng quan trọng nhất là chúng tôi xem xét toàn bộ mô hình như một phép tính duy nhất cần được giải quyết, thay vì các mô-đun riêng lẻ phải được tối ưu hóa riêng lẻ và sau đó được tối ưu hóa chung. Vì vậy, thay vì áp dụng các kỹ thuật tối ưu hóa trình biên dịch truyền thống và cố gắng áp dụng từng tối ưu hóa riêng lẻ, chúng tôi tạo ra một không gian tìm kiếm của hàng triệu đến hàng tỷ kernel có thể và cho rằng không có người nào có thể tạo ra một tập hợp các quy tắc để chuyển đổi bất kỳ mã nào thành mã nhanh nhất, vì vậy chúng tôi phải tạo ra mọi kết hợp và sau đó xác định kernel nhanh nhất.
Nhiều công ty khởi nghiệp tập trung vào hiệu suất đào tạo, nhưng bạn đã nhấn mạnh “thuế cơ sở hạ tầng” – thời gian mà các nhà nghiên cứu mất để quản lý tính toán thay vì đổi mới. SF Tensor giải quyết sự mất cân bằng này như thế nào?
Chúng tôi tin rằng cả hai vấn đề đều phải được giải quyết, và nhiều công việc của chúng tôi tập trung vào việc giải quyết hiệu suất đào tạo, nhưng vấn đề cấp bách nhất mà chúng tôi có thể giải quyết ngay bây giờ mà không cần dựa vào bất kỳ đổi mới nào trong tương lai là “thuế cơ sở hạ tầng”, vì đó là vấn đề mà chúng tôi đã tự giải quyết cho mình.
Bạn đã đề cập đến việc đạt được giảm tới 80% chi phí đào tạo. Những tối ưu hóa hoặc đột phá kiến trúc cụ thể nào làm cho điều đó có thể?
Toàn bộ ngăn xếp phần mềm của chúng tôi được xây dựng dựa trên ý tưởng rằng một trình biên dịch dựa trên tìm kiếm sẽ luôn đánh bại các quy tắc do con người tạo ra. Cho đến nay, hạn chế lớn nhất đối với các trình biên dịch này là thực tế là không thể benchmark và xếp hạng hàng tỷ hoặc thậm chí hàng triệu kernel. Vì vậy, nó là cần thiết cho chúng tôi để tạo ra một mô hình toán học về tính toán, có thể ước tính chính xác thời gian mà một phép tính nhất định hoặc một tập hợp các phép tính sẽ mất trên một phần cứng nhất định. Bằng cách làm như vậy, chúng tôi có thể mở rộng không gian tìm kiếm của mình và sau đó cắt giảm nó, điều này là cần thiết nếu bạn muốn tìm ra kernel nhanh nhất một cách nhất quán.
Làm thế nào kinh nghiệm của bạn trong việc xây dựng ngôn ngữ lập trình Emma ảnh hưởng đến kiến trúc và triết lý của SF Tensor về hiệu suất và trừu tượng hóa?
Đừng nói với nhà đầu tư của tôi, nhưng trong lòng, tôi vẫn là một kỹ sư trình biên dịch. Tôi luôn quan tâm đến việc tìm ra các cách khác nhau để làm cho mọi thứ trở nên nhanh hơn, ngay cả khi chỉ là một chút. Trong việc phát triển Emma, chúng tôi đã vứt bỏ toàn bộ trình biên dịch 4 hoặc 5 lần; chúng tôi bắt đầu từ đầu, mỗi lần vì chúng tôi gặp phải một tối ưu hóa mà chúng tôi không thể thực hiện được với các ràng buộc hiện tại, buộc chúng tôi phải tái thiết kế hệ thống để trở nên tổng quát hơn, đồng thời vẫn cho phép chúng tôi giảm xuống mức tối ưu hóa thấp nhất khi cần thiết, thường đi ngược lại với các nguyên tắc thiết kế trình biên dịch và ngôn ngữ thông thường. Những bài học và kiến trúc kết quả đã kết hợp gần hai năm những gì trông giống như các tối ưu hóa nhỏ và đặt cược sai, đã tích lũy thành một hệ thống cho phép chúng tôi hiện nay có thể lặp lại nhanh hơn và tối ưu hóa tốt hơn so với bất kỳ hệ thống nào tuân theo các nguyên tắc thông thường, vì những nguyên tắc đó cơ bản được thiết kế cho CPU, không phải GPU và mô hình trí tuệ nhân tạo.
Bạn đã làm việc với các lần đào tạo lớn trên 4.000+ GPU – những bài học lớn nhất mà bạn đã rút ra từ việc quản lý tính toán ở quy mô đó là gì?
Một điều lớn là sự cố phần cứng phổ biến hơn và gây ra vấn đề hơn nhiều so với người ta có thể nghĩ. Sau khi dành nhiều thời gian làm việc với các chương trình truyền thống và trình biên dịch, nói chung, một máy tính làm chính xác những gì nó được yêu cầu, và nếu có điều gì đó đi sai, nó gần như luôn là lỗi của người viết mã. Với GPU, mặt khác, sự cố phần cứng là một sự kiện phổ biến, đặc biệt là trong các lần đào tạo phân tán trên các cụm rất lớn. Đi cùng với điều đó là thực tế rằng, không giống như CPU thường hoạt động theo cách xác định và có thể dự đoán, GPU đôi khi sẽ làm những việc như giảm tốc độ xung nhịp mà không có lý do rõ ràng, làm chậm toàn bộ quá trình đào tạo vì một chip duy nhất chạy chậm hơn.
Y Combinator đã hỗ trợ một số công ty cơ sở hạ tầng chuyển đổi trong lĩnh vực công nghệ. Kinh nghiệm đó đã định hình cách tiếp cận của bạn đối với việc mở rộng sản phẩm và tầm nhìn của SF Tensor như thế nào?
Trước khi tham gia Y Combinator, tôi nghĩ rằng đặt cược mà chúng tôi muốn thực hiện lúc đó là đầy tham vọng. Sau chỉ vài tuần, định nghĩa về tham vọng của chúng tôi đã thay đổi đáng kể, và chúng tôi đã tăng gấp đôi đặt cược vào một đặt cược thậm chí còn lớn hơn. Ngoài ra, cảm giác cộng đồng và học hỏi mà tôi có thể nhấc điện thoại hoặc gửi email cho hầu như bất kỳ công ty hoặc người nào ở đó và nhận được phản hồi và lời khuyên trong vòng vài giờ đến vài ngày, đã thay đổi cách chúng tôi suy nghĩ về việc giải quyết vấn đề và chấp nhận một cách tiếp cận hợp tác nhiều hơn.
Nhìn về tương lai, bạn đã thể hiện sự quan tâm đến các mô hình phi LLM, robot và dữ liệu tổng hợp. Những lĩnh vực này phù hợp với tầm nhìn dài hạn của công ty bạn như thế nào?
Các mô hình LLM chắc chắn là một công nghệ thú vị và sẽ có một phần quan trọng trong cách thế giới sẽ trông như thế nào trong tương lai, nhưng lý do chúng tiên tiến hơn so với bất kỳ lĩnh vực nào khác của trí tuệ nhân tạo chủ yếu là vì có rất nhiều tiền được đầu tư vào sự phát triển của chúng, và có đủ người hợp tác trong vấn đề đó để chúng đã trở nên khá tối ưu. Giả sử chúng tôi có thể giảm thiểu rào cản gia nhập, cho phép các nhà nghiên cứu trên toàn quốc và hành tinh, thậm chí những người có nguồn lực hạn chế và kiến thức tối ưu hóa rất ít, thực hiện nghiên cứu của họ với chi phí và hiệu quả thấp nhất có thể. Trong trường hợp đó, tôi nghĩ chúng tôi sẽ thấy một thế hệ mô hình hoàn toàn mới xuất hiện, những mô hình sẽ giải quyết các vấn đề mà các mô hình LLM không phù hợp, dù là vì chúng tương tác với thế giới vật lý hay vì chúng là những vấn đề không thể được biểu diễn đúng trong ngôn ngữ.
Bạn nghĩ rằng ngăn xếp cơ sở hạ tầng trí tuệ nhân tạo sẽ trông như thế nào trong năm năm tới – và SF Tensor sẽ đóng vai trò gì trong đó?
Trong năm năm tới, tôi hy vọng rằng nhiều công ty hơn sẽ phát triển và phát hành các chip chuyên dụng của riêng họ, và các nhà nghiên cứu sẽ có thể tận dụng và utilize them without needing to write code specifically for them, ideally without even needing to know that they exist. That is the future that we are working towards and that I believe we will have a significant role in shaping. Thank you for the great interview, readers who wish to learn more should visit SF Tensor.












