Connect with us

Ben Koska, SF Tensor์˜ ์ฐฝ๋ฆฝ์ž ๋ฐ CEO – ์ธํ„ฐ๋ทฐ ์‹œ๋ฆฌ์ฆˆ

์ธํ„ฐ๋ทฐ

Ben Koska, SF Tensor์˜ ์ฐฝ๋ฆฝ์ž ๋ฐ CEO – ์ธํ„ฐ๋ทฐ ์‹œ๋ฆฌ์ฆˆ

mm

Ben Koska, SF Tensor의 창립자 및 CEO는 고성능 컴퓨팅, 커널 최적화, 효율적인 모델 훈련에 대한 연구로 알려진 AI 연구자이자 시스템 엔지니어입니다. 그의 배경은 저수준 AI 인프라 개발, 훈련 처리량 개선, 고급 모델 개발을 위한 도구 설계를 포함하여 다양한 분야에 걸쳐 있습니다. 그는 속도, 이식성, 신뢰성의 한계를 넓히는 시스템을 구축하는 데 중점을 두고 있습니다.

SF Tensor는 그가 이 철학을 실제 플랫폼으로 구현하기 위해 이끄는 회사입니다. 그것은 통일된 프로그래밍 모델, 커널 최적화기, 크로스 클라우드 오케스트레이션 레이어를 도입하여 분산 AI 워크로드의 복잡성을 제거합니다. 이 플랫폼은 엔지니어가 클린한 하드웨어 독립적 환경에서 코드를 작성하고, 어디에でも 배포하고, 자동으로 높은 성능을 달성할 수 있도록 설계되었습니다. SF Tensor의 미션은 AI 컴퓨팅을 극적으로 빠르고, 관리하기 쉽고, 벤더 잠금에서 자유롭게 만드는 것입니다.

당신은 19세의 나이에 이미 여러 스타트업에서 엔지니어링을 이끌었음에도 불구하고 SF Tensor를 설립했습니다. 당신은 इतन 어린 나이에 AI 인프라를 재창조하는 도전을 왜 받아들이게 되었나요?

우리가 해결하고 있는 문제는 제가 깊이关心하는 문제입니다. 그것은 제가 직접 겪은 문제이기 때문입니다. 우리는 SF Tensor의 핵심 스택을 개발할 때, 상업적인 프로젝트가 아니었습니다. 그것은 학술적인 시도였습니다. 우리는 일부 흥미로운 연구를 수행하기 위한 보조금을 받았지만, 대부분의 시간을 인프라와 최적화를 다루는 데 보냈습니다. 우리는 사람들이 우리의 연구 프로젝트보다 인프라 기술에 더 관심이 있음을 발견했습니다.

SF Tensor는 NVIDIA의 CUDA 지배를 깨는 것과 같은 AI에서 가장 어려운 문제 중 하나를 해결하고 있습니다. 당신은 성능을 손상시키지 않고真正한 하드웨어 이식성을 달성할 수 있는 시스템을 설계하는 방법에 대해 어떻게 접근했나요?

궁극적으로, 모든 AI는 단순한 수학으로 귀결됩니다. 모든 모델은 본质적으로 계산해야 하는 수학 연산의 집합입니다. 그것을 주로 수학 문제로 다루고, 컴퓨터 과학 문제로 다루지 않음으로써, 우리는 계산에 대한 가장 작은 제약 집합을 식별하고, 수십억 개의 다른 방법으로 계산을 기계 코드로 변환하여 가장 빠른 것을 찾을 수 있습니다. 그것은 쉽게 말할 수 있지만, 실제로 수십억 개의 다른 프로그램을 실행하여 가장 빠른 것을 찾을 수는 없습니다. 따라서 검색 공간을 가지치기하기 위해, 우리는 주어진 하드웨어에 대한 주어진 프로그램의 속도를 추정하는 정확한 수학적 모델을 개발해야 했습니다. 그것은 오늘날 우리가 할 수 있는 것을 가능하게 하는 핵심 혁신 중 하나입니다.

회사의 블로그는 컴파일러 최적화와 크로스 클라우드 오케스트레이션에 대한 혁신을 강조합니다. PyTorch 또는 JAX와 같은 기존 프레임워크와 SF Tensor의 접근 방식이 어떻게 다른지 설명할 수 있나요?

우리는 아직 기술 블로그를 작성하지 않았지만, 우리는 PyTorch와 JAX와 같은 프레임워크를 지원하여 코드를 우리의 스택으로 최적화할 수 있습니다. JAX와 PyTorch는 우리의 스택과 구별되는 몇 가지 아키텍처 결정이 있지만, 가장 중요한 것은 bahwa 우리는 전체 모델을 단 하나의 계산으로 다루고, 개별 모듈이 개별적으로 및 공동으로 최적화되어야 하는 것이 아니라, 전통적인 컴파일러 최적화 기술을 적용하고, 각 개별 최적화를 적용하려고 하지 않고, 대신에 수백만에서 수십억 개의 잠재적인 커널을 생성하고, 인간이 코드를 가장 빠르게 변환하는 규칙 세트를 만들 수 없으므로, 우리는 단순히 모든 조합을 생성하고 가장 빠른 것을 식별해야 합니다.

많은 스타트업은 훈련 효율성에 중점을 두고 있지만, 당신은 “인프라 세금” – 연구자들이 혁신을 하는 대신 컴퓨팅을 관리하는 데 소요하는 시간에 대해 강조했습니다. SF Tensor는 이 불균형을 어떻게 해결하나요?

우리는 두 가지 문제가 모두 해결되어야 한다고 믿고, 많은 우리의 작업이 훈련 효율성을 해결하는 데 집중되어 있습니다. 그러나 우리는 이미 해결한 문제이기 때문에, 가장 급한 문제는 인프라 세금입니다.

당신은 훈련 비용을 최대 80%까지 줄일 수 있다고 언급했습니다. 이러한 최적화 또는 건축적 혁신은 어떻게 가능하게 되었나요?

우리의 전체 소프트웨어 스택은 검색 기반 컴파일러가 항상 인간이 만든 규칙을 능가한다는 아이디어에 기반합니다. 지금까지 이러한 컴파일러의 가장 큰 제약은 수십억 또는 수백만 개의 커널을 벤치마크하고 랭크할 수がない的事實입니다. 우리는 주어진 하드웨어에 대한 주어진 계산 또는 계산 집합의 시간을 정확하게 추정할 수 있는 수학적 모델을 생성해야 했습니다. 이를 통해 우리는 검색 공간을 확장하고, 필요한 경우 이를 자르기 위해, 가장 빠른 커널을 일관되게 찾을 수 있습니다.

Emma 프로그래밍 언어를 개발하는 데 대한 ваш의 배경은 SF Tensor의 아키텍처와 성능 및 추상화에 대한 철학에 어떻게 영향을 미쳤나요?

제 마음속으로는 여전히 컴파일러 엔지니어입니다. 저는 항상 조금 더 빠르게 만드는 방법을 찾는 데 관심이 있었습니다. Emma를 개발할 때, 우리는 컴파일러를 4번이나 5번 던져 버렸습니다. 우리는 각 번에 새로운 최적화를 구현할 수 없는 제약에 부딪혔기 때문에, 시스템을 재설계하여 더 일반적으로 만들되, 필요한 경우 가장 낮은 수준의 최적화를 허용하도록 했습니다. 이러한 지식과 결과 아키텍처는 거의 2년 동안의 작은 최적화와 잘못된 베팅이 합쳐져서, 이제 우리는 더 빠르게 반복하고, 더 잘 최적화할 수 있는 시스템을 만들었습니다.

당신은 4,000개 이상의 GPU에서 대규모 훈련 실행을 관리했습니다. 이러한 규모에서 컴퓨팅을 관리하면서 배운 가장 큰 교훈은 무엇인가요?

하드웨어 故障은 생각보다 더 흔하고, 더 문제가 많습니다. 전통적인 프로그램과 컴파일러를 다룬 경험에서, 컴퓨터는 거의 항상 정확하게 명령을 따르며, 문제가 발생하면 거의 항상 코드를 작성한 사람의 잘못입니다. 반면에, GPU의 경우 하드웨어 故障은 공통적인 발생이며, 특히 매우 큰 클러스터에서 분산 훈련 실행에서 더 문제가 됩니다. 함께 가는 또 다른 사실은 CPU가 일반적으로 결정적이고 예측 가능한 방식으로 작동하는 반면, GPU는 때때로 이유 없이 클록 속도를 낮추거나, 훈련 프로세스를 느리게 하는 등 예상치 못한 행동을 할 수 있습니다.

Y Combinator는 기술에서 가장 혁신적인 인프라 회사 중 일부를 지원했습니다. 이 경험은 SF Tensor의 제품과 비전을 확장하는 ваш의 접근 방식에 어떻게 영향을 미쳤나요?

Y Combinator에 들어가기 전에, 우리가 당시 걸으려던 내기가 대담하다고 생각했습니다. 그러나 몇 주 후, 우리의 정의는 더 대담해졌고, 우리는 더 큰 내기를 걸었습니다. 또 다른 점은, 거의 모든 회사나 사람에게 전화를 걸거나 이메일을 보내서 몇 시간 내에 응답과 조언을 받을 수 있는 커뮤니티와 학습의感觉이 우리의 문제 해결 방식과 더 협력적인 접근 방식을 받아들이는 방식에 영향을 미쳤습니다.

당신은 비-LLM 모델, 로봇공학, 합성 데이터에 대한 관심을 표현했습니다. 이러한 분야는 회사에 대한 장기적인 비전에 어떻게 적합합니까?

LLM은 절대적으로 흥미로운 기술이며, 미래에 세계가 어떻게 보일지에 중요한 역할을 할 것입니다. 그러나 그들이 다른 AI 분야보다 더 발전한 이유는 주로 많은 돈이 투자되고, 충분히 많은 사람들이 문제를 협력하여 최적화했기 때문입니다. 만약 우리가 진입 장벽을 낮추고, 제한된 자원과 최적화에 대한 지식이 거의 없는 연구자들이 자신의 연구를 가능한 한 싸게하고, 효율적으로 수행할 수 있도록 한다면, 나는 새로운 모델 세대가 나타날 것이라고 생각합니다. 이 모델들은 물리적 세계와 상호작용하거나 언어로 제대로 표현할 수 없는 문제를 해결할 것입니다.

5년 후에 AI 인프라 스택은 어떻게 보일까요? SF Tensor는 그 안에서 어떤 역할을 할까요?

5년 후, 나는 더 많은 회사가 자신의 전문 칩을 개발하여 출시할 것으로 기대합니다. 연구자들은 이러한 칩을 활용하고 활용할 수 있기를 바랍니다. 이상적으로는, 그들이 존재하는지조차 알지 못할 것입니다. 그것이 우리가 향하는 미래이며, 나는 우리가 그 안에서 중요한 역할을 할 것이라고 믿습니다.

이번 인터뷰에 감사드립니다. 더 많은 정보를 원하는 독자는 SF Tensor를 방문할 수 있습니다.

์•™ํˆฌ์•ˆ์€ Unite.AI์˜ ๋น„์ „์žˆ๋Š” ๋ฆฌ๋”์ด์ž ๊ณต๋™ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, AI์™€ ๋กœ๋ด‡๊ณตํ•™์˜ ๋ฏธ๋ž˜๋ฅผ ํ˜•์„ฑํ•˜๊ณ  ์ด‰์ง„ํ•˜๋Š” ๋ฐ ๋Œ€ํ•œ ๋ถˆ๋ณ€์˜ ์—ด์ •์— ์˜ํ•ด ์ถ”๋™๋ฉ๋‹ˆ๋‹ค. ์—ฐ์‡„์ ์ธ ๊ธฐ์—…๊ฐ€๋กœ์„œ, ๊ทธ๋Š” AI๊ฐ€ ์‚ฌํšŒ์— ๋Œ€ํ•œ ์ „๊ธฐ์™€ ๊ฐ™์€ ํŒŒ๊ดด๋ ฅ์„ ๊ฐ€์งˆ ๊ฒƒ์ด๋ผ๊ณ  ๋ฏฟ์œผ๋ฉฐ, ์ข…์ข… ํŒŒ๊ดด์ ์ธ ๊ธฐ์ˆ ๊ณผ AGI์˜ ์ž ์žฌ๋ ฅ์— ๋Œ€ํ•ด ์—ด๊ด‘ํ•ฉ๋‹ˆ๋‹ค.

ไฝœไธบ futurist, ๊ทธ๋Š” ์ด๋Ÿฌํ•œ ํ˜์‹ ์ด ์šฐ๋ฆฌ์˜ ์„ธ๊ณ„๋ฅผ ์–ด๋–ป๊ฒŒ ํ˜•์„ฑํ• ์ง€ ํƒ๊ตฌํ•˜๋Š” ๋ฐ ์ „๋…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ทธ๋Š” Securities.io์˜ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, ๋ฏธ๋ž˜๋ฅผ ์žฌ์ •์˜ํ•˜๊ณ  ์ „์ฒด ๋ถ€๋ฌธ์„ ์žฌํ˜•์„ฑํ•˜๋Š” ์ตœ์ฒจ๋‹จ ๊ธฐ์ˆ ์— ํˆฌ์žํ•˜๋Š” ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.

๊ด‘๊ณ  ๊ณ ์ง€: Unite.AI๋Š” ๋…์ž์—๊ฒŒ ์ •ํ™•ํ•œ ์ •๋ณด์™€ ๋‰ด์Šค๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ์œ„ํ•ด ์—„๊ฒฉํ•œ ํŽธ์ง‘ ๊ธฐ์ค€์„ ์ค€์ˆ˜ํ•ฉ๋‹ˆ๋‹ค. ๋‹น์‚ฌ๊ฐ€ ๊ฒ€ํ† ํ•œ ์ œํ’ˆ ๋งํฌ๋ฅผ ํด๋ฆญํ•  ๊ฒฝ์šฐ ๋ณด์ƒ์„ ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.