Connect with us

๋‹ˆํˆฌ ํŒŒํƒ€ํฌ, ์Šค์นด์ด๋ฉœ์˜ ๊ณต๋™ ์ฐฝ๋ฆฝ์ž ๋ฐ CEO – ์ธํ„ฐ๋ทฐ ์‹œ๋ฆฌ์ฆˆ

์ธํ„ฐ๋ทฐ

๋‹ˆํˆฌ ํŒŒํƒ€ํฌ, ์Šค์นด์ด๋ฉœ์˜ ๊ณต๋™ ์ฐฝ๋ฆฝ์ž ๋ฐ CEO – ์ธํ„ฐ๋ทฐ ์‹œ๋ฆฌ์ฆˆ

mm

니투 파타크, 스카이멜(Skymel)의 공동 창립자 및 CEO는 회사를 이끌며 혁신적인 NeuroSplit™ 기술로 AI 추론을 혁신하고 있습니다. CTO 수샨트 트리파티와 함께 스카이멜의 미션을 추진하며 AI 애플리케이션의 성능을 향상시키고 계산 비용을 줄이는 데 집중합니다.

NeuroSplit™은 적응형 추론 기술로 사용자 장치와 클라우드 서버 간에 AI 워크로드를 동적으로 분산합니다. 이 접근 방식은 사용자 장치上的 유휴 컴퓨팅 리소스를 활용하여 클라우드 인프라 비용을 최대 60% 절감하고, 추론 속도를 가속화하고, 데이터 개인 정보를 보장하며, 무정지 확장성을 가능하게 합니다.

로컬 컴퓨팅 파워를 최적화함으로써 NeuroSplit™은 오래된 GPU에서도 효율적으로 AI 애플리케이션을 실행할 수 있도록 하여 비용을 크게 절감하고 사용자 경험을 개선합니다.

스카이멜을 공동 창립하게 된 영감과 NeuroSplit으로 해결하려던 주요 AI 인프라 도전 과제는 무엇입니까?

스카이멜의 영감은 우리의 보완적인 경험의 결합에서 비롯되었습니다. 구글에서 근무하는 동안 제 공동 창립자 수샨트 트리파티는 수십억 대의 안드로이드 장치에 음성 기반 AI 모델을 배포했습니다. 그는 사용자 장치에 엄청난 양의 유휴 컴퓨팅 파워가 있지만, 대부분의 회사가 사용자 경험을 손상시키지 않으면서 이러한 리소스를 효과적으로 활용할 수 있는 복잡한 엔지니어링 도전 과제에 직면해 있다는 것을 발견했습니다.

한편, 레디스에서 기업과 스타트업을 대상으로 일하면서 나는 대기 시간이 비즈니스에서 얼마나 중요한지 깊이 이해했습니다. AI 애플리케이션이 더 많이 사용됨에 따라 데이터가 생성되는 위치에 처리를 더 가까이 가져가야 한다는 것이 명백했습니다. 데이터를 데이터 센터로 계속 옮기는 것이 아니라 말입니다.

그때 수샨트와 나는 미래는 로컬 또는 클라우드 처리를 선택하는 것이 아니라, 각 특정 추론 요청에 따라 로컬, 클라우드 또는 하이브리드 처리 사이를 무중단으로 적응할 수 있는 지능형 기술을 만드는 것이라는 것을 깨달았습니다. 이 통찰력은 스카이멜을 설립하고 NeuroSplit을 개발하게 되었습니다. 전통적인 인프라 제한을 극복하여 AI 혁신을 앞당기기 위해서입니다.

NeuroSplit이 어떻게 컴퓨팅 리소스를 동적으로 최적화하면서 사용자 개인 정보와 성능을 유지합니까?

로컬 AI 추론의 주요 함정 중 하나는 정적인 컴퓨팅 요구 사항입니다. 전통적으로 AI 모델을 실행하려면 항상 동일한 컴퓨팅 리소스가 필요합니다. 장치의 조건이나 사용자 동작과는 상관없이 말입니다. 이 일괄 처리 접근 방식은 장치에 다양한 하드웨어 능력, 다양한 칩(GPU, NPU, CPU, XPU)과 다양한 네트워크 대역폭, 사용자 동작이 다름을 무시합니다.

NeuroSplit은 다양한 장치 텔레메트릭스를 지속적으로 모니터링합니다. 하드웨어 능력, 현재 리소스 사용량, 배터리 상태, 네트워크 조건 등입니다. 우리는 또한 사용자 동작 패턴, 즉 실행 중인 다른 애플리케이션 수와 일반적인 장치 사용 패턴을 고려합니다. 이 종합적인 모니터링을 통해 NeuroSplit은 사용자 장치에서 안전하게 실행할 수 있는 추론 컴퓨팅 양을 동적으로 결정하고 개발자의 주요 성능 지표를 최적화할 수 있습니다.

데이터 개인 정보가 중요할 때 NeuroSplit은 원시 데이터가 장치를 떠나지 않도록 보장하며 로컬에서 민감한 정보를 처리하고 최적의 성능을 유지합니다. 우리의 지능형 AI 모델 분할, 트리밍 또는 분리 기능을 통해 단일 quantized 모델의 메모리 공간에 50~100개의 AI 스텁 모델을 담을 수 있습니다. 실제로 이는 사용자가 전통적인 정적 계산 접근 방식보다 더 많은 AI 기반 애플리케이션을 동시에 실행할 수 있으며, 로컬에서 민감한 데이터를 처리할 수 있음을 의미합니다.

NeuroSplit의 적응형 추론은 AI 회사, 특히 오래된 GPU 기술을 사용하는 회사에 어떤 주요 이점을 제공합니까?

NeuroSplit은 AI 회사에 세 가지 변혁적인 이점을 제공합니다. 첫째, 인프라 비용을 두 가지 메커니즘을 통해 크게 줄입니다. 회사가 저렴한 오래된 GPU를 효과적으로 사용할 수 있으며, 클라우드 GPU에 전체 및 스텁 모델을 함께 담을 수 있는 우리의 고유한 능력은 훨씬 더 높은 GPU 사용률을 가능하게 합니다. 예를 들어, 일반적으로 여러 NVIDIA A100($2.74/시간)이 필요한 애플리케이션이 이제 단일 A100 또는 여러 V100($0.83/시간)에서 실행될 수 있습니다.

둘째, 초기 원시 데이터를 사용자 장치에서 직접 처리함으로써 성능을 크게 향상시킵니다. 이는 클라우드로 전송되는 데이터가 크게 줄어들며, 네트워크 대기 시간을 크게 줄이고 정확성을 유지합니다. 이 하이브리드 접근 방식은 회사가 로컬 처리의 속도와 클라우드 컴퓨팅의 강점을 모두 얻을 수 있도록 합니다.

셋째, 초기 민감한 데이터 처리를 사용자 장치에서 처리함으로써 회사가 사용자 개인 정보 보호를 유지할 수 있습니다. 이는 개인 정보 규제가 더 엄격해지고 사용자가 더 개인 정보 보호에 민감해짐에 따라 점점 더 중요해집니다.

스카이멜의 솔루션은 모델 복잡성이나 정확성을 손상시키지 않으면서 AI 추론 비용을 어떻게 줄입니까?

첫째, 개별 AI 모델을 분할하여 사용자 장치와 클라우드 간에 계산을 분산합니다. 첫 부분은 사용자 장치에서 실행되어 총 계산의 5%에서 100%를 처리합니다.残りの 계산만 클라우드 GPU에서 처리됩니다.

이 분할은 클라우드 GPU가 감소된 계산 부담을 처리하게 함을 의미합니다. 원래 모델이 전체 A100 GPU를 요구했다면, 분할 후에는 GPU의 30~40%의 용량만 필요할 수 있습니다. 이는 회사가 더 비용 효율적인 GPU 인스턴스인 V100을 사용할 수 있도록 합니다.

둘째, NeuroSplit은 클라우드에서 GPU 사용률을 최적화합니다. 전통적인 접근 방식과 비교하여 클라우드 GPU에서 전체 모델과 스텁 모델을 효율적으로 배치함으로써 훨씬 더 높은 사용률을 달성합니다. 이는 동일한 클라우드 GPU에서 더 많은 모델을 동시에 실행할 수 있음을 의미하며, 추론 비용을进一步 줄입니다.

스카이멜의 하이브리드(로컬 + 클라우드) 접근 방식은 시장의 다른 AI 인프라 솔루션과 어떻게 다릅니까?

AI 랜드스케이프는 흥미로운 변곡점에 있습니다. 애플, 삼성, 퀄컴은 하이브리드 AI를 통해 생태계 기능의 강점을 보여주고 있습니다. 그러나 이러한 기능은 폐쇄된 정원에 있습니다. AI는 사용자 장치에 따라 제한되어서는 안 됩니다.

NeuroSplit은 본질적으로 장치에 구애받지 않으며, 클라우드에 구애받지 않으며, 신경망에 구애받지 않습니다. 이는 개발자가 사용자가 아이폰, 안드로이드 장치, 랩톱을 사용하거나 AWS, Azure, Google Cloud를 사용하는지에 관계없이 일관된 AI 경험을 제공할 수 있음을 의미합니다.

개발자가 생각해 볼 수 있습니다.他们可以一次性构建AI应用程序,并知道它将在任何设备、任何云、任何神经网络架构上智能地适应。

우리는 기업급 하이브리드 AI 기능을 폐쇄된 정원에서 해방시키고, 보편적으로 접근할 수 있게 합니다. AI가 모든 애플리케이션의核心이 되는 경우, 이러한 유연성과 일관성은 혜택이 아닌 필수입니다.

오케스트레이터 에이전트는 어떻게 NeuroSplit을 보완하며, AI 배포 전략을 어떻게 변환합니까?

오케스트레이터 에이전트(OA)와 NeuroSplit은 함께 자체 최적화 AI 배포 시스템을 생성합니다:

1. 개발자가 경계를 설정합니다:

  • 제약: 허용된 모델, 버전, 클라우드 제공업체, 영역, 규정 준수 규칙
  • 목표: 대상 대기 시간, 비용 제한, 성능 요구 사항, 개인 정보 보호 요구 사항

2. OA는 이러한 제약 내에서 목표를 달성하기 위해 작동합니다:

  • 요청에 대한 모델/API를 결정합니다.
  • 실제 성능에 따라 배포 전략을 적응합니다.
  • 지정된 목표를 위해 거래를 설정합니다.
  • 요구 사항이 변경됨에 따라 즉시 다시 구성할 수 있습니다.

3. NeuroSplit은 OA의 결정 사항을 실행합니다:

  • 실시간 장치 텔레메트리를 사용하여 실행을 최적화합니다.
  • 유익한 경우 장치와 클라우드 간에 처리를 분할합니다.
  • 현재 조건에 따라 각 추론이 최적으로 실행되도록 합니다.

이것은 규칙과 목표를 정의하여 자체 최적화를 수행하는 AI 시스템과 같습니다.

오케스트레이터 에이전트가 산업 전반에 걸쳐 AI를 배포하는 방식을 어떻게 바꿀 것으로 보십니까?

이것은 세 가지 중요한 도전 과제를 해결합니다. 첫째, 회사가 최신 AI 발전에 쉽게 따라갈 수 있도록 합니다. 오케스트레이터 에이전트를 사용하면 인프라를 다시 작업하지 않고도最新의 모델과 기술을 즉시 활용할 수 있습니다. 이는 빠르게 발전하는 AI 세계에서 주요 경쟁 우위입니다.

둘째, 오케스트레이터 에이전트는 각 사용자 상호 작용에 대해 최적의 결과를 제공하기 위해 모델을 지능적으로混合하여 선택할 수 있습니다. 예를 들어, 고객 서비스 AI는 기술 질문에 특화된 모델을 사용하고, 청구 문의에 특화된 다른 모델을 사용할 수 있습니다.

셋째, 성능을 최대화하고 비용을 최소화합니다. 에이전트는 사용자 개인 정보 보호가 중요할 때 로컬에서 데이터를 처리하고, 추가 컴퓨팅 파워가 필요할 때 클라우드를 활용합니다. 모든 것이 사용자에게 보이지 않는 곳에서 진행되며, 사용자에게는 원활한 경험을 제공하고, 비즈니스에서는 자원을 최적화합니다.

오케스트레이터 에이전트가 구별되는 점은 다음世代의 초 개인화된 경험을 비즈니스에서 생성할 수 있게 해준다는 것입니다. 예를 들어, 온라인 교육 플랫폼은 자동으로 각 학생의 이해 수준에 따라 교육 접근 방식을 조정할 수 있습니다. 사용자가 “기계 학습”을 검색할 때, 플랫폼은 일반적인 결과를 표시하는 대신 이미 알고 있는 개념을 사용하여 설명을 맞춤형으로 조정할 수 있습니다.

궁극적으로 오케스트레이터 에이전트는 정적인 단일형 AI 인프라에서 동적, 적응형, 자체 최적화 AI 오케스트레이션으로의 전환을 나타냅니다. 이는 단순히 AI 배포를 더 쉽게 만드는 것이 아니라, 전혀 새로운 클래스의 AI 애플리케이션이 가능하게 합니다.

오케스트레이터 에이전트의 사전 베타에 참여한 회사로부터 지금까지 어떤 피드백을 받았습니까?

사전 베타에 참여한 회사의 피드백은 훌륭했습니다! 회사들은 더 이상 독점적인 모델이나 호스팅 서비스에 대한 인프라 잠금에서 벗어나고, 배포 결정에 대한 미래를 보장할 수 있게 되어 매우 흥奋합니다. 이러한 기술의 개념은 이미 발전된 기술이지만, 아직 많은 사람들이 예상하지 못한 것입니다. 따라서 이 기술이 미래에 창출할 수 있는 가능성과 새로운 시장에 대한 흥분이 있습니다.

생성형 AI의 빠른 발전과 함께, AI 인프라의 다음 주요 장애물은 무엇이며, 스카이멜은 어떻게 해결할 계획입니까?

우리는 아직 대부분의 사람들이 완전히 이해하지 못한 미래를 향해 나아가고 있습니다. 단일 지배적인 AI 모델이 아니라, 수십억 개의 모델이 있을 것입니다. 지구 인구 수만큼, 즉 최소 80억 개의 모델이 필요할 것입니다.

이것은 오늘날의 일괄 처리 접근 방식에서 본질적인 전환을 의미합니다. 미래는 수십억 개의 모델을 처리할 수 있는 지능형 인프라를 요구합니다. 스카이멜에서는 오늘날의 배포 도전 과제만 해결하는 것이 아니라, 다음에 오는 것을 위한 기술 로드맵을 이미 구축하고 있습니다.

5년 내에 AI 인프라가 어떻게 발전할 것으로 보시며, 스카이멜은 이 발전에 어떻게 기여할 것으로 보십니까?

AI 인프라 랜드스케이프는 근본적인 변화를 겪을 것입니다. 오늘날의 초점은 클라우드에서 일반적인 대규모 언어 모델을 확장하는 데 있지만, 향후 5년 동안 AI는 깊이 개인화되고 상황에 따라 달라지는 것을 볼 것입니다. 이는 단순한 세부 설정이 아니라, AI가 특정 사용자, 장치 및 상황에 실시간으로 적응하는 것을 의미합니다.

이 전환은 두 가지 주요 인프라 도전 과제를 만듭니다. 첫째, 중앙 집중식 데이터 센터에서 모든 것을 실행하는 전통적인 접근 방식은 기술적으로나 경제적으로 지속 불가능해집니다. 둘째, AI 애플리케이션의 증가하는 복잡성은 다중 모델, 장치 및 컴퓨팅 위치 간에 동적으로 최적화할 수 있는 인프라를 필요로 합니다.

스카이멜에서는 이러한 도전 과제를 해결하기 위한 인프라를 구축하고 있습니다. 우리의 기술은 AI를 가장 의미 있는 곳에서 실행할 수 있도록 합니다. 데이터가 생성되는 장치에서, 또는 컴퓨팅 파워가 더 많이 필요한 클라우드에서, 또는 두 가지를 지능적으로 분할하여 실행합니다. 무엇보다도, 이러한 결정은 실시간으로 변경되는 조건과 요구 사항에 따라 적응합니다.

향후, 성공적인 AI 애플리케이션은 모델의 크기나 접근할 수 있는 컴퓨팅 능력으로 정의되지 않을 것입니다. 개인화된, 반응형 경험을 제공하면서 자원을 효율적으로 관리할 수 있는 능력으로 정의될 것입니다. 우리의 목표는 이러한 수준의 지능형 최적화를 모든 AI 애플리케이션에서 접근할 수 있게 만드는 것입니다. 규모나 복잡성과 상관없이 말입니다.

훌륭한 인터뷰에 감사드립니다. 더 많은 정보를 원하는 독자는 스카이멜을 방문할 수 있습니다.

์•™ํˆฌ์•ˆ์€ Unite.AI์˜ ๋น„์ „์žˆ๋Š” ๋ฆฌ๋”์ด์ž ๊ณต๋™ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, AI์™€ ๋กœ๋ด‡๊ณตํ•™์˜ ๋ฏธ๋ž˜๋ฅผ ํ˜•์„ฑํ•˜๊ณ  ์ด‰์ง„ํ•˜๋Š” ๋ฐ ๋Œ€ํ•œ ๋ถˆ๋ณ€์˜ ์—ด์ •์— ์˜ํ•ด ์ถ”๋™๋ฉ๋‹ˆ๋‹ค. ์—ฐ์‡„์ ์ธ ๊ธฐ์—…๊ฐ€๋กœ์„œ, ๊ทธ๋Š” AI๊ฐ€ ์‚ฌํšŒ์— ๋Œ€ํ•œ ์ „๊ธฐ์™€ ๊ฐ™์€ ํŒŒ๊ดด๋ ฅ์„ ๊ฐ€์งˆ ๊ฒƒ์ด๋ผ๊ณ  ๋ฏฟ์œผ๋ฉฐ, ์ข…์ข… ํŒŒ๊ดด์ ์ธ ๊ธฐ์ˆ ๊ณผ AGI์˜ ์ž ์žฌ๋ ฅ์— ๋Œ€ํ•ด ์—ด๊ด‘ํ•ฉ๋‹ˆ๋‹ค.

ไฝœไธบ futurist, ๊ทธ๋Š” ์ด๋Ÿฌํ•œ ํ˜์‹ ์ด ์šฐ๋ฆฌ์˜ ์„ธ๊ณ„๋ฅผ ์–ด๋–ป๊ฒŒ ํ˜•์„ฑํ• ์ง€ ํƒ๊ตฌํ•˜๋Š” ๋ฐ ์ „๋…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ทธ๋Š” Securities.io์˜ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, ๋ฏธ๋ž˜๋ฅผ ์žฌ์ •์˜ํ•˜๊ณ  ์ „์ฒด ๋ถ€๋ฌธ์„ ์žฌํ˜•์„ฑํ•˜๋Š” ์ตœ์ฒจ๋‹จ ๊ธฐ์ˆ ์— ํˆฌ์žํ•˜๋Š” ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.

๊ด‘๊ณ  ๊ณ ์ง€: Unite.AI๋Š” ๋…์ž์—๊ฒŒ ์ •ํ™•ํ•œ ์ •๋ณด์™€ ๋‰ด์Šค๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ์œ„ํ•ด ์—„๊ฒฉํ•œ ํŽธ์ง‘ ๊ธฐ์ค€์„ ์ค€์ˆ˜ํ•ฉ๋‹ˆ๋‹ค. ๋‹น์‚ฌ๊ฐ€ ๊ฒ€ํ† ํ•œ ์ œํ’ˆ ๋งํฌ๋ฅผ ํด๋ฆญํ•  ๊ฒฝ์šฐ ๋ณด์ƒ์„ ๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.