인터뷰
Steven Hillion, Astronomer의 데이터 및 AI 부사장 – 인터뷰 시리즈

Steven Hillion은 Astronomer의 데이터 및 AI 부사장으로, 연구 수학에서 학술적 배경과 15년 이상의 실리콘밸리 머신러닝 플랫폼 개발 경험을 활용합니다. Astronomer에서 그는 ML 및 AI 팀을 위해 특별히 설계된 Apache Airflow 기능의 생성을 주도하며 내부 데이터 과학 팀을 감독합니다. 그의 리더십 아래, Astronomer는 현대적인 데이터 오케스트레이션 플랫폼을 발전시켜 다양한 데이터 소스와 태스크를 지원하기 위한 데이터 파이프라인 기능을 크게 향상시켰습니다.
데이터 과학 및 AI 분야에서 귀하의 여정을 공유하고, 엔지니어링 및 분석 팀을 이끄는 접근 방식을 어떻게 형성했는지 알려주세요.
나는 버클리에서 연구 수학을 배경으로 실리콘밸리의 여러 성공적인 스타트업에서 엔지니어로 일했습니다. 학계의 정치와 관료주의를 떠나 خوش했다가 몇 년 후 수학을 그리워하게 되었습니다. 그래서 머신러닝과 분석을 위한 플랫폼 개발로 전환했습니다. 그 때부터 지금까지 그렇게 하고 있습니다.
수학을 공부한 것이 데이터 과학자들이 ‘parsimony’라고 부르는 것을 선호하게 만들었습니다. 즉, 작업에 적합한 올바른 도구를 사용하고, 더 이상의 복잡한 기계는 필요하지 않습니다. 수학자들은 복잡한 기계보다 우아한 해결책을 선호하므로, 비즈니스 문제에 머신러닝을 적용할 때 간결성을 강조하려고 노력했습니다. 딥러닝은 일부 응용 분야에 적합하지만, 간단한 회귀 모델이 더 적절하고 설명하기 쉽습니다.
머신러닝이 널리 사용된 지난 20년 동안 데이터 과학자와 소프트웨어 엔지니어의 역할이 어떻게 변화했는지 보는 것이 흥미롭습니다. 두 가지 역할을 모두 경험한 나는 머신러닝 프로젝트에 적용된 소프트웨어 개발 수명주기(자동화 및 테스트)의 중요성을 잘 알고 있습니다.
AI 및 대규모 언어 모델(LLM)에 대한 비정형 데이터를 이동, 처리 및 분석하는 데 있는 가장 큰 도전은 무엇입니까?
제네레이티브 AI 세계에서 데이터는 가장贵重한 자산입니다. 모델은 점점 더 공통화되고 있으므로,貴重한 차별점은 귀하의 기관 지식이 귀하의 독점적이고 큐레이션된 데이터 세트에 캡처됩니다.
올바른 데이터를 올바른 시간에 제공하는 것은 데이터 파이프라인에 높은 요구를 가합니다. 이는 구조화된 데이터와 마찬가지로 비정형 데이터에 적용되며, 아마도 더 중요합니다. 종종 다양한 소스와 다양한 형식의 데이터를 수신합니다. 데이터를 언패킹하고 모델 추론 또는 모델 훈련을 위해 준비하는 데 다양한 방법에 액세스할 수 있어야 합니다. 또한 데이터의 출처와 데이터가 끝나는 위치를 이해해야 하며 “작업을 보여주”어야 합니다.
만약 모델을 훈련하는 데 이것을 간간이 수행한다면, 그것은 괜찮습니다. 반드시 운영화할 필요는 없습니다. 모델을 매일 사용하여 온라인 포럼에서 고객의 감정을 이해하거나 영수증을 요약하고 라우팅하려면, 이것은 다른 운영 데이터 파이프라인과 마찬가지로 신뢰성과 재현성을 생각해야 합니다. 또는 모델을 정기적으로 미세 조정한다면, 정확도와 비용에 대한 모니터링에 대해 걱정해야 합니다.
좋은 소식은 데이터 엔지니어가 데이터 파이프라인을 관리하기 위한 훌륭한 플랫폼인 Airflow를 개발했다는 것입니다. 이미 세계에서 가장 정교한 ML 팀 중 일부에서 모델 배포 및 모니터링을 관리하는 데 성공적으로 적용되었습니다. 따라서 모델은 새로운 것이지만, 오케스트레이션은 아닙니다.
합성 데이터를 사용하여 더 작은 모델을 정확하게 미세 조정하는 방법에 대해 자세히 설명해 주시겠습니까? 이것은 더 큰 모델을 훈련하는 것과 어떻게 비교됩니까?
강력한 기술입니다. 가장好的 대규모 언어 모델을 생각해 볼 수 있습니다. 그들은 어떤 방식으로든 그들이 학습한 세계에 대해 배우고, 더 작은 모델에 그것을 전달할 수 있습니다. 합성 데이터를 생성하여 더 작은 모델을 훈련하는 것입니다. LLM은 광범위한 데이터 세트에서 학습한 방대한 양의 지식을 캡슐화합니다. 이러한 모델은 그들이 학습한 패턴, 구조 및 정보를 캡처하는 합성 데이터를 생성할 수 있습니다. 이 합성 데이터는 더 작은 모델을 훈련하는 데 사용될 수 있으며, 더 작은 모델에 더 큰 모델의 지식을 효과적으로 전달합니다. 이것은 “지식 증류”라고 하는 과정이며, 효율적이고 더 작은 모델을 생성하는 데 도움이 되며, 특정 작업에서 잘 수행됩니다. 또한 합성 데이터를 사용하면 개인 정보 문제를 피할 수 있고, 훈련 데이터의 격차를 메울 수 있습니다.
이것은 더 도메인 특정 제네레이티브 AI 모델을 훈련하는 데 도움이 될 수 있으며, 더 큰 모델을 훈련하는 것보다 더 효과적일 수 있습니다.
데이터 과학자들은 이미 오래전부터 합성 데이터를 생성해 왔으며, 데이터가 있기만 하면 언제든지 데이터를 생성할 수 있습니다. 그러나 항상 주의해야 합니다. 오류를 도입하거나 데이터의 분포에 대해 잘못된 가정을 하지 않도록 주의해야 합니다. 이제 합성 데이터를 생성하는 것이 훨씬 더 쉽고 강력해졌으므로, 더 주의해야 합니다. 오류는 증폭될 수 있습니다.
생성된 데이터의 다양성이 부족하면 ‘모델 붕괴’로 이어질 수 있습니다. 모델은 잘 작동하는 것으로 생각할 수 있지만, 전체 그림을 보지 못했기 때문입니다. 일반적으로, 훈련 데이터의 다양성이 부족한 것은 데이터 팀이 항상 주의해야 하는 것입니다.
기본적으로, 합성 데이터 또는 유기 데이터를 사용하는 경우, 모델을 훈련하거나 미세 조정하는 데에 있어 데이터의 계보와 품질이 중요합니다. 모델은 훈련 데이터만큼 좋은 것입니다. 합성 데이터는 민감한 데이터 세트를 노출하지 않고 표현하거나 대표 데이터 세트에서 누락된 격차를 메우는 데 도움이 될 수 있는 훌륭한 도구일 수 있습니다. 그러나 데이터가 어디에서 왔는지, 데이터의 품질 수준을 증명할 수 있는 문서가 있어야 합니다.
Astronomer의 귀하 팀이 데이터 파이프라인의 효율성과 신뢰성을 개선하기 위해 구현하는 혁신적인 기술은 무엇입니까?
많습니다! Astro의 완전 관리형 Airflow 인프라와 Astro Hypervisor는 동적 확장 및 예측 모니터링을 통해 고급 헬스 메트릭스를 지원합니다. 이는 리소스가 효율적으로 사용되고 시스템이 모든 규모에서 신뢰할 수 있음을 보장합니다. Astro는 슬랙 및 PagerDuty와 같은 다양한 채널을 통해 사용자 지정 알림을 보낼 수 있는 데이터 중심 알림을 제공합니다. 이는 문제가 확대되기 전에 적절한 개입을 보장합니다.
데이터 유효성 검사, 유닛 테스트 및 데이터 품질 검사는 데이터 파이프라인의 신뢰성, 정확성 및 효율성을 보장하는 데 중요한 역할을 합니다. 이러한 검사는 데이터 파이프라인을 빠르게 구축하여 마감일을 맞추는 동안, 오류를 적극적으로 잡고, 개발 시간을 개선하며, 배경에서 예상치 못한 오류를 줄입니다. Astronomer에서 우리는 데이터 파이프라인의 코드 기능을 무결성 있게 확인하거나 통합 문제를 식별하는 데 도움이 되는 Astro CLI와 같은 도구를 구축했습니다.
제네레이티브 AI 거버넌스의 진화를 어떻게 보시나요? 더 많은 도구를 지원하기 위해 어떤 조치를 취해야 합니까?
거버넌스는 제네레이티브 AI 애플리케이션의 성공을 위해 필수적입니다. 모든 것은 투명성과 재현성에 관한 것입니다. 결과가 어떻게 얻어졌는지, 어디에서 왔는지, 누구에 의해 생성되었는지 알고 있습니까? Airflow 자체는 이미 데이터 파이프라인이 무엇을 하는지 볼 수 있는 방법을 제공합니다. 사용자 인터페이스는 초기에 빠르게 채택된 이유 중 하나였으며, Astronomer에서 우리는 팀 및 배포 전체의 가시성을 제공함으로써이를 개선했습니다. 또한 고객에게 플랫폼 사용, 성능 및 비용 할당에 대한 포괄적인 통찰력을 제공하는 보고 대시보드를 제공합니다. 추가로 Astro API를 통해 팀은 Airflow 파이프라인을 프로그래밍 방식으로 배포, 자동화 및 관리할 수 있으며, 수동 프로세스와 관련된 위험을 완화하고, 여러 Airflow 환경을 관리할 때 무제한으로 작동합니다. 계보 기능은 플랫폼에 내장되어 있습니다.
이러한 모든 것은 데이터 거버넌스를 관리하는 데 도움이되는 단계입니다. 나는 모든 규모의 회사들이 AI 애플리케이션에 대한 신뢰를 보장하기 위해 데이터 거버넌스의 중요성을 인식하고 있다고 믿습니다. 이러한 인식과 인식은 데이터 거버넌스 도구에 대한 수요를 주도할 것입니다. 나는 제네레이티브 AI가 확산됨에 따라 이러한 도구의 생성이 가속화할 것으로 예상합니다. 그러나 이러한 도구는 더 큰 오케스트레이션 스택의 일부여야 하므로, 우리는 이를 우리 플랫폼을 구축하는 방법의 기본으로 간주합니다.
Astronomer의 솔루션이 고객의 운영 효율성과 생산성을 어떻게 개선했는지 예를 들어 설명해 주시겠습니까?
제네레이티브 AI 프로세스는 컴퓨팅 리소스를 신중하게 최적화하고 반복적으로 실행해야 하는 복잡하고 리소스 집약적인 작업을 포함합니다. Astro, Astronomer의 관리형 Apache Airflow 플랫폼은 이러한 작업을 단순화하고 혁신을 신속하게 구현하는 능력을 강화하는 데 도움이되는 새로운 AI 앱 스택의 중심에 프레임워크를 제공합니다.
제네레이티브 AI 작업을 오케스트레이션함으로써, 비즈니스에서는 컴퓨팅 리소스가 효율적으로 사용되고 워크플ロー가 최적화되고 실시간으로 조정됨을 보장할 수 있습니다. 이는 제네레이티브 모델을 자주 업데이트하거나 새 데이터에 따라 다시 훈련해야 하는 환경에서 특히 중요합니다.
Airflow의 워크플로 관리 및 Astronomer의 배포 및 확장 기능을 활용하여, 팀은 인프라를 관리하는 데 덜 시간을 소비하고, 데이터 변환 및 모델 개발에 더 많은 시간을 할애할 수 있습니다. 이는 제네레이티브 AI 애플리케이션의 배포를 가속화하고 성능을 향상시킵니다.
이러한 방식으로 Astronomer의 Astro 플랫폼은 고객이 제네레이티브 AI를 사용하는 다양한 사용 사례에서 운영 효율성을 개선하는 데 도움이되었습니다. 몇 가지 예를 들면, 전자 상거래 제품 검색, 고객 이탈 위험 분석, 지원 자동화, 법적 문서 분류 및 요약, 고객 리뷰에서 제품 정보를 얻기, 제품 이미지 생성을 위한 동적 클러스터 프로비저닝 등이 있습니다.
Astronomer는 AI 및 ML 애플리케이션의 성능 및 확장성을 향상시키는 데 어떤 역할을 하나요?
확장성은 2024년에 제네레이티브 AI를 사용하는 비즈니스에게 주요 도전입니다. 프로토タイプ에서 프로덕션으로 이동할 때, 사용자는 제네레이티브 AI 앱이 신뢰할 수 있고 성능이 좋으며, 생성된 출력이 신뢰할 수 있기를 기대합니다. 이는 비용 효율적으로 수행되어야 하며, 모든 규모의 비즈니스에서 이를 활용할 수 있어야 합니다. Astronomer를 사용하면, 작업을 수평으로 확장하여 대규모 데이터 소스를 동적으로 처리할 수 있습니다. Astro는 배포 및 호스팅 클러스터를 탄력적으로 확장할 수 있으며, 전용 기계 유형을 사용하는 큐 기반 작업 실행은 더 높은 신뢰성 및 컴퓨팅 리소스의 효율적인 사용을 제공합니다. 비용 효율적인 부분을 해결하기 위해, Astro는 비용을 제어하는 데 도움이되는(scale-to-zero 및 휴면 기능을 제공합니다. 또한 플랫폼의 비용에 대한 완전한 투명성을 제공합니다. 내 데이터 팀은 소비에 대한 보고서를 생성하여 고객에게 매일 제공합니다.
AI 및 데이터 과학의 미래 트렌드 중에 가장 흥미로운 것은 무엇이며, Astronomer는 이러한 트렌드에 어떻게 대비하고 있습니까?
설명 가능한 AI는 매우 중요한 개발 분야입니다. 매우 큰 모델의 내부 작동을 들여다보는 것은 거의 불가사의합니다. 또한 모델 훈련 및 조정의 환경적 영향을 어떻게 다루는지 커뮤니티가 해결하는지 보는 데 관심이 있습니다. Astronomer에서 우리는 최신 통합을 포함한 모든 레지스트리를 계속 업데이트하여 데이터 및 ML 팀이 최상의 모델 서비스 및 가장 효율적인 컴퓨팅 플랫폼에 연결할 수 있도록 합니다.
LLM과 같은 고급 AI 도구를 전통적인 데이터 관리 시스템과 통합하는 것은 어떻게 진화할 것으로 보입니까?
Databricks와 Snowflake는 최근에 각 플랫폼에서 LLM의 사용 및 개발을 통합하는 방법에 대한 발표를 했습니다. 다른 DBMS 및 ML 플랫폼도 동일한 일을 할 것입니다. 데이터 엔지니어가 명령줄이나 SQL 프롬프트에서 이러한 강력한 방법에 쉽게 액세스할 수 있는 것을 보는 것은 좋습니다.
특히 관계형 데이터베이스에서 머신러닝을 통합하는 것을 보는 데 관심이 있습니다. 머신러닝 방법이 SQL 표준에 통합되는 것을 기다리고 있지만, 어떤 이유로든 두 가지 학문은 실제로 결합되지 않았습니다. 이번에는 다를 수도 있습니다.
LLM이 데이터 엔지니어의 작업을 지원하는 데에는巨大的 잠재력이 있습니다. 코드 생성에서 이미 성공을 거두었습니다. 데이터 과학자에게 AI 주도 제안을 제공하려는 초기 노력은 혼합되었습니다. Hex는 훌륭하지만, Snowflake는 지금까지는 영감을 주지 못했습니다. 그러나 데이터 팀의 작업을 변경할 잠재력이 있습니다. 왜냐하면, 소프트웨어 엔지니어에게는 함수 이름이나 문서가 있지만, 데이터 엔지니어에게는 데이터도 있기 때문입니다. 모델이 유용하고 정확한 제안을 할 수 있는 많은 컨텍스트가 있습니다.
산업에서 영향을 미치고 싶은 데이터 과학자 및 AI 엔지니어에게 조언을 드리면 무엇입니까?
행동으로 배우세요. 애플리케이션을 구축하고, 인공지능으로 보완하는 것이 지금非常히 쉽습니다. 그래서, 멋진 것을 구축하고, 그것을 존경하는 회사의 친구에게 보내세요. 또는, 그것을 저에게 보내세요. 저는 그것을 살펴볼 것입니다!
비밀은 관심사가 무엇인지 찾고, 관련된 데이터를 찾는 것입니다. 제 친구 중 한 사람은 19세기부터 비정상적인 야구 시즌에 대한 분석을 수행하여 영화로 만들어질만한 이야기를 발견했습니다. Astronomer의 엔지니어 중 몇 명은 주말에 자가 치유 데이터 파이프라인 플랫폼을 구축하기 위해 모였습니다. 몇 년 전에는 이것을 시도하기도 어렵지만, 단 몇 일의 노력으로, 우리는 Cohere의 해커톤에서 우승하여 플랫폼의 주요 새로운 기능의 기초를 구축했습니다.
훌륭한 인터뷰에 감사합니다. 더 많은 정보를 배우고 싶은 독자는 Astronomer를 방문해야 합니다.












