인터뷰
아나이스 도티스-조르지우, 인플럭스데이터의 개발자 어드보킷 – 인터뷰 시리즈

아나이스 도티스-조르지우는 인플럭스데이터의 개발자 어드보킷으로, 데이터 분석, AI, 머신 러닝을 사용하여 데이터를 아름답게 만드는 것을 좋아합니다. 그녀는 수집한 데이터를 연구, 탐색, 엔지니어링의 혼합으로 함수, 가치, 아름다움을 가진 무언가로 변환합니다. 화면 뒤에 있지 않을 때, 그녀는 밖에서 그림을 그리거나, 스트레칭을 하거나, 보드 타기 또는 축구공을追いかける 것을 좋아합니다.
인플럭스데이터는 인플럭스DB를 구축하는 회사로, 전 세계 수백만 명의 개발자가 사용하는 오픈 소스 시계열 데이터베이스입니다. 그들의 목표는 개발자가 시계열 데이터로 지능형 실시간 시스템을 구축하는 것을 도와주는 것입니다.
연구 보조원에서 인플럭스데이터의 리드 개발자 어드보킷이 되는 과정에 대해 조금 알려주세요. 데이터 분석과 머신 러닝에 대한 배경이 현재의 역할에 어떻게 영향을 미쳤나요?
저는 화학 공학과를 전공했으며, 생물 의학 공학을 중점으로 연구했습니다. 그리고 백신 개발과 태아 자폐증 검출을 수행하는 연구실에서 일했습니다. 그 후에 저는 애플리케이션을 개발하는 회사에서 일했습니다. 그리고 오라클에서 세일즈 개발 대표로 일했습니다. 그리고 저는 코딩에 집중해야 한다는 것을 깨달았습니다. 저는 텍사스 대학교에서 데이터 분석을 위한 코딩 부트 캠프를 参加했습니다. 그리고 개발자 관계 분야에서 기술적인 배경을 가지고 있었기 때문에, 저는 엔지니어링 배경과 마음을 가진 사람들과 관련을 맺고, 소프트웨어를 배우는 사람들을 도와줄 수 있었습니다.
귀하의 작업은 창의성과 기술 전문성을 결합하는 것으로 보입니다. 인플럭스데이터에서 일하면서 데이터를 ‘아름답게’ 만드는 열정을 어떻게 일상적으로 반영하시나요?
最近, 저는 데이터 엔지니어링에 더 집중하고 있습니다. 데이터 분석에 대해서는 이전과 같이 집중하지는 않지만, 저는 여전히 수학을 좋아합니다. 그리고 알고리즘의 수학적인 배경을 설명하는 기회를 잡으면 즐겨합니다.
인플럭스DB는 시계열 데이터 분야에서 중요한 역할을 했습니다. 오픈 소스 커뮤니티가 인플럭스DB의 개발과 진화에 영향을 미치는 방식은 무엇인가요?
인플럭스데이터는 오픈 데이터 아키텍처와 아파치 생태계에 매우 헌신하고 있습니다. 작년 우리는 인플럭스DB 3.0을 발표했습니다. 그것은 러스트로 작성되었고 아파치 플라이트, 데이터 퓨전, 애로우, 파케트를 사용하여 구축되었습니다. 인플럭스데이터의 엔지니어들이 이러한 업스트림 프로젝트에 기여를 계속함에 따라, 커뮤니티는 성장하고, 아파치 애로우 세트의 프로젝트는 더 쉽게 사용할 수 있고, 더 많은 기능과 기능이 추가되고, 더 넓은 상호 운용성이 제공됩니다.
시계열 데이터와 AI의 contexto에서 최근에 본 가장 흥미로운 오픈 소스 프로젝트 또는 기여는 무엇인가요?
제가 본 최근의 흥미로운 프로젝트 중 하나는 시계열 데이터에 대한 제로샷 예측을 위해 LLMs를 재사용하거나 적용하는 것입니다. Autolab에는 오픈 소스 시계열 언어 모델의 컬렉션이 있으며, TimeGPT는 또 다른 훌륭한 예입니다.
또한, Hugging Face의 모델을 활용하여 사용자에게 모델을 활용하고 통합할 수 있는 다양한 오픈 소스 스트림 처리 라이브러리, 예를 들어 Bytewax와 Mage.ai는 매우 흥미롭습니다.
인플럭스데이터는 어떻게 오픈 소스 이니셔티브를 유지하여 개발자 커뮤니티에 유익하고 관련性이 있도록 합니까? 특히 AI와 머신 러닝의 빠른 발전에 대해서는 어떻게 합니까?
인플럭스데이터의 이니셔티브는 오픈 소스 프로젝트에 기여함으로써 유지됩니다. 예를 들어, 인플럭스DB가 아파치 애로우, 파케트, 데이터 퓨전에 기여할 때마다, 그것은 아파치 스파크, 데이터 브릭스, 랩스.ai, 스노우플레이크, 빅쿼리, 허깅페이스 등과 같은 다른 AI 기술 회사와 기업에도ประโยชน를줍니다.
시계열 언어 모델은 예측 분석에서 점점 더 중요해지고 있습니다. 이러한 모델이 시계열 예측과 이상 감지에 어떻게 변화를 가져오는지 설명해 주시겠습니까?
시계열 언어 모델은 선형 및 통계 모델을 능가하며 제로샷 예측을 제공합니다. 즉, 모델을 사용하기 전에 데이터에 대한 훈련이 필요하지 않습니다. 또한 통계 모델을 조정할 필요가 없습니다. 이는 깊은 시간 시리즈 통계에 대한 전문 지식을 필요로 합니다.
그러나 자연어 처리와 달리, 시계열 분야에는 공개적으로 접근 가능한 대규모 데이터셋이 부족합니다. 대부분의 기존 사전 훈련된 시계열 모델은 수천 개 또는 수백 개의 샘플만 포함하는 작은 샘플 크기에 대해 훈련됩니다. 이러한 벤치마크 데이터셋은 시계열 커뮤니티의 진행에 기여했지만, 제한된 샘플 크기와 일반성이 부족하여 깊은 학습 모델을 사전 훈련하는 데 도전을 제기합니다.
시계열 언어 모델을 전통적인 방법으로 비교했을 때, 복잡한 패턴과 제로샷 성능을 처리하는 데有什么 장점이 있나요?
중요한 장점은 시간 시리즈 데이터에 모델을 훈련하고 재훈련할 필요가 없다는 것입니다. 이것은 온라인 머신 러닝 문제를 모니터링하고 모델의漂移을 트리거하여 재훈련을 유발하는 복잡성을 제거할 수 있습니다.
또한, 다변량 통계 모델의 경우, 시리즈 간의 상관 관계나 관계를 추정하는 데 어려움을 겪을 필요가 없습니다. 추정에 의해 추가된 분산은 종종 예측 결과를 해칠 수 있고, 모델이 가짜 상관 관계를 학습하도록 할 수 있습니다.
구글의 TimesFM, IBM의 TinyTimeMixer, AutoLab의 MOMENT와 같은 모델이 실제 시나리오에서 어떻게 구현되는지에 대한 몇 가지 실제 예를 제공할 수 있나요?
이것은 대답하기 어렵습니다. 이러한 모델은 상대적으로 초기 단계에 있기 때문에, 실제 시나리오에서 어떻게 사용되는지에 대해서는 알려진 바가 없습니다.
귀하는 시간 시리즈 언어 모델을 기존 데이터 인프라에 통합할 때 일반적으로 조직이 직면하는 도전 과제는 무엇이며, 어떻게 이를 극복할 수 있나요?
시간 시리즈 언어 모델은 매우 새로운 기술이기 때문에, 조직이 직면하는 도전 과제를 정확히 알 수 없습니다. 그러나, 저는 그들이 다른 GenAI 모델을 데이터 파이프라인에 통합할 때 직면하는 도전 과제와 같은 도전 과제를 직면할 것이라고 생각합니다. 이러한 도전 과제에는 다음이 포함됩니다:
- 데이터 호환성 및 통합 문제: 시간 시리즈 언어 모델은 특정 데이터 형식, 일관된 타임스탬프, 정기적인 간격을 필요로 할 수 있지만, 기존 데이터 인프라는 구조화되지 않은 또는 일관되지 않은 시간 시리즈 데이터를 포함할 수 있습니다. 이러한 문제를 해결하기 위해, 팀은 데이터를 전처리, 정리, 정렬하기 위한 강력한 ETL 파이프라인을 구현해야 합니다.
- 모델 확장성 및 성능: 시간 시리즈 언어 모델, 특히 트랜스포머와 같은 깊은 학습 모델은大量의 시간 시리즈 데이터를 처리하기 위해 상당한 컴퓨팅 및 메모리 자원을 필요로 할 수 있습니다. 이것은 팀이 모델을 확장 가능한 플랫폼에 배포하거나, 필요한 경우 GPU 가속을 사용하거나, 모델 추론을 병렬화하기 위한 분산 처리 프레임워크를 사용해야 함을 의미합니다.
- 해석 가능성 및 신뢰성: 시간 시리즈 모델, 특히 복잡한 언어 모델은 “블랙 박스”로 간주될 수 있으며, 예측을 해석하기 어렵게 할 수 있습니다. 이것은 특히 금융 또는 의료와 같은 규제 산업에서 특히 문제가 될 수 있습니다.
- 데이터 개인 정보 보호 및 보안: 시간 시리즈 데이터를 처리하는 것은 종종 IoT 센서 데이터 또는 금융 거래 데이터와 같은 민감한 정보를 포함하므로, 언어 모델을 통합할 때 데이터 보안 및 규정 준수를 보장하는 것이 중요합니다. 조직은 데이터 파이프라인과 모델이 최고의 보안 관행을 준수하고, 접근 제어 및 암호화를 사용하고, 모델을 안전하고 격리된 환경에서 배포해야 합니다.
향후, 예측 분석과 AI 분야에서 시간 시리즈 언어 모델의 역할이 어떻게 진화할 것으로 생각하시나요? 특히 흥미로운 트렌드 또는 기술은 무엇인가요?
시간 시리즈 언어 모델의 다음 단계는 이러한 모델을 더 쉽게 사용하고 접근할 수 있는 도구를 제공하는 것입니다. 제가 사용한 시간 시리즈 언어 모델 중 많은 모델은 매우 특정한 환경을 필요로 하며, 튜토리얼과 문서가 부족합니다. 궁극적으로, 이러한 프로젝트는 초기 단계에 있으며, 향후 몇 개월과 몇 년 동안 어떻게 진화할지 흥미롭게 지켜볼 것입니다.
멋진 인터뷰에 감사드립니다. 더 많은 정보를 원하는 독자는 인플럭스데이터를 방문할 수 있습니다.












