Connect with us

Dr. ์Šคํƒ€๋ธŒ๋กœ์Šค ํŒŒํŒŒ๋„ํ’€๋กœ์Šค, TileDB์˜ ์ฐฝ๋ฆฝ์ž ๋ฐ CEO – ์ธํ„ฐ๋ทฐ ์‹œ๋ฆฌ์ฆˆ

์ธํ„ฐ๋ทฐ

Dr. ์Šคํƒ€๋ธŒ๋กœ์Šค ํŒŒํŒŒ๋„ํ’€๋กœ์Šค, TileDB์˜ ์ฐฝ๋ฆฝ์ž ๋ฐ CEO – ์ธํ„ฐ๋ทฐ ์‹œ๋ฆฌ์ฆˆ

mm

TileDB는 코드와 컴퓨팅을 하나의 제품으로 통합하는 현대적인 데이터베이스입니다. TileDB는 2017년 5월 MIT와 Intel Labs에서 분리되었습니다.

TileDB, Inc.를 2017년 2월에 설립하기 전에, Dr. 스타브로스 파파도풀로스는 Intel Parallel Computing Lab의 선임 연구 과학자였으며, 3년 동안 MIT CSAIL의 Intel Science and Technology Center for Big Data의 회원이었습니다. 그는 또한 홍콩 과기대(HKUST) 컴퓨터 과학 및 공학부에서 약 2년 동안 방문 조교수를 지냈습니다. 스타브로스는 홍콩 과기대에서 컴퓨터 과학 박사 학위를 받았으며, 중국 홍콩 대학에서 유페이 타오 교수의 지도 아래 박사 후 연구원으로 재직했습니다.

당신은 이전에 Intel Parallel Computing Lab의 선임 연구 과학자였으며, 3년 동안 MIT CSAIL의 Intel Science and Technology Center (ISTC) for Big Data의 회원이었습니다. 이 기간 동안의 주요亮點을 공유해 줄 수 있나요?

Intel Labs와 MIT에서 근무하는 동안, 나는 두 가지 다른 과학 분야의 유명인들과 협력할 수 있는 유일한 기회를 가졌습니다: 하이퍼포먼스 컴퓨팅(Intel)과 데이터베이스(MIT). 내가 얻은 지식과 전문 지식은 새로운 유형의 데이터베이스 시스템을 만들기 위한我的 비전을 형성하는 데 핵심이되었습니다. 이는 나중에 ISTC 내에서 연구 프로젝트로 구축되었으며, 결국 TileDB가 되었습니다.

TileDB의 비전과 현대적인 데이터베이스 풍경을 혁신하는 방법을 설명해 줄 수 있나요?

최근 몇 년 동안, 기계 학습과 생성적 AI 애플리케이션의 사용이 크게 증가했습니다. 이러한 애플리케이션은 조직이 더好的 결정을 내리는데 도움이 됩니다. 매일, 조직은 데이터에서 새로운 패턴을 발견하고, 이를 통해 경쟁 우위를 얻습니다. 이러한 패턴은 다양한 데이터 모달리티에서 나타나며, 이를 관리하고 분석하기 위해 통합해야 합니다. 전통적인 테이블 데이터에서 더 복잡한 데이터 소스(예: 소셜 포스트, 이메일, 이미지, 비디오, 센서 데이터)까지, 데이터에서 의미를 도출하려면 집계 분석이 필요합니다. 데이터 유형이 증가함에 따라, 이 작업은 더 어려워지고, 새로운 유형의 데이터베이스가 필요합니다. 이것이 TileDB가 생성된 이유입니다.

조직이 데이터 인프라를 개발하기 전에 고급 분석과 기계 학습 능력을 우선시하는 것이 왜 중요합니까?

AI를 채택하기 위한 열망 중에 중요한 사실은, 모든 AI 이니셔티브의 성공은 기본 데이터 인프라의 품질과 성능에 내재적으로 연결되어 있다는 것입니다.

문제는, 테이블로 자연스럽게 표현되지 않는 복잡한 데이터가 “비정형”으로 간주되고, 일반적으로 플랫 파일로 저장되거나, 별도의 목적을 가진 데이터베이스로 관리됩니다. 데이터 과학자들은 데이터를 통합하기 위해 많은 시간을 데이터를 다루는 데 소비합니다. 데이터 과학자들의 80-90%의 시간이 데이터를 정리하고 병합하기 위해 소비된다고 추정됩니다. 이는 AI 알고리즘을 훈련하고 예측 능력을 달성하기 위한 시간을 지연시킵니다. 또한, 이는 데이터 과학자들의 10-20%의 시간만이 통찰력을 생성하는 데 소비된다는 것을 의미합니다.

조직이 AI 및 ML 애플리케이션에 더 집중하면서, 강력한 데이터베이스 인프라를 무시할 때 발생하는 일반적인 함정은 무엇입니까?

조직은 빛나는 새로운 것에 집중하는 경향이 있습니다. 대형 언어 모델, 벡터 데이터베이스 및 데이터 인프라 위에 구축된 생성적 AI 애플리케이션은 현재의 예입니다. 그러나, 이는 분석 성공에 필수적인 기본 데이터 인프라를 무시하는 것입니다. 간단히 말해서, 조직이 이러한 함정을 피하지 못한다면, 데이터 인프라를 통합하는 데 많은 시간을 소비하게 되고, 통찰력을 얻는 기회를 놓치거나 지연시킬 수 있습니다.

적응형 데이터베이스가 무엇인지, 그리고 현대적인 데이터 분석을 위해 이러한 적응성이 왜 필수적인지 설명해 줄 수 있나요?

적응형 데이터베이스는 모든 데이터(모달리티에 관계없이)를 수용하고,統一된 방식으로 저장할 수 있는 데이터베이스입니다. 적응형 데이터베이스는 “비정형”으로 간주되는 데이터에 구조를 제공합니다. 세계의 데이터 중 80% 이상이 비테이블 또는 비정형 데이터이며, 대부분의 AI/ML 모델(包括 LLMs)은 이러한 유형의 데이터에서 훈련됩니다.

TileDB는 다차원 배열로 데이터를 구조화합니다. 이러한 형식은 전통적인 데이터베이스와 비교하여 성능과 비용 효율성을 어떻게 향상시킵니까?

다차원 배열 데이터베이스의 근본적인 강점은, 거의 모든 데이터 모달리티와 애플리케이션을 수용할 수 있다는 것입니다. 벡터는 단순히 1차원 배열입니다. 이러한 “비정형” 데이터에 구조를 제공함으로써, 데이터 인프라를 통합할 수 있으며, 비용을 크게 줄일 수 있으며, 시ロ를 제거할 수 있으며, 생산성을 향상시킬 수 있으며, 보안을 강화할 수 있습니다. 한 걸음 더 나아가, 데이터 관리 인프라와 컴퓨팅 인프라를 결합하면, 데이터에서 즉시 가치를 추출할 수 있습니다.

TileDB가 데이터 관리와 분석 성능을 크게 향상시킨 주목할만한 사용 사례는 무엇입니까?

첫 번째 TileDB 사용 사례는, 전통적인 테이블 데이터베이스에서 모델링하고 저장하기가 매우 어려운, 방대한 유전체 데이터의 저장, 관리 및 분석이었습니다. 우리는 다른 데이터베이스와 맞춤형 솔루션보다 훨씬 빠른(많은 경우 100배 이상) 성능 향상을 관찰했습니다. 그러나, 우리의 다차원 배열 모델은 다른 데이터 모달리티도 효율적으로 캡처할 수 있습니다. 예를 들어, TileDB는 생물 의학 이미지, 위성 이미지, 단일 세포 전사체학 및 LiDAR 및 SONAR와 같은 포인트 클라우드 데이터를 처리하는 데 탁월합니다.

TileDB는 상호 운용성을 위한 오픈 소스 도구를 제공합니다. 오픈 소스 접근 방식은 과학 및 데이터 과학 커뮤니티에 어떻게 도움이 됩니까?

우리는 TileDB에서 오픈 소스를 강력히 지지합니다. 핵심 라이브러리와 데이터 형식 사양은 모두 오픈 소스입니다. 또한, 핵심 배열 라이브러리를 기반으로 구축된 라이프 사이언스 오퍼링도 오픈 소스입니다. 이것에는 TileDB-SOMA, 즉 효율적이고 확장 가능한 단일 세포 데이터 관리를 위한 패키지가 포함되며, Chan Zuckerberg Foundation와 협력하여 구축되었습니다. 이것은 세계에서 가장 큰 완전히 큐레이션된 단일 세포 데이터 세트인 CELLxGENE Discover Census를 구동합니다. 이것도 오픈 소스이며, 전 세계의 학술 기관과 주요 제약 회사에서 사용됩니다.

데이터 관리의 미래 트렌드는 무엇이라고 생각합니까?

데이터가 더 풍부해짐에 따라, AI 애플리케이션이 더 지능적으로 됩니다. 대형 언어 모델은 더 강력해지고 있으며, 다양한 데이터 모달리티를 활용하며, 이러한 LLM과 다양한 데이터 세트의 통합은 AI의 새로운 전선을 열어줍니다.

실제로, 멀티모달 AI는 사용자가 한 가지 입력과 한 가지 출력 유형으로 제한되지 않고, 거의 모든 입력으로 모델을 프롬프트하여 거의 모든 콘텐츠 유형을 생성할 수 있습니다. 우리는 TileDB를 멀티모달 AI를 지원하기 위한 이상적인 데이터베이스로 간주합니다. 이는 새로운 유형의 데이터가 나타날 수 있는 새로운 전방을 지원하도록 설계되었습니다.

감사합니다. 더 많은 정보를 원하는 독자는 TileDB를 방문할 수 있습니다.

์•™ํˆฌ์•ˆ์€ Unite.AI์˜ ๋น„์ „์žˆ๋Š” ๋ฆฌ๋”์ด์ž ๊ณต๋™ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, AI์™€ ๋กœ๋ด‡๊ณตํ•™์˜ ๋ฏธ๋ž˜๋ฅผ ํ˜•์„ฑํ•˜๊ณ  ์ด‰์ง„ํ•˜๋Š” ๋ฐ ๋Œ€ํ•œ ๋ถˆ๋ณ€์˜ ์—ด์ •์— ์˜ํ•ด ์ถ”๋™๋ฉ๋‹ˆ๋‹ค. ์—ฐ์‡„์ ์ธ ๊ธฐ์—…๊ฐ€๋กœ์„œ, ๊ทธ๋Š” AI๊ฐ€ ์‚ฌํšŒ์— ๋Œ€ํ•œ ์ „๊ธฐ์™€ ๊ฐ™์€ ํŒŒ๊ดด๋ ฅ์„ ๊ฐ€์งˆ ๊ฒƒ์ด๋ผ๊ณ  ๋ฏฟ์œผ๋ฉฐ, ์ข…์ข… ํŒŒ๊ดด์ ์ธ ๊ธฐ์ˆ ๊ณผ AGI์˜ ์ž ์žฌ๋ ฅ์— ๋Œ€ํ•ด ์—ด๊ด‘ํ•ฉ๋‹ˆ๋‹ค.

ไฝœไธบ futurist, ๊ทธ๋Š” ์ด๋Ÿฌํ•œ ํ˜์‹ ์ด ์šฐ๋ฆฌ์˜ ์„ธ๊ณ„๋ฅผ ์–ด๋–ป๊ฒŒ ํ˜•์„ฑํ• ์ง€ ํƒ๊ตฌํ•˜๋Š” ๋ฐ ์ „๋…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ทธ๋Š” Securities.io์˜ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, ๋ฏธ๋ž˜๋ฅผ ์žฌ์ •์˜ํ•˜๊ณ  ์ „์ฒด ๋ถ€๋ฌธ์„ ์žฌํ˜•์„ฑํ•˜๋Š” ์ตœ์ฒจ๋‹จ ๊ธฐ์ˆ ์— ํˆฌ์žํ•˜๋Š” ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.