مقابلات

د. ستافروس بابادوبولوس، المؤسس والرئيس التنفيذي لشركة TileDB – سلسلة المقابلات

mm

TileDB هو قاعدة البيانات الحديثة التي تدمج جميع أنماط البيانات والرمز البرمجي والحوسبة في منتج واحد. TileDB تم استخلاصها من معهد ماساتشوستس للتكنولوجيا ومختبرات إنتل في مايو 2017.

قبل تأسيس TileDB، Inc. في فبراير 2017، كان د. ستافروس بابادوبولوس عالمًا بحثيًا أول في مختبر إنتل للكمبيوتر المتوازي، وعضوًا في مركز إنتل للعلوم والتكنولوجيا للبيانات الكبيرة في معهد ماساتشوستس للتكنولوجيا CSAIL لمدة ثلاث سنوات. كما قضى حوالي عامين كأستاذ مساعد زائر في قسم علوم و هندسة الحاسوب في جامعة هونغ كونغ للعلوم والتكنولوجيا (HKUST). تلقى ستافروس درجة الدكتوراه في علوم الحاسوب في HKUST تحت إشراف الأستاذ ديمتريس بابادياس، وشغل منصب زميل ما بعد الدكتوراه في جامعة هونغ كونغ الصينية مع الأستاذ يوفي تاو.

كنت مسبقًا عالمًا بحثيًا أول في مختبر إنتل للكمبيوتر المتوازي، وعضوًا في مركز إنتل للعلوم والتكنولوجيا (ISTC) للبيانات الكبيرة في معهد ماساتشوستس للتكنولوجيا CSAIL لمدة ثلاث سنوات. هل يمكنك مشاركة بعض النقاط الرئيسية من هذه الفترة في حياتك؟

خلال فترتي في مختبرات إنتل ومعهد ماساتشوستس للتكنولوجيا، كان لدي فرصة فريدة للتعاون مع شخصيات بارزة في قطاعين علميين مختلفين: الحوسبة عالية الأداء (في إنتل) وقواعد البيانات (في معهد ماساتشوستس للتكنولوجيا). المعرفة والخبرة التي اكتسبتها أصبحت حاسمة في تشكيل رؤيتي لإنشاء نظام قاعدة بيانات جديد، الذي قمت ببنائه في النهاية كمشروع بحثي داخل ISTC وتم استخلاصه إلى ما أصبح TileDB.

هل يمكنك شرح الرؤية وراء TileDB وكيف تهدف إلى ثورة المناظر الطبيعية لقواعد البيانات الحديثة؟

خلال السنوات القليلة الماضية، كان هناك ارتفاع كبير في تطبيقات التعلم الآلي والذكاء الاصطناعي التوليدي التي تساعد المنظمات على اتخاذ قرارات أفضل. كل يوم، تكتشف المنظمات أنماطًا جديدة في بياناتها، ثم تستخدم هذه المعلومات لتحقيق ميزة تنافسية. هذه الأنماط تنشأ من طيف متزايد من أنماط البيانات التي يجب إيواؤها وإدارتها من أجل استغلالها. من البيانات التقليدية إلى مصادر البيانات الأكثر تعقيدًا مثل المنشورات الاجتماعية والبريد الإلكتروني والصور والفيديو وبيانات المستشعرات، فإن استخلاص المعنى من البيانات يتطلب تحليلًا مجتمعيًا. مع زيادة أنواع البيانات، يصبح هذا المهم أكثر صعوبة، ويتطلب قاعدة بيانات جديدة. هذا هو السبب في إنشاء TileDB.

لماذا من المهم للمنظمات أن تprioritize بنية تحتية البيانات قبل تطوير القدرات التحليلية المتقدمة وتعلم الآلة؟

في meio إلى الحماس لاعتماد الذكاء الاصطناعي، هناك حقيقة حرجة ومهملة غالبًا – نجاح أي مبادرة ذكاء اصطناعي يرتبط بشكل جوهري بأداء بنية تحتية البيانات.

المشكلة هي أن البيانات المعقدة التي لا تمثل بشكل طبيعي كجداول تعتبر “غير منظمات”، وتخزّن عادة كملفات مسطحة في تنسيقات بيانات مخصصة، أو تُدار بواسطة قواعد بيانات منفصلة ومخصصة. يقضي علماء البيانات وقتًا كبيرًا في تحويل البيانات من أجل توحيدها. يُقدّر أن 80-90 في المائة من وقت علماء البيانات يُقضى في تنظيف بياناتهم وتهيئتها للدمج. هذا يبطئ وقت تدريب خوارزميات تعلم الآلة وبلوغ القدرات التنبؤية. بالإضافة إلى ذلك، هذا يعني أن 10-20 في المائة فقط من وقت علماء البيانات يُقضى في إنشاء رؤى.

ما هي العواقب الشائعة التي تواجهها المنظمات عندما تركز أكثر على تطبيقات الذكاء الاصطناعي والتعلم الآلي على حساب بنية تحتية قاعدة بيانات قوية؟

المنظمات تميل إلى التركيز على الأشياء الجديدة. النماذج اللغة الكبيرة، وقواعد البيانات المتجهة، وتطبيقات الذكاء الاصطناعي التوليدي التي بنيت على قاعدة بيانات هي أمثلة حالية، على حساب معالجة بنية تحتية البيانات التي هي حاسمة لنجاح التحليلات.

هل يمكنك توضيح ما يجعل قاعدة البيانات “متكيفة” ولماذا هذه المرونة ضرورية للتحليلات الحديثة للبيانات؟

قاعدة البيانات المتكيفة هي تلك التي يمكن أن تتغير لاستيعاب جميع البيانات – بغض النظر عن نمطها – وتخزينها معًا بطريقة موحدة. قاعدة البيانات المتكيفة تجلب هيكلاً للبيانات التي تعتبر “غير منظمات”. يُقدّر أن 80 في المائة أو أكثر من بيانات العالم ليست جداولية، أو غير منظمات، وأغلب نماذج الذكاء الاصطناعي والتعلم الآلي (بما في ذلك LLMs) يتم تدريبها على هذا النوع من البيانات.

TileDB يهيكل البيانات في مصفوفات متعددة الأبعاد. كيف يحسن هذا الشكل الأداء والكفاءة التكلفة مقارنة بقواعد البيانات التقليدية؟

القوة الأساسية لقاعدة بيانات مصفوفة متعددة الأبعاد هي أنها يمكن أن تتغير لاستيعاب أي نمط بيانات وتطبيق عملي. على سبيل المثال، متجه هو مجرد مصفوفة ذات بعد واحد. من خلال إحضار هيكل إلى هذه “البيانات غير المنظمة”، يمكنك توحيد بنية تحتية البيانات، وتقليل التكاليف بشكل كبير، وإزالة الحواصل، وزيادة الإنتاجية، وتعزيز الأمان. بالإضافة إلى ذلك، عندما يتم ربط البنية التحتية للحوسبة ببنية إدارة البيانات، يمكنك استخراج قيمة فورية من بياناتك.

ما هي بعض الحالات المهمة التي تحسنت فيها TileDB بشكل كبير أداء إدارة البيانات والتحليلات؟

كان أول استخدام لTileDB هو تخزين وإدارة وتحليل بيانات جينومية ضخمة، والتي من الصعب والمكلفة نمذجتها وتخزينها في قاعدة بيانات جداولية تقليدية. لقد观察نا مكاسب أداء كبيرة (في حدود 100 ضعف أسرع في العديد من الحالات مقارنة بقواعد البيانات والحلول المخصصة الأخرى). ومع ذلك، فإن نموذج المصفوفة المتعددة الأبعاد لدينا هو عالمي ويمكنه استيعاب أنماط بيانات أخرى بكفاءة. على سبيل المثال، TileDB ممتاز في التعامل مع التصوير البيولوجي والتصوير بالأقمار الصناعية وترنسكريبتوميا الخلايا المفردة وبيانات السحابة النقطية مثل LiDAR وSONAR.

TileDB يقدم أدوات مفتوحة المصدر للتشغيل البيني. كيف يستفيد نهج مفتوح المصدر المجتمع العلمي ومجتمع علوم البيانات؟

نحن من المؤمنين بالغالبية بأدوات مفتوحة المصدر في TileDB. المكتبة الأساسية ومواصفات تنسيق البيانات مفتوحتان المصدر. بالإضافة إلى ذلك، تقدماتنا في علوم الحياة، التي بنيت على مكتبة المصفوفة الأساسية، مفتوحة المصدر أيضًا. تشمل هذه TileDB-SOMA، وهو حزمة لادارة بيانات الخلايا المفردة بكفاءة ومقياس، والتي تم بناؤها بالتعاون مع مؤسسة تشان زوكربرغ وتمويلها، وقدرتها على Census— أكبر مجموعة بيانات الخلايا المفردة الكاملة والمحفوظة في العالم. هذا أيضًا مفتوح المصدر ويستخدمه المؤسسات الأكاديمية والشركات الصيدلانية الكبيرة في جميع أنحاء العالم.

ما هي الاتجاهات المستقبلية التي ترى أنها سائدة في إدارة البيانات؟

随着 تعقد البيانات، تصبح تطبيقات الذكاء الاصطناعي أكثر ذكاءً. النماذج اللغة الكبيرة تصبح أكثر قوة، وتستخدم أنماط بيانات متعددة، وتكامل هذه النماذج مع مجموعات بيانات متنوعة يفتح горизонтًا جديدًا في الذكاء الاصطناعي يسمى الذكاء الاصطناعي متعدد الأنماط.

عمليًا، يعني الذكاء الاصطناعي متعدد الأنماط أن المستخدمين ليسوا مقيدون بنوع إدخال واحد وخرج واحد، ويمكنهم تشغيل نموذجًا بأي إدخال تقريبًا لإنشاء أي نوع من المحتوى. نرى TileDB كقاعدة بيانات مثالية لدعم الذكاء الاصطناعي متعدد الأنماط، مبنية لدعم أي أنواع بيانات جديدة ومختلفة قد تظهر.

شكرًا على المراجعة الرائعة، القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا TileDB.

أنطوان هو قائد رؤيوي وشريك مؤسس في Unite.AI، مدفوعًا برغبة لا تكل في تشكيل وتعزيز مستقبل الذكاء الاصطناعي والروبوتات. وهو رائد أعمال متسلسل، يعتقد أن الذكاء الاصطناعي سيكون مدمرًا للمجتمع مثل الكهرباء، وغالبًا ما يُقبض عليه وهو يثرثر عن إمكانات التكنولوجيات المدمرة والذكاء الاصطناعي العام.

كما أنه مستقبلي، فهو يلتزم بفحص كيف ستشكل هذه الابتكارات العالم. بالإضافة إلى ذلك، فهو مؤسس Securities.io، وهي منصة تركز على الاستثمار في التكنولوجيات المتقدمة التي تعيد تعريف المستقبل وتهيئ القطاعات بأكملها.