साक्षात्कार

अवि बाउम, सीटीओ एट हैलो – साक्षात्कार श्रृंखला

Published August 18, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

अवि बाउम, हैलो में सीटीओ, कंपनी के प्रौद्योगिकी दृष्टि और उत्पाद नवाचार का नेतृत्व करते हैं। उन्होंने पहले टेक्सास इंस्ट्रूमेंट्स में वायरलेस कनेक्टिविटी के लिए सीटीओ के रूप में कार्य किया, जिसमें आईओटी और आईआईओटी बाजारों में जुड़े एमसीयू के लिए रणनीतियों को चलाया, और इज़राइल डिफेंस फोर्सेज में वरिष्ठ वास्तुकला और नेतृत्व भूमिकाएं निभाईं।

हैलो एक इस्राइली एआई-चिप कंपनी है जो स्वायत्त वाहनों, स्मार्ट कैमरों, और रोबोटिक्स जैसे अनुप्रयोगों के लिए उच्च-प्रदर्शन, निम्न-शक्ति एज एआई प्रोसेसर में विशेषज्ञता रखती है, जो एक व्यापक सॉफ्टवेयर सूट और वैश्विक भागीदार पारिस्थितिकी तंत्र द्वारा समर्थित है।

क्या आप बता सकते हैं कि आपको पहली बार एज एआई के क्षेत्र में क्या आकर्षित किया और आपके शुरुआती इंजीनियरिंग अनुभवों ने प्रोसेसर डिजाइन के बारे में आपकी सोच को कैसे आकार दिया?

मेरा करियर मुझे उभरते बाजारों के क्षेत्र में ले गया। टीआई (टेक्सास इंस्ट्रूमेंट्स) में, एक सेमीकंडक्टर नेता जिसकी एक लंबी विरासत है, मुझे सिस्टम-स्तरीय डिजाइन और वास्तुकला का नेतृत्व करने का अवसर मिला, जिसमें उत्पाद परिभाषा विभाग का नेतृत्व किया और बाद में इस विभाग के सीटीओ के रूप में कार्य किया। यह मुझे लगातार आगामी प्रौद्योगिकियों का अन्वेषण करने के लिए प्रेरित करता था जो ‘नहीं-बहुत-दूर’ भविष्य को आकार देने की संभावना रखते थे।

जब हमने 2017 में हैलो की स्थापना की, तो यह स्पष्ट था कि एआई, जो क्लाउड में पनप रहा था, एज डिवाइसेस के लिए भी एक सक्षम प्रौद्योगिकी बन सकता है। इसलिए, हमने इस यात्रा की शुरुआत की।

जैसे ही एज पर जनरेटिव एआई विस्तारित होता है, टॉप्स—टेरा ऑपरेशन्स प्रति सेकंड—प्रोसेसर प्रदर्शन का मूल्यांकन करने के लिए अब पर्याप्त बेंचमार्क क्यों नहीं है?

टॉप्स लंबे समय से एआई हार्डवेयर के मूल्यांकन के लिए जाना जाता है, लेकिन एज पर जनरेटिव एआई के युग में, यह अब पर्याप्त नहीं है। पारंपरिक मॉडल्स का स्वभाव बहुत सारे डेटा को अर्थपूर्ण अंतर्दृष्टि में अनुवाद करना है, इसलिए डेटा को संसाधित करने के लिए आवश्यक कम्प्यूट की मात्रा डेटा की मात्रा के साथ बढ़ती है जिसे संसाधित किया जाना है। इन कार्यों के लिए मॉडल्स आमतौर पर डेटा की मात्रा की तुलना में छोटे होते हैं जिसे वे संसाधित करते हैं, जिससे मॉडल पैरामीटर्स तक पहुंचने के लिए ओवरहेड बैंडविथ अप्रासंगिक हो जाती है।

जनरेटिव मॉडल्स, हालांकि, उल्लेखनीय रूप से बड़े हैं – अरबों-पैरामीटर्स डोमेन में, और इन मामलों में, मेमोरी बैंडविथ एक गैर-नगण्य कारक बन जाती है।

टॉप्स पर अकेले ध्यान केंद्रित करने के बजाय, यह महत्वपूर्ण है कि प्रोसेसर वास्तविक दुनिया की स्थितियों में कम्प्यूट और मेमोरी को कैसे संतुलित करता है। यह उच्चतम संख्या का पीछा करने के बारे में नहीं है; यह वास्तुकला को आवश्यक कार्यभार को संभालने के लिए ट्यून करने के बारे में है।

एज एआई वर्कलोड्स में, विशेष रूप से एलएलएम और वीएलएम के लिए, मेमोरी बैंडविथ अब कम्प्यूट की तुलना में एक अधिक महत्वपूर्ण बोतलनेक क्यों बन रही है?

एज एआई वर्कलोड्स के लिए, विशेष रूप से एलएलएम या वीएलएम जैसे मॉडल्स के साथ, मेमोरी बैंडविथ तेजी से प्राथमिक बोतलनेक बन रही है। ये मॉडल्स आमतौर पर 0.5 से 8 अरब पैरामीटर्स के बीच होते हैं, जो ऑन-चिप मेमोरी की क्षमता से अधिक होते हैं और ऑफ-चिप मेमोरी जैसे डीआरएएम तक पहुंच की आवश्यकता होती है। यह मेमोरी बैंडविथ पर मांग में नाटकीय रूप से वृद्धि करता है। उदाहरण के लिए, 1बी पैरामीटर मॉडल ~40 टोकन प्रति सेकंड तक प्रदान कर सकता है जब ऑप्टिमल स्थितियों में एक मानक एलपीडीडीआर4एक्स इंटरफेस के साथ, लेकिन 4बी मॉडल के साथ उसी दर को बनाए रखने के लिए चार गुना बैंडविथ की आवश्यकता होती है। इसके बिना, प्रदर्शन प्रभावित होता है, न कि सीमित कम्प्यूट के कारण, बल्कि प्रोसेसर डेटा को पर्याप्त तेजी से खिलाने में असमर्थ होने के कारण। कम्प्यूट और मेमोरी के बीच यह असंतुलन एज पर जनरेटिव एआई को तैनात करने में सबसे दबाव वाली चुनौतियों में से एक है। यह लेयर द्वारा लेयर द्वारा कम्प्यूट करने वाले आर्किटेक्चर में और भी बढ़ जाता है, जहां मध्यवर्ती परिणाम भी मेमोरी ट्रैफिक को बढ़ाते हैं और बैंडविथ पर और भी दबाव डालते हैं।

वास्तविक दुनिया के एज अनुप्रयोगों के लिए डिजाइन करते समय बेंचमार्किंग रणनीति को कैसे फिर से सोचें?

उत्पाद टीमों को एकल प्रदर्शन मेट्रिक जैसे टॉप्स पर निर्भर रहने से दूर जाना चाहिए और इसके बजाय एक बेंचमार्किंग रणनीति को अपनाना चाहिए जो एज तैनाती की वास्तविकताओं को प्रतिबिंबित करता है। यह विशिष्ट उपयोग केस को समझने से, प्रोसेसर को संभालने वाले वास्तविक कार्यभार को पहचानने से, और “कार्य बिंदु” की पहचान करने से शुरू होता है: शक्ति, लागत, और विलंबता प्रतिबंधों का संगम। वहां से, यह कम्प्यूट और मेमोरी के बीच कैसे बातचीत करते हैं इसका मूल्यांकन करने के बारे में है। एक प्रोसेसर जिसमें उच्च टॉप्स है, वह डिलीवर नहीं करेगा यदि मेमोरी बैंडविथ सीमित है, और अधिक मेमोरी मदद नहीं करेगी यदि कम्प्यूट क्षमता पर्याप्त नहीं है।

टीमों को यह मूल्यांकन करना चाहिए कि क्या प्रोसेसर धारणा, सुधार, और जनरेटिव कार्यभार जैसे कार्यों में प्रदर्शन बनाए रख सकता है, प्रत्येक की अपनी विशिष्ट मांग है। लक्ष्य पीक स्पेक्स के लिए अनुकूलन नहीं है, बल्कि वास्तविक दुनिया के परिदृश्यों में अपेक्षित उपयोग के मामलों के पूरे सेट में संतुलित प्रदर्शन सुनिश्चित करना है।

यह ‘स्टेराइल’ उपायों से अधिक जटिल दृष्टिकोणों में एक प्राकृतिक परिवर्तन है जो मंचों के उपयोग और उनकी रेटिंग को दर्शाता है – अन्य वास्तुकला के साथ हुआ है जो मुख्यधारा बन गई है (जैसे कि एसपीईसी, कोरमार्क, 3डीएमार्क, आदि)।

हैलो प्रोसेसर्स के पीछे वास्तुकला निर्णयों पर शक्ति और लागत प्रतिबंधों का क्या प्रभाव पड़ता है, विशेष रूप से उपभोक्ता-सामने के एज डिवाइसेस के लिए?

शक्ति और लागत एज डिवाइसेस के लिए एआई प्रोसेसर डिजाइन करते समय दो सबसे परिभाषित प्रतिबंध हैं, विशेष रूप से उपभोक्ता-सामने के उत्पादों में। कॉम्पैक्ट डिवाइसेस जैसे आईओटी सेंसर या स्मार्ट होम असिस्टेंट में, शक्ति बजट कसे हुए हैं, और अक्सर कोई सक्रिय शीतलन नहीं है, इसलिए ऊर्जा दक्षता महत्वपूर्ण हो जाती है। प्रत्येक अतिरिक्त कम्प्यूट या मेमोरी संसाधन जोड़ने से शक्ति खींच और गर्मी बढ़ जाती है, जो सीधे उपयोगिता और बैटरी जीवन को प्रभावित करती है।

लागत समान रूप से प्रभावशाली है। उपभोक्ता डिवाइसेस को प्रतिस्पर्धी मूल्य बिंदुओं के भीतर रहना होगा, जिसका अर्थ है कि प्रोसेसर में केवल इतने टॉप्स और मेमोरी शामिल की जा सकती है इससे पहले कि यह आर्थिक रूप से अव्यावहारिक हो जाए। ये प्रतिबंध कठिन वास्तुकला व्यापार-बंद को मजबूर करते हैं। हैलो में, हम डिजाइनों पर जोर देते हैं जो वास्तविक दुनिया के अनुप्रयोगों की जरूरतों को पूरा करने के लिए कम्प्यूट और मेमोरी का सही संतुलन प्रदान करते हैं, सुनिश्चित करते हुए कि एज एआई व्यावहारिक, कुशल और विभिन्न उपभोक्ता उत्पादों में विस्तारित हो सके।

क्या आप बता सकते हैं कि आप एक अनुप्रयोग के लिए एक “कार्य बिंदु” को कैसे परिभाषित करते हैं और यह एज एआई तैनाती में इतना महत्वपूर्ण क्यों है?

एक “कार्य बिंदु” को परिभाषित करना डिजाइन करने के लिए सबसे महत्वपूर्ण चरणों में से एक है। यह शक्ति, लागत, और विलंबता प्रतिबंधों के संगम को संदर्भित करता है जो एक विशिष्ट तैनाती में क्या वास्तविक रूप से प्राप्त किया जा सकता है। क्लाउड के विपरीत, जहां आप एक समस्या पर अधिक कम्प्यूट या मेमोरी फेंक सकते हैं, एज डिवाइसेस एक निश्चित परिधि के भीतर काम करते हैं। इसका मतलब है कि आपको अनुप्रयोग की वास्तविक आवश्यकताओं के आधार पर जानबूझकर व्यापार-बंद करने होंगे। उदाहरण के लिए, एक आईओटी सेंसर ऊर्जा दक्षता पर रॉ प्रदर्शन की तुलना में प्राथमिकता दे सकता है, जबकि एक स्वायत्त प्रणाली अल्ट्रा-निम्न विलंबता की मांग कर सकती है, शक्ति खींच की परवाह किए बिना। एक बार कार्य बिंदु स्थापित हो जाने के बाद, आप मूल्यांकन कर सकते हैं कि क्या प्रोसेसर में आवश्यक जरूरतों को पूरा करने के लिए कम्प्यूट और मेमोरी का सही संतुलन है। यह सभी दिशाओं में स्पेक्स को अधिकतम करने के बारे में नहीं है; यह वास्तविक दुनिया की स्थितियों में स्थिर, विश्वसनीय प्रदर्शन सुनिश्चित करने के बारे में है।

सामान्य तौर पर, कार्य बिंदु वह है जहां आप मुख्य प्रदर्शन संकेतकों को उनके उच्चतम स्तर पर रखना चाहते हैं। ऐसा नहीं करने से उपोत्पादक संचालन हो सकता है सबसे आम उपयोग परिदृश्यों में प्लेटफ़ॉर्म के लिए।

एक सरल उदाहरण के रूप में, कोई एक एआई विश्लेषण प्रणाली को बहुत उच्च रिज़ॉल्यूशन पर अत्यधिक कुशल बना सकता है, लेकिन यदि यह प्रणाली ऐसे सिस्टम में तैनात की जाती है जो कभी भी इस रिज़ॉल्यूशन तक नहीं पहुंचती है, तो यह अनुकूलन अर्थहीन है।

वीडियो, ऑडियो, और भाषा के साथ आधुनिक डिवाइसेस में अक्सर मिश्रित होते हैं, तो आप मल्टीमॉडल मॉडल्स के प्रति अनुकूलन कैसे दृष्टिकोण करते हैं?

मल्टीमॉडल मॉडल्स के लिए कम्प्यूट और मेमोरी संसाधनों का सावधानीपूर्वक संतुलन आवश्यक है। प्रत्येक मॉडल प्रणाली पर अलग तरह से दबाव डालता है: वीडियो कम्प्यूट-गहन होता है क्योंकि उच्च रिज़ॉल्यूशन और फ्रेम दरें होती हैं, जबकि भाषा और ऑडियो अधिक कॉम्पैक्ट होते हैं लेकिन मेमोरी बैंडविथ पर भारी दबाव डालते हैं। दृष्टि-भाषा प्रसंस्करण जैसे अनुप्रयोगों में, यह विभाजन स्पष्ट हो जाता है (हालांकि यह एक गारंटी नहीं है, बल्कि एक विशिष्ट परिदृश्य है): वीडियो प्रसंस्करण कम्प्यूट को बढ़ावा देता है, जबकि भाषा मॉडल जल्दी से मेमोरी बोतलनेक मारा जा सकता है।

हम पाइपलाइन में इन कार्यभारों के बीच कैसे बातचीत होती है और सुनिश्चित करते हैं कि प्रोसेसर एक साथ समर्थन करने के लिए वास्तुकला किया गया है, एक मॉडल के प्रदर्शन को दूसरे की कीमत पर समझौता किए बिना।

एज पर मॉडल का आकार बढ़ना विलंबता और शक्ति की खपत को कैसे जटिल बनाता है, और सिस्टम-स्तरीय वास्तुकला इस समस्या को हल करने में क्या भूमिका निभाती है?

एज पर मॉडल का आकार बढ़ने से विलंबता और शक्ति की खपत को प्रबंधित करना मुश्किल हो जाता है। बड़े मॉडल्स ऑफ-चिप मेमोरी पर अधिक निर्भर करते हैं, जो ऊर्जा की खपत और विलंबता दोनों को बढ़ाते हैं, विशेष रूप से जब मेमोरी बैंडविथ एक बोतलनेक बन जाती है। उदाहरण के लिए, 1बी से 4बी पैरामीटर मॉडल तक स्केलिंग करने से प्रदर्शन को बनाए रखने के लिए चार गुना बैंडविथ की आवश्यकता होगी – लेकिन व्यवहार में, प्रदर्शन बैंडविथ और सिस्टम-स्तरीय प्रतिबंधों के कारण रैखिक रूप से नहीं बढ़ता है।

यह केवल उच्च टॉप्स या बड़ी मेमोरी होने के बारे में नहीं है; यह उन घटकों के बीच कैसे बातचीत होती है। एक संतुलित डिजाइन सुनिश्चित करता है कि कम्प्यूट, मेमोरी और बैंडविथ एक दूसरे के साथ कुशलता से काम करते हैं, एक संसाधन को पूरे सिस्टम को सीमित करने से रोकते हैं।

हैलो कैसे भविष्य के लिए तैयार करता है – देखते हुए कि एआई मॉडल, कार्यभार, और तैनाती आवश्यकताएं कितनी तेजी से विकसित हो रही हैं?

एज एआई में भविष्य के लिए तैयार करने का अर्थ है प्रोसेसर डिजाइन करना जो विभिन्न प्रकार के विकसित हो रहे कार्यभार को संभाल सकते हैं। हैलो में, हम संतुलित वास्तुकला पर ध्यान केंद्रित करते हैं जो केवल एक कार्य के लिए नहीं बनाए गए हैं, बल्कि दृष्टि कार्यों जैसे वस्तु का पता लगाने से लेकर जनरेटिव मॉडल्स जैसे वीएलएम तक सब कुछ समर्थन कर सकते हैं। प्रत्येक प्रकार का कार्यभार कम्प्यूट और मेमोरी पर अलग तरह से दबाव डालता है, इसलिए हम लचीलेपन के लिए डिजाइन करते हैं, बोतलनेक से बचते हैं जब उन्हें स्विच किया जाता है। हम वास्तविक दुनिया की सीमाओं को भी ध्यान में रखते हैं – शक्ति, लागत, और विलंबता प्रतिबंधों को ध्यान में रखते हुए। कार्यभार विविधता और संसाधन संतुलन को प्राथमिकता देकर, हम उपभोक्ता और औद्योगिक उपयोग के मामलों में अगली पीढ़ी के एज एआई तैनाती का समर्थन करना लक्षित करते हैं।

हालांकि, एक आकार सभी के लिए फिट नहीं हो सकता है, और पोर्टफोलियो कertain पते योग्य अनुप्रयोगों को लक्षित करता है और उपलब्ध बजट के भीतर फिट करने का प्रयास करता है, जैसे कि शक्ति, फॉर्म फैक्टर, और यह एक ‘कार्य बिंदु’ को परिभाषित करता है।

विकासकर्ता पारिस्थितिकी तंत्र एआई प्रोसेसर के मूल्य को अधिकतम करने में क्या भूमिका निभाता है, और आप हैलो की क्षमताओं का पूरा उपयोग करने के लिए टीमों को कैसे सुनिश्चित करते हैं?

एक प्रोग्रामयोग्य डिवाइस के रूप में, यह आवश्यक है कि डेवलपर्स के पास प्रोसेसर की क्षमता का प्रयोग करने के लिए आसान उपकरण हों, तैनाती के मार्ग को छोटा करें, और नए उपयोग के मामलों को सक्षम करें। हमारे प्रोसेसर के चारों ओर एक अच्छी तरह से समर्थित वातावरण प्रदान करके, हम टीमों को विभिन्न उपयोग के मामलों में एआई अनुप्रयोगों को जीवन में लाने में मदद करते हैं।

आप उन इंजीनियरों या सीटीओ को क्या सलाह देंगे जो आज एक अगली-पीढ़ी के उत्पाद के लिए अपना पहला एआई एक्सेलरेटर चुन रहे हैं?

परिपक्व परिस्थितियों के साथ, मुझे लगता है कि बहुत सारे नवाचार की संभावना है, जो हमें कल्पना को वास्तविक उत्पादों में अनुवाद करने की अनुमति देती है। एक तेजी से बदलते वातावरण में, एक एक्सेलरेटर चुनना जो एक तेज़ कॉन्सेप्ट-टू-तैनाती चक्र को सक्षम बनाता है, महत्वपूर्ण है।

साक्षात्कार के लिए धन्यवाद, पाठक जो अधिक जानना चाहते हैं उन्हें हैलो पर जाना चाहिए।

Unite.AI

अवि बाउम, सीटीओ एट हैलो – साक्षात्कार श्रृंखला

You may like