рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░
рд╕реИрдо рд╕реНрдЯреЛрди, рдкреАрдПрдо, рдУрдкрдирдбреЛрд░ рдореЗрдВ рдкреНрд░рд╛рдЗрд╕рд┐рдВрдЧ – рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░ рд╢реНрд░реГрдВрдЦрд▓рд╛

सैम वित्त और मशीन लर्निंग के इंटरसेक्शन पर उत्पादों को बनाने के लिए उत्साहित हैं। वह वर्तमान में ओपनडोर में प्राइसिंग ग्रुप के लिए उत्पाद के प्रमुख हैं, जो एक लेट-स्टेज स्टार्टअप है जो घरों को तुरंत खरीदने और बेचने के लिए एल्गोरिदम का उपयोग करता है, जिससे घर मालिकों को घर को सूचीबद्ध करने और होस्ट करने की परेशानी और अनिश्चितता से बचाया जा सकता है।
आपको मशीन लर्निंग और डेटा साइंस में शुरू में क्या आकर्षित किया?
कॉलेज के बाद, मैंने एक बड़े पेशेवर सेवा फर्म के लिए काम किया जिसने सैकड़ों कॉलेज ग्रेजुएट्स को एक ही प्रवेश स्तर की स्थिति में नियुक्त किया। जैसे ही मैं भर्ती में शामिल हुआ, मुझे यह देखकर आश्चर्य और निराशा हुई कि फर्म के भीतर लोगों की राय कितनी भिन्न थी कि कौन से उम्मीदवार विशेषताएं सफलता की ओर ले जाती हैं। यह एक वास्तविक समस्या की तरह लगा, जहां स्पष्टता की कमी थी। लेकिन मुझे यह तथ्य उत्साहित किया कि हमारे पास पिछले नौकरी आवेदकों और नए भर्ती परिणामों पर पर्याप्त डेटा था जो कभी जुड़ा या गहराई से विश्लेषित नहीं किया गया था। तो मैंने इस पर काम करना शुरू किया, इसे एक सांख्यिकीय समस्या के रूप में मानते हुए, बुनियादी उपकरणों जैसे रेखीय प्रतिगमन का उपयोग किया। समय के साथ, परियोजना एक स्टार्टअप में विकसित हुई, और हमने जिन विधियों का उपयोग किया उनमें अधिक जटिल मशीन लर्निंग मॉडल जैसे न्यूरल नेटवर्क शामिल थे।
क्या आप ओपनडोर के स्वचालित मूल्यांकन मॉडल (ओवीएम) पर चर्चा कर सकते हैं, और यह कैसे एक संपत्ति के अनुमानित मूल्य की गणना करता है?
ओपनडोर वैल्यूएशन मॉडल (ओवीएम) हमारे व्यवसाय का एक मूलभूत टुकड़ा है और कई डाउनस्ट्रीम मूल्य निर्धारण अनुप्रयोगों में खिलाता है।
कई मायनों में, ओवीएम एक典型 खरीदार या विक्रेता की तरह व्यवहार करता है – यह एक पड़ोस में देखता है, हाल ही में बेचे गए घरों के प्रकार और कीमतों सहित। हालांकि, घरों को मूल्य निर्धारण करने के लिए, विशेष रूप से संयुक्त राज्य अमेरिका में घरों की विविधता को देखते हुए, केवल तुलनात्मक बिक्री की कीमतों पर देखना पर्याप्त नहीं है। यह बहुत अधिक जटिल है। हम विभिन्न कारकों पर विचार करते हैं, जिनमें वर्ग फुटेज और पिछवाड़े की जगह से लेकर स्नानघर और बेडरूम की संख्या, लेआउट, व्यस्त सड़कों, अपग्रेड और अधिक शामिल हैं। ओवीएम को कई डेटा स्रोतों से खिलाया जाता है, जिसमें संपत्ति कर जानकारी, बाजार के रुझान以及 कई घर और पड़ोस विशिष्ट संकेत शामिल हैं। हम पिछले मानव समायोजन की भी तलाश करते हैं ताकि हम घरों के लिए औसत समायोजन मूल्य की गणना कर सकें। और हम इन मूल्यों को पैमाने पर परिष्कृत कर सकते हैं। जैसे ही हम बाजारों के लिए मानव समायोजन डेटा एकत्र करते हैं, डेटा सेट बढ़ता है और ओवीएम के प्रदर्शन में सुधार होता है। यह एक फीडबैक लूप है जो लगातार समय के साथ प्रदर्शन में सुधार करता है।
इसके अलावा उच्च सटीकता के साथ, इसके पास कम विलंबता और उच्च कवरेज के साथ चलना होगा। इसका मतलब है कि जब हम किसी नए बाजार में प्रवेश करते हैं, तो हमें ओवीएम की क्षमताओं का विस्तार करने की आवश्यकता है ताकि यह घर मालिकों को पड़ोस और घर के प्रकार के पार कर सके।
कुछ अलग मशीन लर्निंग विधियों का उपयोग किया जाता है?
जब हम ओवीएम का निर्माण शुरू किया, तो हम मुख्य रूप से हमारे खरीदारों और विक्रेताओं के निर्णय लेने की प्रक्रिया को बेहतर ढंग से समझने के लिए रेखीय सांख्यिकीय मॉडल पर निर्भर थे। लेकिन समय के साथ, ओवीएम विकसित हुआ और अब एक न्यूरल नेटवर्क पर आधारित है, विशेष रूप से एक सियामीज़ नेटवर्क आर्किटेक्चर। हम इसका उपयोग खरीदारों और विक्रेताओं के व्यवहार को एम्बेड करने के लिए करते हैं, जिसमें तुलनात्मक घरों का चयन, समायोजन और वजन शामिल है। यह महत्वपूर्ण है क्योंकि हमने पाया है कि उच्च सटीकता प्राप्त करने के लिए, मॉडल को इन महत्वपूर्ण चरणों को प्रतिबिंबित करने की आवश्यकता है जो बाजार के प्रतिभागी अपने निर्णय लेने की प्रक्रिया में अपनाते हैं।
न्यूरल नेटवर्क का उपयोग करने के कई लाभों में से एक यह है कि यह सभी बाजारों में डेटा को पचाने और स्थानीय सूक्ष्म न्यूज़ का पता लगाने के लिए पर्याप्त सटीकता और लचीलापन है। परिणामस्वरूप, जब ओपनडोर एक नए बाजार में लॉन्च होता है या एक मौजूदा बाजार में इन्वेंट्री का विस्तार करता है, तो हम उसी मॉडल का उपयोग कर सकते हैं, जो इंजीनियरों द्वारा एक नए उत्पादन मॉडल को तैनात करने से जुड़े इंजीनियरिंग इंफ्रास्ट्रक्चर कार्य को दरकिनार कर देता है। इसके बजाय, हम नए डेटा को मौजूदा मॉडल के माध्यम से चलाते हैं, जो इस प्रक्रिया पर हमारे इंजीनियरों द्वारा बिताए गए समय को काफी कम कर देता है।
ओपनडोर में न्यूरल नेटवर्क के अलावा कई अन्य मशीन लर्निंग विधियों का भी उपयोग किया जाता है। इसमें निर्णय पेड़, क्लस्टरिंग तकनीक, रैंकिंग सिस्टम और अनुकूलन एल्गोरिदम शामिल हैं, लेकिन यह सीमित नहीं है।
ओपनडोर पर निर्भर होने वाला डेटा कहां से एकत्र किया जाता है?
हमारे एल्गोरिदम द्वारा सबसे मूल्यवान पाया जाने वाला डेटा अक्सर सबसे कठिन डेटा होता है। यह डेटा है जिसे हम स्वयं उत्पन्न करते हैं या प्रोप्राइटरी संबंधों के माध्यम से विकसित करते हैं। हम घरों की विशिष्टता को इंगित करने वाली विशेषताओं के साथ-साथ सूचीबद्ध डेटा बिंदुओं का एक संयोजन का उपयोग करते हैं, जैसे कि बिक्री तिथि, बेडरूम और बाथरूम की संख्या, वर्ग फुटेज और अधिक। इसके अलावा, हम उन विशेषताओं पर विचार करते हैं जो घरों की विशिष्टता को इंगित करती हैं, जो केवल मानव विशेषज्ञता प्रदान कर सकती हैं, जैसे कि प्रकाश, सड़क शोर, उपकरणों और फिनिशिंग की गुणवत्ता और बहुत कुछ। हम उन घरों से डेटा एकत्र करते हैं जो पहले से ही बाजार में हैं, साथ ही उन घरों से जो बाजार से बाहर हैं जहां मालिकों ने हमारे साथ जानकारी साझा की है।
क्या आप ओपनडोर के प्रयासों पर चर्चा कर सकते हैं जो कच्चे डेटा इंगेस्टन को शक्ति देने वाले बुनियादी ढांचे की गति और विश्वसनीयता में सुधार करने के लिए किए जा रहे हैं?
किसी भी नए बाजार लॉन्च से पहले, हम कई वर्षों के ऐतिहासिक डेटा को अवशोषित करते हैं। उच्च गुणवत्ता वाला डेटा हमारे एल्गोरिदम और स्थानीय ऑपरेटरों को प्रशिक्षित करने के लिए महत्वपूर्ण है ताकि वे उस बाजार के भीतर की विविधताओं को समझ सकें। गति और गुणवत्ता में सुधार के लिए, हमने लचीले डेटा मैपिंग टूल और नए डेटा फील्ड कवरेज को स्वचालित रूप से मूल्यांकन करने के लिए उपकरण बनाए हैं। इन उपकरणों के साथ, यह हमें बड़ी मात्रा में ऐतिहासिक रियल एस्टेट लेनदेन डेटा को अवशोषित और सत्यापित करने में कुछ घंटे या दिन लगते हैं, सप्ताह नहीं।
एक और रणनीति जिसमें हमने निवेश किया है वह है प्रोएक्टिव, स्वचालित डेटा गुणवत्ता निगरानी। हमने ऐसे सिस्टम स्थापित किए हैं जो प्रक्रिया के प्रत्येक चरण में हम जिस डेटा को अवशोषित और परिवर्तित कर रहे हैं उसके वितरण की जांच करते हैं, वास्तविक समय में। उदाहरण के लिए, यदि हम उम्मीद करते हैं कि एक विशिष्ट बाजार में 20% नए सूचीबद्ध अपार्टमेंट हैं, और फिर आज 50% नए सूचीबद्ध अपार्टमेंट हैं, तो यह एक इंजीनियर के लिए जांच के लिए एक अलर्ट सेट करेगा।
विशेषज्ञ मानव निर्णय को मशीन लर्निंग एल्गोरिदम के साथ कैसे जोड़ा जाता है ताकि प्रदर्शन में सुधार के लिए फीडबैक लूप बनाया जा सके?
हमारे इन-हाउस मूल्य निर्धारण विशेषज्ञ हमारे मूल्य निर्धारण निर्णयों में एक बड़ी भूमिका निभाते हैं, हमारे एल्गोरिदम के साथ तालमेल में। जहां मशीनें अभी भी अंधे हैं, हमारे विशेषज्ञ ऑपरेटर भरते हैं, और हम विभिन्न चरणों में उन पर निर्भर करते हैं। उदाहरण के लिए, वे इनपुट डेटा जोड़ते या सत्यापित करते हैं, जैसे कि कुछ नवीनीकरण परियोजनाओं की गुणवत्ता। वे मध्यवर्ती निर्णय लेते हैं कि कौन सी विशेषताएं मूल्य निर्धारण के लिए कठिन हो सकती हैं, और वे उपयोगकर्ता-सामने वाले निर्णय भी लेते हैं, जैसे कि कौन से प्रस्ताव स्वीकार किए जाने चाहिए। मानव तत्व हमारी रणनीति में महत्वपूर्ण होगा और हम मानते हैं कि विशेषज्ञों और एल्गोरिदम को मिलाना सबसे अच्छा है।
क्या आप बैकटेस्टिंग को परिभाषित कर सकते हैं और ओपनडोर में इसके महत्व पर चर्चा कर सकते हैं?
बैकटेस्टिंग एक मॉडल की सटीकता का मूल्यांकन करने का एक तरीका है जो ऐतिहासिक डेटा का उपयोग करता है। उदाहरण के लिए, हम ओपनडोर वैल्यूएशन मॉडल को जनवरी 2015 से जनवरी 2021 तक के डेटा पर प्रशिक्षित कर सकते हैं। इस संदर्भ में, “प्रशिक्षित” का अर्थ है कि हम ऐतिहासिक इनपुट, जैसे घर की विशेषताएं, और परिणाम, जैसे बेचे गए घरों की कीमतें, मॉडल में फीड करते हैं। और, बदले में, मॉडल इनपुट और परिणामों के बीच एक संबंध सीखता है। फिर हम इस मॉडल को लेते हैं, जो इन नए सीखे गए संबंधों को प्रतिबिंबित करता है, और हम इसे एक और सेट ऐतिहासिक डेटा में फीड करते हैं, कहते हैं फरवरी 2021 से। क्योंकि डेटा ऐतिहासिक है, हम जानते हैं कि परिणाम क्या हैं, और हम माप सकते हैं कि वे कितना पूर्वानुमान से भिन्न हैं।
यह प्रक्रिया ओपनडोर में बहुत महत्वपूर्ण है, और यह हमारे सभी मशीन लर्निंग उत्पादों के लिए उपयोग की जाती है। यह ओवरफिटिंग नामक समस्या के जोखिम को कम करता है, जो तब होता है जब एक मशीन लर्निंग मॉडल ऐतिहासिक डेटा में पैटर्न की पहचान करता है जो वास्तव में वहां नहीं हैं। उदाहरण के लिए, स्प्यूरियस कोरिलेशन जो वास्तविक दुनिया के पूर्वानुमान में मदद नहीं करते हैं। यह हमें वास्तविक दुनिया के ए/बी परीक्षणों से भी बचाता है जो ऐतिहासिक डेटा के आधार पर समाप्त किए जा सकते हैं।
क्या ओपनडोर के बारे में आप कुछ और साझा करना चाहेंगे?
हम भर्ती कर रहे हैं! यदि आप रियल एस्टेट के भविष्य का निर्माण करने में रुचि रखते हैं, और/या फिनटेक, मशीन लर्निंग और उपभोक्ता उत्पादों के इंटरसेक्शन पर काम करने में रुचि रखते हैं, तो कृपया आवेदन करें! हमारे पास कार्यों और शहरों में खुले पद हैं। हमारे करियर पेज पर जाएं यहां।
धन्यवाद महान साक्षात्कार के लिए, पाठक जो अधिक जानना चाहते हैं उन्हें ओपनडोर पर जाना चाहिए।












