Connect with us

ื“”ืจ ืจืื ืฉืจื™ื”ืจืฉื”, ืกื’ืŸ ื ืฉื™ื ื”ื”ื ื“ืกื” ื‘-Pinecone – ืกื“ืจืช ืจืื™ื•ื ื•ืช

ืจืื™ื•ื ื•ืช

ื“”ืจ ืจืื ืฉืจื™ื”ืจืฉื”, ืกื’ืŸ ื ืฉื™ื ื”ื”ื ื“ืกื” ื‘-Pinecone – ืกื“ืจืช ืจืื™ื•ื ื•ืช

mm

ד”ר ראם שריהרשה, הוא סגן נשיא ההנדסה והמחקר ופיתוח ב-Pinecone.

לפני שהצטרף ל-Pinecone, ראם היה בתפקידי סגן נשיא ב-Yahoo, Databricks ו-Splunk. ב-Yahoo, הוא היה הנדסאי תוכנה ראשי ואחר כך מדען מחקר; ב-Databricks, הוא היה מנהל המוצר וההנדסה של פלטפורמת הניתוח המאוחדת לגנומיקה; ובתקופתו של שלוש שנים ב-Splunk, הוא מילא תפקידים רבים כולל Sr Principal Scientist, סגן נשיא הנדסה ומהנדס מצטיין.

Pinecone היא בסיס נתונים וקטורי מנוהל לחלוטין, המאפשר להוסיף חיפוש וקטורי ליישומים בייצור. היא משלבת ספריות חיפוש וקטורי, יכולות כגון סינון, ותשתית מבוזרת כדי לספק ביצועים גבוהים ואמינות בכל קנה מידה.

מה היה הדבר שמשך אותך ללמידת מכונה?

סטטיסטיקה בממד גבוה, תורת הלמידה ונושאים כאלה היו אלו שמשכו אותי ללמידת מכונה. הם מוגדרים היטב מבחינה מתמטית, ניתנים להיגיון ויש להם תובנות יסודיות להצעה על מהי למידה, וכיצד לתכנן אלגוריתמים שיכולים ללמוד בצורה יעילה.

בעבר, היית סגן נשיא ההנדסה ב-Splunk, פלטפורמת נתונים המסייעת להפוך נתונים לפעולה עבור Observability, IT, Security ועוד. מה היו חלק מהמסקנות העיקריות שלך מחוויה זו?

לא הבנתי עד שהגעתי ל-Splunk כמה רב-גוניים הם המקרים השונים בחיפוש במערכות: אנשים משתמשים ב-Splunk עבור ניתוח לוגים, Observability וניתוחי ביטחון בין היתר. ומה שמשותף לרבים מהמקרים האלה הוא הרעיון של גילוי אירועים דומים או שונים מאוד (או חריגים) בנתונים לא מובנים. זה מתברר כבעיה קשה, ואמצעים מסורתיים של חיפוש בנתונים אלה אינם יעילים. בזמן שהותי ב-Splunk, התחלתי מחקר סביב הנושאים האלה על כיצד ניתן להשתמש בלמידת מכונה (ולמידה עמוקה) עבור כריית לוגים, ניתוחי ביטחון וכו’. דרך עבודה זו, הבנתי שאינדוקציות וקטוריות וחיפוש וקטורי יהיו פרימיטיבים יסודיים עבור גישות חדשות לתחומים אלה.

תוכל לתאר לנו מהו חיפוש וקטורי?

בחיפוש מסורתי (הידוע גם כחיפוש מילים), אתה מחפש מילים זהות בין שאילתה למסמכים (זה יכול להיות ציוצים, מסמכי רשת, מסמכים משפטיים וכו’). כדי לעשות זאת, אתה מפריד את השאילתה שלך לטוקנים, מושך מסמכים שמכילים את הטוקן הנתון וממזג ומדרג כדי לקבוע את המסמכים הרלוונטיים ביותר עבור שאילתה נתונה.

הבעיה העיקרית, כמובן, היא שכדי לקבל תוצאות רלוונטיות, השאילתה שלך צריכה להכיל מילים זהות במסמך. בעיה קלאסית עם חיפוש מסורתי היא: אם אתה מחפש “פופ”, אתה תמצא “מוזיקת פופ”, אבל לא תמצא “סודה” וכו’, מכיוון שאין חפיפה של מילים בין “פופ” למסמכים המכילים “סודה”, אף על פי שאנו יודעים שבאופן בלשוני, באזורים רבים בארצות הברית, “פופ” משמעותו זהה ל”סודה”.

בחיפוש וקטורי, אתה מתחיל על ידי המרה של שאילתות ומסמכים לווקטור במרחב ממד גבוה. זה בדרך כלל נעשה על ידי מעבר הטקסט דרך מודל למידה עמוקה כגון LLMs של OpenAI או מודלי שפה אחרים. מה שאתה מקבל כתוצאה הוא מערך של מספרים בנקודה צפה שיכולים להיחשב כווקטור במרחב ממד גבוה.

הרעיון המרכזי הוא שווקטורים קרובים במרחב הממד הגבוה הם גם דומים מבחינה סמנטית. חזרה לדוגמה של “סודה” ו”פופ”, אם המודל מאומן על הקורפוס הנכון, הוא ברוב המקרים יחשוב ש”פופ” ו”סודה” דומים מבחינה סמנטית, ולכן השתלים התואמים יהיו קרובים זה לזה במרחב השתיל. אם זה המצב, אז השבת מסמכים קרובים עבור שאילתה נתונה הופכת לבעיה של חיפוש אחר השכנים הקרובים ביותר של הווקטור התואם במרחב הממד הגבוה.

תוכל לתאר מהו מסד הנתונים הווקטורי וכיצד הוא מאפשר בניית יישומי חיפוש וקטורי בביצועים גבוהים?

מסד נתונים וקטורי אוגר, מידכן ומנהל את השתילים האלה (או וקטורים). האתגרים העיקריים שמסד נתונים וקטורי פותר הם:

  • בניית אינדקס חיפוש יעיל על וקטורים כדי לענות שאילתות שכנים
  • בניית אינדקסים עזר ומבני נתונים יעילים כדי לתמוך בסינון שאילתות. לדוגמה, אם היית רוצה לחפש רק על תת-קבוצה של הקורפוס, אתה צריך להיות מסוגל לנצל את האינדקס הקיים בלי להיווצר מחדש

תמיכה בעדכונים יעילים ושמירה על נתונים ואינדקס החיפוש טריים, עקביים, יציבים וכו’.

מהם סוגי האלגוריתמים של למידת מכונה המשמשים ב-Pinecone?

אנו בדרך כלל עובדים על אלגוריתמים של חיפוש שכנים מקורבים ופיתוח אלגוריתמים חדשים לעדכון, שאילתה וטיפול בכמויות גדולות של נתונים באופן היעיל ביותר.

אנו גם עובדים על אלגוריתמים שמשלבים שחזור צפוף ודליל עבור שיפור הרלוונטיות של החיפוש.

מהם האתגרים העומדים מאחורי בניית חיפוש מסונן?

בעוד שחיפוש שכנים מקורבים חקר למשך עשורים, אנו מאמינים שיש הרבה שטרם נחשף.

בפרט, כאשר מדובר בתכנון חיפוש שכנים מקורבים בקנה מידה גדול, המבוצע באופן יעיל, או בתכנון אלגוריתמים התומכים בעדכונים בנפח גבוה ובדרך כלל מדדים טריים, כל אלה הם בעיות מאתגרות היום.

מהם סוגי המקרים השונים שטכנולוגיה זו יכולה לשמש?

ספקטרום המקרים למסדי נתונים וקטוריים גדל כל יום. מלבד השימושים שלו בחיפוש סמנטי, אנו רואים אותו גם בשימוש בחיפוש תמונות, אחזור תמונות, AI יוצר, ניתוחי ביטחון וכו’.

מהו חזונך לעתיד החיפוש?

אני חושב שעתיד החיפוש יהיה מונע על ידי AI, ואני לא חושב שזה רחוק מאוד. בעתיד הזה, אני מצפה שמסדי נתונים וקטוריים יהיו פרימיטיב יסודי. אנו רואים את מסדי הנתונים הווקטוריים כזיכרון ארוך-טווח (או בסיס הידע החיצוני) של AI.

תודה על הראיון הנהדר, קוראים שרוצים ללמוד יותר צריכים לבקר בPinecone.

ืื ื˜ื•ืืŸ ื”ื•ื ืžื ื”ื™ื’ ื—ื–ื•ื ื™ ื•ืฉื•ืชืฃ ืžื™ื™ืกื“ ืฉืœ Unite.AI, ื”ืžื•ื ืข ืขืœ ื™ื“ื™ ืชืฉื•ืงื” ื‘ืœืชื™ ืžืขื•ืจืขืจืช ืœืขืฆื‘ ื•ืœืงื“ื ืืช ืขืชื™ื“ ื”-AI ื•ื”ืจื•ื‘ื•ื˜ื™ืงื”. ื™ื–ื ืกื“ืจืชื™, ื”ื•ื ืžืืžื™ืŸ ืฉ-AI ื™ื”ื™ื” ืžืฉื‘ืฉ ื›ืžื• ื—ืฉืžืœ ืœื—ื‘ืจื”, ื•ืœืขื™ืชื™ื ืงืจื•ื‘ื•ืช ื ืชืคืก ื›ืžื™ ืฉืžื“ื‘ืจ ื‘ื”ืชืœื”ื‘ื•ืช ืขืœ ื”ืคื•ื˜ื ืฆื™ืืœ ืฉืœ ื˜ื›ื ื•ืœื•ื’ื™ื•ืช ืžืฉื‘ืฉื•ืช ื•-AGI. ื›-ืคื•ื˜ื•ืจื™ืกื˜, ื”ื•ื ืžื•ืงื“ืฉ ืœื—ืงืจ ื”ืื•ืคืŸ ืฉื‘ื• ื—ื™ื“ื•ืฉื™ื ืืœื” ื™ืขืฆื‘ื• ืืช ืขื•ืœืžื ื•. ื‘ื ื•ืกืฃ, ื”ื•ื ื”ืžื™ื™ืกื“ ืฉืœ Securities.io, ืคืœื˜ืคื•ืจืžื” ื”ืžืชืžืงื“ืช ื‘ื”ืฉืงืขื” ื‘ื˜ื›ื ื•ืœื•ื’ื™ื•ืช ื—ื“ืฉื ื™ื•ืช ืฉืžื’ื“ื™ืจื•ืช ืžื—ื“ืฉ ืืช ื”ืขืชื™ื“ ื•ืžืฉื ื•ืช ืืช ื›ืœ ื”ืžื’ื–ืจื™ื.