Connect with us

ืœืžื” ืื™ื›ื•ืช ื”ื ืชื•ื ื™ื ืงื•ื‘ืขืช ื”ืื AI ืฉืœ ื—ื‘ืจื•ืช ืžืฆืœื™ื— ืื• ื ื›ืฉืœ

ืžื ื”ื™ื’ื™ ื“ืขื”

ืœืžื” ืื™ื›ื•ืช ื”ื ืชื•ื ื™ื ืงื•ื‘ืขืช ื”ืื AI ืฉืœ ื—ื‘ืจื•ืช ืžืฆืœื™ื— ืื• ื ื›ืฉืœ

mm

מאז הופעת הבכורה של OpenAI עם ChatGPT בסוף 2022, כל חברה מנסה להיערך מהר יותר עם AI. חברות חומרה גדולות כמו Nvidia מוכרות יותר ויותר כרטיסים גרפיים, בעוד חברות בנות מודלים גדולים כמו OpenAI ו-Anthropic ממשיכות לבנות מודלים גדולים יותר ויותר.

ועדיין, אפילו עם המודלים המתקדמים ביותר ותקציבים הגדולים ביותר, הרבה פרויקטים AI עדיין נכשלים. ראינו מקרים כאלה בתעשיות רבות, מבריאות לתחבורה, פיננסים ועוד. הסיבה לא מרוחקת: AI הוא רק טוב כמו הנתונים שהוא מאומן עליהם והנתונים שהוא מקבל בזמן אמת. כאשר הנתונים האלה מסומנים בצורה לא טובה, מיושנים או חסרים, אף מודל לא יכול לספק תוצאות עקביות או אמינות.

וזו הבעיה הגדולה שחברות רבות מולה היום. הן משקיעות הרבה בכלים AI, בעוד מערכות הנתונים שלהן נותרות מפוזרות ולא אמינות. התוצאה היא אשליה של קידום. בעוד המודלים מפיקים תשובות מרשימות, התובנות רבות מבוססות על יסודות חלשות. המחסום האמיתי להצלחת AI אינו ביצועי המודל. זו איכות הנתונים.

מהו נתונים טובים באמת

נתונים באיכות גבוהה אינם רק עניין של דיוק. הם משמעות מידע שהוא נוכחי, מלא ורלוונטי לבעיה שעומדת. תארו לכם לקוח שמנסה לבטל הזמנה באתר מסחר אלקטרוני. המערכת צריכה לבדוק את פרטי ההזמנה, מצב המשלוח והרשומות הפיננסיות. אם אחד מנקודות הנתונים האלה חיים במערכות שונות שאינן מדברות זו עם זו, העוזר AI ייכשל במתן תשובה מועילה.

נתונים טובים מחברים את הנקודות האלה באופן מיידי. הם מאפשרים ל-AI לראות תמונה מלאה במקום רק חלקים ממנה. נתונים גרועים, מצד שני, כופים על המודל לנחש. וכאשר AI מתחיל לנחש, הוא עושה טעויות שעולות כסף ופוגעות באמון. דוגמאות אחרונות מראות כמה מסוכנות יכולות להיות הנחות כאלה.

בוט ה-Chatbot של עיריית ניו יורק נתן ייעוץ בלתי חוקי מכיוון שהוא שאב מידע משפטי מיושן או חסר. בוט השירות הלקוחות של Air Canada עשה תביעות שווא להחזר כספים מכיוון שחסר לו הקשר ממדיניות החברה. אפילו מערכות גיוס גדולות סיננו מועמדים בטעות עקב נתונים מוטים או מסומנים בצורה לא נכונה, כפי שנראה ב הסדר הראשון של EEOC הקשור ל-AI. הכישלונות האלה אינם רק טכניים. הם פוגעים במוניטין ובכסף, והם נובעים ממערכות AI שהוכשרו על נתונים לא אמינים.

מחקרי תעשייה מאשרים את היקף הבעיה. Gartner דיווח כי 80 אחוז מפרויקטי AI נכשלים להתרחב עקב איכות נתונים וניהול גרוע. באופן דומה, סקר של MIT Sloan Management Review מצא כי בעיות נתונים, ולא אלגוריתמים, הן הסיבה העיקרית לכישלון פרויקטי AI של חברות.

התרבות חשובה כמו הקוד

שיפור איכות הנתונים אינו משהו שאתה יכול לתקן עם כלי אחד או פקודה. זה דורש שינוי תרבותי. זו הסיבה שמנהיגים עסקיים צריכים לראות בנתונים מערכת חיה שזקוקה לטיפול ואחריות. זה לא רק עניין של הכרזה על “רצון לשפר את הנתונים” – זה לא מספיק. כל חלק בארגון צריך להבין כיצד המידע זורם, מי הבעלים שלו, ומה קורה כאשר הוא משתנה.

ראינו כיצד זה מתרחש במערכות העולם האמיתי. הרבה יישומי AI תלויים בעדכונים יומיים. אם המסד הנתונים שלך מתעדכן פעם ביום, ידע המודל תמיד יהיה מאחורי המציאות. בסביבות מהירות, האיחור הזה יכול להוביל לתובנות מיושנות והחלטות גרועות. חברות צריכות לחשוב מחדש על כל זרימת הנתונים שלהן, מאיך שהמידע נאסף ועד כיצד הוא מובל למודל.

עשיית זאת יכולה לחסוך הרבה זמן ועלות. כאשר צינורות נתונים מתוכננים עם בהירות ומטרה, מערכות AI יכולות ללמוד ולפעול על המידע האחרון והרלוונטי. כאשר הם לא, צוותים בוזבזים יותר זמן בניקוי נתונים מאשר בשימוש בהם.

מומחים ב ניהול נתונים מצביעים רבות על כך שהמפתח לאיכות נתונים חזקה הוא לולאת משוב בין אנשים, תהליכים ופלטפורמות. בלעדיה, המידע הופך למיושן והמודלים מאבדים את הקשר עם תנאים בעולם האמיתי – בעיה שלפעמים נקראת “נדידת נתונים”.

איזון בין מהירות לאמינות

יש לפעמים מתיחות בין הזריעה המהירה לדיוק. הרבה ארגונים רוצים תוצאות מיידיות מהשקעות AI שלהם, אבל היערכות מהירה יכולה להוביל לבעיות גדולות יותר. המטרה צריכה להיות גמישות נתונים עם אמינות. במילים אחרות, בניית מערכות שיכולות לנוע מהר בלי לאבד דיוק.

לצורך זה, כל חברה צריכה להגדיר נתיבים ברורים לנתונים לזרום ממקורם למודל בזמן אמת. זה גם עוזר להגדיר מהו סוג המידע המותר ומהו המידע שחייב להישאר מחוץ. נתונים רגישים או פרטיים אף פעם לא צריכים להגיע למודל, אפילו אם המשתמש הוא בעל גישה אליהם. הגנה על הגבול הזה בונה אמון ומונע ממערכות AI לדלוף או להשתמש לרעה במידע.

ככל ש-AI הופך לאוטונומי יותר, פיקוח אנושי יישאר ביקורתי. המודל לא צריך להיות בשליטה מלאה על פעולות עסקיות. הוא בטח לא צריך לקבל החלטות. במקום זאת, הוא צריך לבקש. יותר מכך, בני אדם תמיד צריכים לבדוק ולאשר את פעולותיו כדי לוודא שהן עולות בקנה אחד עם מדיניות החברה והרגולציה.

בנייה לאיכות מהיסוד

תחזוקת איכות נתונים בקנה מידה גדול אינה רק עניין של ניקוי שגיאות. היא מתחילה עם ארכיטקטורה. אתה צריך לזהות היכן נמצאים הנתונים האמינים ביותר, ואז לתכנן מערכת שמביאה אותם יחד במקום אחד אמין. משם, אתה יכול לעקוב אחרי הנתונים שהמודל משתמש בהם ומהו מקורם.

גישה זו מונעת בלבול ושומרת על המערכת השקופה. היא גם עוזרת לצוותים לפתור בעיות מהר יותר כאשר משהו הולך לא טוב. כאשר אתה יודע בדיוק אילו נתונים הזינו את התשובה של המודל, אתה יכול לאמת ולתקן בעיות לפני שהן מתפשטות.

עתידו של AI של חברות ישייך לחברות שמשתילות איכות בתשתית שלהן ברירת מחדל. אנו צריכים לצפות לראות יותר מערכות AI שילוביות שיטפלו הן בהיגיון והן באינטגרציה של נתונים בחבילה אחת. מערכות “אפליאנס AI” אלה יכולות להקל על ארגונים להטמיע מערכות חכמות בלי לאבד שליטה על הנתונים שלהם.

אנליסטים צופים כי ארגונים המסוגלים לאחד ולנהל את הנתונים שלהם ביעילות יראו אימוץ מהיר יותר ו-ROI גבוה יותר מפרויקטי AI. דו”ח אחרון על כשירות נתונים מסביר כי יכולת זו מפרידה בין חברות שחודרות ברציפות לאלו שנעצרות אחרי ניסויים ראשוניים. ההבדל רבות לפעמים מגיע לכך שמערכות AI שלהן בנויות על מידע עקבי ומובנה היטב.

התוצאה

איכות הנתונים עשויה לא להישמע מרגשת בהשוואה לפריצות דרך בעיצוב מודל, אבל זו הכוח השקט שקובע האם AI מצליח או נכשל. בלי נתונים נקיים, נוכחיים ועקביים, המערכות החכמות ביותר ייכשלו. עם זאת, אפילו פרויקטי AI מודעים יכולים ליצור ערך מתמשך.

כל מנהיג שמשקיע ב-AI צריך לשאול שאלה פשוטה: האם אנו בוטחים בנתונים שמנחים את החלטותינו? ממה שראינו, החברות שיכולות לענות בביטחון “כן” הן אלו שכבר מובילות במרוץ AI.

ืื•ืจืŸ ืื™ื ื™ ื”ื•ื ื”ืžื™ื™ืกื“ ื•ื”ืžื ื›"ืœ ืฉืœ RavenDB, ื‘ืกื™ืก ื ืชื•ื ื™ื ืžืจื•ื‘ืข NoSQL ืฉืœ ืžืกืžื›ื™ื, ื”ืžื”ื™ืžืŸ ืขืœ ื™ื“ื™ ืžืคืชื—ื™ื ื•ื—ื‘ืจื•ืช ื‘ืจื—ื‘ื™ ื”ืขื•ืœื. ื‘ื ื•ืกืฃ ืœื”ื™ื•ืชื• ื”ื›ื•ื— ื”ืžื ื™ืข ืžืื—ื•ืจื™ ื”ืฆืžื™ื—ื” ื•ื”ื”ืจื—ื‘ื” ืฉืœ ื‘ืกื™ืก ื”ื ืชื•ื ื™ื RavenDB, ืื•ืจืŸ ื”ื•ื ื‘ืœื•ื’ืจ ื ืœื”ื‘ ื•ืžืจืฆื” ื‘ืื™ืจื•ืขื™ื ืžืงืฆื•ืขื™ื™ื ื‘ืจื—ื‘ื™ ื”ืขื•ืœื.